Claude에서 Computer Use 라는 놀라운 기능을 선보였다. (출처 : 앤트로픽)
- 앤트로픽에서 새로운 업데이트를 발표했습니다. 컴퓨터 사용 (Computer Use)이라는 기능인데요. 생성형 AI가 이렇게 또 한 번 혁신하는군요.
- 기존의 AI는 서비스 툴 안에서 사용하게 됩니다. 해당 서비스 내에서 질문하고 대답합니다. 이미지나 영상 그리고 오디오로 확장한 멀티 모달로 확장할 수는 있었죠.
- 하지만 이제는 AI가 사람이 실제 컴퓨터를 쓰는 방식을 그대로 모방해서 어떤 미션을 수행할 수 있게 되었습니다. 말 그대로 AI가 컴퓨터를 명령에 따라 조작하는 거죠.
- Claude의 Computer Use 기능은 아직은 베타 버젼이지만 앞으로의 가능성은 엄청납니다.
- 오늘 수요레터에서는 Claude에서 소개한 Computer Use의 기능 데모와 의미에 대해서 정리해 보겠습니다.
Claude 사용 화면. Claude 3.5 Sonnet (New)라고 새로운 기능이 업데이트 되었음을 보여준다. 오늘 소개할 Computer Use는 개발자용 API 만 오픈한 상태이다.
Computer Use 란 무엇인가?
- 사람이 컴퓨터를 이용하는 방식을 그대로 AI가 수행하는 기능입니다.
- 화면을 보고, 커서를 움직이고, 버튼을 클릭하고, 텍스트를 입력하는 방식을 사람이 직접 하지 않고, 그냥 Claude를 통해서 지시할 수 있는 거죠.
- OpenAI 나 Goolge에서도 관련된 기능을 준비 중인 것으로 알고 있는데, Claude가 먼저 선수를 쳤습니다.
- 아직은 실험 단계이고 제약된 환경에서만 효과를 보인다고 앤트로픽은 밝히고 있는데요.
- 현재는 개발자의 피드백을 얻기 위해서 API만을 공개한 상태이고, 시간이 지나면서 아마 빠르게 업데이트되지 않을까 생각합니다.
- 그리고 여러 서비스 기업과도 Computer Use 기능을 테스트해 보고 있다고 하는데요. Asana, Canva, The Browser Company 같은 서비스들입니다.
- 앤트로픽에서는 Claude의 Computer Use에 대해서 총 3가지 데모를 소개했는데요.
- 코딩, 업무 수행, 업무 자동화 이렇게 3가지 입니다. 영상을 보면 기존에 AI를 사용하는 방식과는 전혀 다르다는 것을 볼 수 있는데요. 마치 진짜 사람 조수를 한 명 두고, 그 조수에게 일을 시키는 것과 같은 느낌입니다.
- 그중에서 업무 자동화 부분의 데모를 간단히 소개해 드릴게요.
데모
- 먼저 데모 환경을 설명합니다. 해당 영상은 실제 Claude가 수행한 장면을 녹화한 것이라고 하구요. 다만 아직은 베타 버젼이라 해당 기능의 장점을 강조하기 위해서 환경을 제한하고 조절된 상태로 진행했다고 합니다.
- 어떤 고객이 특정 양식을 보내주고 내용을 채워서 보내달라고 하는 요청 사항을 Claude가 실제로 어떻게 처리하는지를 보여주는 데모인데요.
- Claude에게 이렇게 명령합니다.
“ Ant Equipment Co 라는 회사에서 온 요청 항목들을 채워주는데, 스프레드시트에 있는
내용을 이용하거나 아니면 벤더 포탈에서 찾아서 채워줘. 이 두개의 창을 통해서 항목을
확인하고 완료해줘 “
- 실제로 회사에서 하는 업무의 형태와 정말 똑같지 않습니까? 이런 지시를 Claude가 처리해 나갑니다.
- 화면을 보면 왼쪽에 스프레드시트가 있고, 관련된 정보를 찾을 수 있는 벤터 포탈이 탭으로 있습니다. 오른쪽 창에는 고객이 요청한 기입 항목이 있구요. 왼쪽의 내용을 확인해서 오른쪽의 항목에 맞춰 입력하고 제출하는 미션입니다.
- 왼쪽 사이드바에서는 Claude가 동작하는 상태를 표시해 주고 있습니다.
- 상단에 미션을 명령한 내용이 보이고, 그 아래에는 해당 명령을 Claude가 수행해 나가는 과정을 설명하고 있습니다.
- 요청한 미션을 수행하겠다고 Claude가 말하고, 화면을 캡쳐합니다.
- Claude는 스크린샷된 이미지를 분석해 나가는 과정을 통해 상황을 이해하고 처리해 나간다고 볼 수 있죠.
- 스프레드시트 화면을 보니 해당되는 정보를 찾지 못했다고 Claude가 말합니다.
- 그래서 벤더 포탈 탭을 누르겠다고 말하고는 그 다음 액션을 진행합니다.
- Claude가 죄표가 표시하는데, 화면에서 해당 좌표 위치로 마우스 커스를 이동시키겠다고 하는 겁니다. Computer Use 기능은 AI가 사용자의 컴퓨터를 실제로 조절할 수 있도록 연동되어 있습니다. AI가 명령에 따라 컴퓨터를 직접 조정하는 거죠.
- 그리고는 포탈 화면을 다시 스크린캡쳐 하고 내용을 분석합니다.
- 해당 포탈에서 'Ant Equipment Co' 라는 회사의 정보를 찾기 위해, 검색창에 해당 기업의 이름을 타이핑 합니다. 타이핑하는 과정도 Claude가 직접 진행하고 있다는 것을 기억해야 합니다.
- 포탈 창에서 검색 결과에 따라 그 기업의 회사의 내용이 나오고, Claude가 페이지 다운을 해가면서 추가적인 정보를 검색합니다. 검색한다는 표현은 정확하게는 해당 화면을 스크린캡쳐하고 이미지를 분석하는 과정이라고 볼 수 있습니다.
- 그리고는 오른 쪽에 있는 요청된 입력 창에 필요한 내용을 Claude가 입력합니다.
- 입력이 완료되었고 최종적으로 Claude가 제출까지 완료합니다.
- 대단하지 않습니까? 정말 사람이 컴퓨터를 사용해서 작업하는 방식과 놀랍도록 유사합니다.
한계와 전망
- 물론 아직은 많은 한계가 있어 보입니다.
- 무엇보다 이런 미션을 위해서는 엄청난 데이터가 필요합니다. 현재는 제한된 스크린샷으로만 분석해서 결과를 내는 수준인데, 실제 사람이 하는 것처럼 동작하기 위해서는 동영상과 같은 많은 프레임을 연속적으로 빠르게 분석해야 하는 부담이 있죠.
- 또 스크롤, 드래그, 확대/축소 처럼 사람이 손쉽게 하는 동작들은 Claude가 수행하기에 많은 개선이 필요하다고 얘기하고 있습니다.
- 결국은 성능 개선과 비용의 문제입니다. 그래서 지금처럼 엄청난 속도로 AI가 발전하는 상황으로 볼 때 어쩌면 아주 빠른 시일 내에 실제로 기업이나 일반인이 사용할 수 있는 버젼의 제품이 나올 수도 있을 것 같습니다.
- 또 하나는 악용의 염려입니다. 앤트로픽도 스스로 밝힌것처럼 Computer Use 기능은 스팸이나 사기 등에 악용될 가능성이 아주 높습니다. 그래서 매우 적극적인 안전 조치를 마련하고 있다고 앤트로픽은 얘기하고 있습니다.
- 하지만 늘 그래왔듯이 어떤 기술이라 하더라도 그것을 악용하려는 시도는 항상 일어나게 마련이죠. 근본적으로 막을 수는 없을 겁니다.
아무튼 이번 Claude가 발표한 Computer Use 기능은 앞으로 AI 발전의 큰 이정표가 될 것으로 전망합니다. 거대한 혁신이 펼쳐지고 있습니다. 좋은 의미든 나쁜 의미든 말이죠.
촌장 드림
'테크 엔돌핀 <수요레터>' 카테고리의 다른 글
트럼트 당선 / 빅테크 기업들의 명암 (16) | 2024.11.15 |
---|---|
"AI 검색의 시대" (2) | 2024.11.06 |
화성을 향한 거대한 도약! 로봇팔, 로켓을 낚아채다! (4) | 2024.10.23 |
AI 폭주에 대한유발 하라리의 경고 (5) | 2024.10.17 |
AI가 노벨상을 휩쓸다! 노벨 물리학상에 이어 화학상까지! (3) | 2024.10.10 |