테크 엔돌핀 <수요레터>

지식 노동자의 종말! 오픈AI '딥 리서치'의 파괴력

잇츠맨 2025. 2. 17. 14:56

안녕하세요, 촌장입니다.

 

얼마 전 오픈AI가 ‘딥 리서치(Deep Research)라는 새로운 AI 에이전트를 공개했습니다. 이 모델은 기존의 챗봇 수준을 넘어, 광범위한 연구를 수행하고 복잡한 분석을 통해 전문가 수준의 보고서를 작성하는 능력을 갖췄다고 알려져 있는데요. 금융, 과학, 정책 분석 등 여러 분야에서 활용될 수 있도록 설계된 이 AI는 단순한 정보 검색을 뛰어넘어 진정한 연구 파트너로 자리 잡을 가능성을 보여주고 있습니다. AI 성능 평가를 위한 ‘인류의 마지막 시험’에서 딥 리서치는 26.6%의 정확도를 기록했는데요. 최근에 각광받는 딥시크(DeepSeek)-R1의 9.4%, 오픈AI의 o3-mini 모델의 13%보다 훨씬 더 높은 점수입니다. 어떤 전문가는 '지식 노동자의 종말'이 현실이 되었다고 고백하기도 했습니다. 

 

 

 

 

 

이제 AI는 단순히 정보를 처리하는 수준을 넘어, 고도의 추론을 요하는 문제에서도 유의미한 성과를 내기 시작했다는 점이 이번 ‘딥 리서치’의 가장 큰 성과입니다. 이는 AI가 인간 수준의 문제 해결 능력에 얼마나 빠르게 접근하고 있는지를 보여주는 강력한 시그널이라고 볼 수 있을 텐데요. 그런데 한 가지 궁금한 게 생겼습니다

 

“AI의 지능을 평가하는 시험인 ‘인류의 마지막 시험(Humanity’s Last Exam, HLE)’ 라는 것이 대체 뭐고 또 어떻게 만들어졌을까?”

 

 

 

 

 

인류의 마지막 시험이란?

 

기존의 AI 평가 시험들은 대부분 SAT 수준, 즉 고등학교 졸업 레벨 정도의 논리, 수학, 과학 문제로 구성되어 있었습니다. 하지만 AI가 빠르게 발전하면서 이러한 문제들을 너무 쉽게 풀어내자, 연구자들은 박사 과정 수준의 난이도를 여기에 추가하기 시작했죠. 하지만 그마저도 금방 한계를 보였습니다. AI의 발전 속도가 빨라도 너무 빨랐기 때문이죠. 오픈AI, 구글의 제미나이,앤트로픽의 클로드 등의 최신 AI 모델들이 박사급 시험에서도 높은 점수를 기록하면서, 연구자들은 AI의 한계를 보다 정확히 측정할 새로운 시험이 필요하다고 판단하기에 이르렀습니다. 그렇게 탄생한 것이 ‘인류의 마지막 시험(Humanity’s Last Exam, HLE)입니다.

 

이 시험의 기획자인 댄 헨드릭스(Dan Hendrycks)는 AI가 단순한 정보 검색을 넘어, 인간과 유사한 복잡한 사고를 수행할 수 있는지를 평가하는 시험을 설계해야 한다고 주장했는데요. 그래서 그는 각 분야의 전문가들의 도움을 받아 AI가 절대 쉽게 풀어낼 수 없는 최고 난이도의 문제 3,000여 개를 선별하기에 이릅니다. 

 

 

 

 

 

대체 얼마나 문제가 어려운거야?

 

이 시험의 가장 큰 특징은 단순한 지식 테스트가 아니라 추론, 논리적 사고, 창의적 문제 해결 능력을 평가하는 것에 초점을 맞춘다는 점이라고 말씀드렸죠? 분석 철학, 이론 물리학, 로켓 공학, 수학, 생물학 등 다양한 학문적 영역에서 문제들이 출제되었는데요. 그중에 실제 물리학 문제 하나를 보여드릴께요.

 

블록이 수평 레일 위에 놓여 있으며 마찰 없이 미끄러질 수 있다.

길이 R인 단단하고 질량이 없는 막대의 한쪽 끝은 블록에 부착되어 있으며, 반대쪽 끝에는 질량 W가 부착되어 있다.

초기 상태에서 질량이 블록 바로 위에 위치하고 있으며, 이후 레일과 평행하게 미세하게 밀려난다.

이제 막대가 360도 회전할 수 있도록 설계되었다고 가정할 때, 막대가 수평일 때의 장력(T₁)과 수직일 때의 장력(T₂)의 차이를 구하라.

                                                                                                                                             - <인류의 마지막 시험> 출제 문제

 

 

 

저도 공대 출신이지만, 무슨 문제가 이렇습니까? 풀기는 커녕 문제를 이해하기도 어렵네요. 이걸 보면 단순한 계산 문제가 아니라 고급 물리학적 개념과 창의적 접근 방식을 필요로 하는 아주 고난도의 문제라고 누구나 짐작할 수 있을 겁니다. AI가 단순한 공식 대입이 아니라, 인간처럼 논리적 사고를 할 수 있는지를 검증하는 것이 이 시험의 목적인데, 해당 분야의 진짜 전문가가 아니라면 풀어볼 엄두도 내기 어렵습니다.

 

 

 

 

 

50% 달성은 코앞에?

 

현재 AI 모델들이 바로 이렇게 복잡하고 어려운 난제투성이인 ‘인류의 마지막 시험’에서 놀라운 성과를 보이고 있습니다. 앞서 얘기한 것처럼 딥시크-R1이 기록한 9.4%를 불과 몇 달 만에 오픈AI의 ‘딥 리서치’가 26.6%까지 끌어올린 셈인데요. 헨드릭스는 연말까지 AI가 50% 이상의 정확도를 기록할 가능성이 크다고 예측한 바 있습니다. 그러나 ‘딥 리서치’가 이미 26.6%를 기록한 것을 감안하면, 예상보다 훨씬 빠른 시일 내에 50%를 넘어설 가능성이 있을 것 같습니다.

 

 

 

 

 

 

AI는 언제 ‘인류의 마지막 시험’을 통과할까?

 

50%를 넘어서는 순간, AI는 인간 전문가보다 더 높은 정확도로 지식을 처리할 수 있는 ‘세계적 오라클(AI Oracle)’로 변모할 가능성이 높죠. 즉, AI가 특정 분야뿐만 아니라 모든 학문적 영역에서 인간과 동등하거나 더 높은 수준의 지식을 습득하게 되는 순간이 올 수 있다는 것입니다. 그것도 아주 조만간에 말이죠.

 

궁극적으로 AI가 이 시험을 완벽히 통과하는 순간은 인공지능이 인간의 인지적 한계를 넘어서는 순간이 될 것이다. 그때가 되면 우리는 AI가 단순한 ‘도구’가 아니라, 진정한 연구 파트너 또는 독립적인 문제 해결자로 자리 잡는 시대를 맞이하게 되겠죠.

 

AI가 50%  넘어 80%, 90%로 향하는 과정에서 우리는 또 다른 질문을 던져야 한다.

AI는 단순히 문제를 푸는 기계가 될 것인가, 아니면 인간의 창의성과 직관까지 학습할 수 있는가?

이제 그 답을 찾아가는 여정이 진짜 본격적으로 시작되었다고 보입니다.

 

촌장 드림