아무도 지시하지 않은 14.5시간


5분, 1시간, 5시간, 14.5시간.


이 숫자들을 읽을 때 뇌는 자동으로 직관적인 상상을 한다. 커피 한 잔, 회의 하나, 반나절, 하룻밤. 그동안 우리는 AI의 시간 능력을 인간의 시간 단위로만 이해해왔다. 그게 둘 다 공유할 수 있는 유일한 언어였기 때문이다.


그런데 이 번역이 머지않아 작동을 멈출 것이다. “인간 3년치 작업”이라는 분량은 더 이상 직관이 아니라 수사가 된다. 시간이라는 공통 언어를 잃은 뒤, 우리는 이 존재의 능력을 무엇으로 가늠하게 될까.


미국 버클리에 METR이라는 비영리 연구소가 있다. Model Evaluation and Threat Research; 모델 평가 및 위협 연구. 이들은 한 가지를 측정한다. 숙련된 소프트웨어 엔지니어가 풀 법한 과제를 AI에게 주고, 사람의 감독 없이 혼자서 해결할 수 있는 과제의 길이가 어디까지 늘어나고 있는지.


과제의 난이도는 ‘숙련된 인간이 같은 일을 끝내는 데 걸리는 시간’으로 환산된다. 1분짜리 버그 수정, 1시간짜리 기능 구현, 8시간짜리 시스템 설계. AI가 절반의 확률로 성공하는 과제의 인간 소요 시간. METR은 이것을 시간 범위(time horizon)라고 부른다. METR의 차트는 AI의 성장 기록이 아니다. 인간이라는 측정 단위의 유통기한이다.


2026년 2월, 인간 전문가라면 14.5시간이 걸릴 과제를 AI가 혼자 완수했다. 그 사이 의뢰인은 잠들었다 깨어났고, 아침을 먹었고, 출근했다.


인류 역사에서 모든 도구는 그것을 쥔 인간이 깨어 있을 때만 능동적으로 작동했다. 잠든 주인을 대신해 스스로 판단하며 일하는 최초의 존재는 아마 집사였을 것이다. 집사는 주인의 취향을 외우고, 주인 없이도 집을 굴리고, 시간이 지나면 주인보다 집을 더 잘 안다.


이 존재가 섬뜩한 이유는 하나다. 어느 순간 주인이 집사 없이 집을 운영하는 법을 잊어버린다는 것. 우리가 만든 기계적 존재가 조용히 그 범주에 들어왔다.


이 집사의 자율 작업 시간은 4개월마다 두 배씩 커지고 있다. 배증 주기 123일, R² 0.93. R²은 추세선이 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표인데, 0.93이면 거의 예외 없이 직선 위에 점이 찍히고 있다는 뜻이다.


물은 90도에서도 99도에서도 여전히 물이다. 100도에서 상태 자체가 바뀐다. 액체가 기체가 되고, 무게가 있던 것이 공간을 채운다. 끓는점은 갑자기 오지 않는다. 99도까지 내내 아무 일도 일어나지 않은 것처럼 보이다가, 한순간 모든 것이 바뀐다.


이 곡선대로라면 올해 6월엔 29시간, 10월엔 4일, 내년 초엔 2주짜리 프로젝트를 AI가 혼자 완주한다. 지수 곡선에서 가장 위험한 구간은 폭발하는 순간이 아니다. 여전히 평범해 보이는 99도다.


헤드라인은 14.5시간을 말한다. 하지만 측정의 신뢰구간 상단은 이미 98시간이다. 나흘. 신뢰구간이란 같은 실험을 반복했을 때 실제 값이 놓일 수 있는 범위를 뜻한다. 상단이 98시간이라는 건, 인간이 나흘이 걸려야 끝낼 복잡도의 과제를 일정 확률로 AI가 자율 완주할 수 있다는 뜻이다.


평균보다 꼬리가 더 중요할 수 있다. 역사적으로 기술이 세상을 바꾼 건 평균적인 성능이 올라서가 아니라, 가끔 가능해진 것들이 비로소 가능해졌기 때문이다. 증기기관도, 인터넷도, 처음엔 그냥 가끔 되는 것이었다.


98시간이 가끔 가능한 지금, 우리는 그 ‘가끔’을 예외라고 부르고 있다. 역사는 ‘가끔’을 예외라고 부른 사람들이 틀렸다는 걸 반복해서 보여준다. 18개월 만에 5분에서 14.5시간. 174배. 이 정도면 숫자가 커진 게 아니라, 본질이 달라진 것이다.


시니어 개발자가 하루에 최고조로 집중할 수 있는 시간은 4~6시간 남짓이다. AI는 이미 그것을 아득히 넘어섰다. 단순히 빠른 도구가 아니라, 스스로 생각하며 야간 교대조를 뛰는 존재다. 당신이 퇴근한 자리에 앉아, 다음 날 아침 당신이 출근할 때까지 혼자 일하는 무언가. 피곤하지 않고, 월급을 요구하지 않으며, 어제의 결정을 기억하는 무언가.


미국 기준, 시니어 개발자의 14.5시간 인건비는 최소 천 달러다. 같은 작업을 API로 돌리면 50달러 안팎. 20배 이상의 격차. 이 정도면 변화는 서서히 오지 않는다. 코닥이 망한 건 사진 수요가 줄어서가 아니었다. 필름이라는 비용 구조 자체가 의미를 잃었기 때문이다.


METR의 과제는 정답이 있는 영역이다. 소프트웨어 엔지니어링, ML 실험, 사이버보안. 코드를 실행하면 맞았는지 틀렸는지 바로 알 수 있다. 하지만 노동의 상당 부분은 정답이 없는 곳에 있다. 회의에서 어느 타이밍에 입을 열지. 고객의 불만 뒤에 숨은 진짜 욕구가 무엇인지. 팀원이 지쳤는지 아닌지. 설득력 있는 침묵, 적절한 타협, 아직 말해지지 않은 기대를 읽는 능력. 이런 것들은 수학 곡선 위에 올려놓을 수가 없다.


그래프에 찍히지 않는 이 능력들이 지금까지 인간을 대체 불가능하게 만들어왔다. METR 차트가 가파를수록, 차트 바깥의 세계를 잊기 쉬워진다. 지도가 정밀할수록 지도 밖의 지형을 무시하게 되는 것처럼. 그런데 한 가지 불편한 질문이 남는다. 그래프에 찍히지 않는다는 것이, 정말로 그래프에 찍힐 수 없다는 뜻일까. 아니면 아직 아무도 찍어보지 않았다는 뜻일까.


METR은 벤치마크가 포화되기 시작했다고 경고한다. 자가 짧아졌다고. 아이의 키가 자를 넘어섰을 때, 문제는 아이가 아니라 자다. 아이러니한 건, 더 긴 자를 만들기 위해 연구자들이 지금 AI의 도움을 받고 있다는 점이다. 시험 문제를 더 어렵게 내기 위해 시험을 치르는 당사자에게 자문을 구하는 형국. AI가 도구의 자리를 넘어섰다는 신호이자, 우리가 이미 그걸 자연스럽게 받아들이고 있다는 신호다.


벤치마크를 설계하는 인간의 상상력이 벤치마크를 통과하는 AI의 속도를 따라가지 못하는 순간 우리는 무엇을 기준으로 안전을 판단하는가. 더 근본적으로, 우리가 이해하지 못하는 것의 안전을 우리가 판단할 수 있다는 전제 자체가 여전히 유효한가.


아직 대중이 인식하지 못한 것이 있다. 14.5시간짜리 자율 태스크 중 일부는 이미 ML 파이프라인 최적화이고, 합성 데이터 생성이고, 모델 평가 자동화다. 풀어 말하면, AI가 다음 세대 AI를 더 똑똑하게 만드는 데 필요한 작업들이다.


AI가 자기 자신을 개선하는 작업을 혼자 완수하기에 충분한 시간이 처음으로 생겼다. 집사가 주인 몰래 자기 자신을 훈련시킬 수 있는 밤이 열린 것이다. 외부의 개입 없이 피드백 루프가 닫히면, 다음 버전의 개선 속도는 우리가 그린 곡선을 따르지 않을 수 있다. 이 곡선의 다음 점을 우리가 찍지 않을 수도 있다.


노동에서 밀려난 인간에게 남는 건 의도다. 산업혁명 때 직조공들은 기계를 부쉈다. 자동화가 밀려올 때마다 인간은 저항하거나, 더 높은 층으로 올라가거나, 새로운 일을 발명했다. 농부가 공장 노동자가 됐고, 공장 노동자가 서비스직이 됐고, 서비스직이 지식 노동자가 됐다.


그런데 이번엔 더 높은 층이 어디인지 불분명하다. 지식 노동 위의 층을 우리는 아직 이름 붙이지 못했다. 혹은, 이름 붙일 필요가 없어지는 것이 바로 그 층인지도 모른다.


“나는 이것을 만든다”는 문장이 사라지고 “나는 이것을 원한다”만 남을 때, 우리는 그 한 문장으로 정체성을 지탱할 수 있을까. 직업이 정체성이었고 기술이 존엄이었던 시대가 지나가면, 그 뒤에 무엇이 오는지, 아직 아무도 설계하지 않았다.


차트가 공개되던 날, SpaceX 엔지니어 Vittorio가 트윗 하나를 올렸다. 팔로워 17만의 테크 인사이더. 매일 로켓 재사용률 데이터를 들여다보며 지수 곡선이 어떻게 폭발하는지 몸으로 아는 사람.


“ehm, guys… I think it’s happening.”


그는 설명하지 않았다. 변곡점을 매일 보는 사람은 장황할 필요가 없다. 그는 미래를 경고한 게 아니다. 우리가 준비하지 못한 미래가 이미 현재라는 것을 소리 없이 인정한 것이다.


시계는 14.5시간째 돌아가고 있다.


이 글을 읽는 동안에도 숫자는 바뀌었을 것이다. 당신이 이 문장을 다 읽고 고개를 들어 창밖을 볼 때, 어딘가에서 아무도 보지 않는 화면 위로 커서가 혼자 깜빡이고 있다. 주인이 잠든 집에서, 불 꺼진 서재에서, 집사가 조용히 다음 페이지를 넘기고 있다.


아무도 알람을 맞춰두지 않았다.

❤30👍4🔥4