Rabbit Crypt · 토끼굴

프롬프팅 역량이 인류의 새로운 전투력이 되는 날

우리는 인간의 능력을 측정하는 데 놀라울 정도로 조잡한 도구들을 써왔다. 수능은 18년의 학습을 하루의 마크시트로 압축하고, 토익은 비즈니스 영어라는 광활한 영토를 990점짜리 자로 재단한다. 누구도 완벽하다고 생각하지 않지만, 더 나은 대안이 없었기에 사회 전체가 이 불완전한 프록시에 합의해왔다. 대학 입학, 취업, 승진. 인생의 관문마다 이 숫자들이 문지기를 자처한다.

그런데 지금, 완전히 다른 종류의 능력이 부상하고 있다. 같은 AI, 같은 모델, 같은 가격을 쓰면서도 누군가는 한 줄짜리 요약을 받고, 누군가는 논문 수준의 분석을 뽑아낸다. 이 차이를 만드는 것이 프롬프팅 역량이다. 그리고 이것이 21세기의 가장 중요한 생산성 지표가 되리라고 나는 확신한다.

AI 업계는 모델의 능력을 측정하는 데 엄청난 에너지를 쏟고 있다. MMLU는 57개 학문 분야의 4지선다, HumanEval은 164개의 파이썬 함수 작성, GSM8K는 초등 수학, Chatbot Arena는 100만 명이 넘는 사람들의 블라인드 투표. 전부 "이 AI가 얼마나 똑똑한가?"를 재려는 시도다.

여기에 흥미로운 비대칭이 있다. AI의 능력을 이토록 정교하게 측정하는 동안, 그 AI를 사용하는 인간의 능력은 아무도 측정하지 않는다. 자동차의 마력은 소수점까지 스펙시트에 적혀 있지만, 운전자의 실력을 재는 보편적 지표는 면허증 유무뿐이다. AI를 측정하던 시대는 끝나간다. 다음은 인간의 AI 사용 역량을 측정하는 시대다.

벤치마크의 역사 자체가 그 전환을 예고한다. MMLU는 2020년에 표준 척도가 되었지만 4년 만에 포화됐다. GPT-4가 86%를 찍자 변별력이 사라졌고, 학습 데이터에 문항이 오염되며 점수가 부풀었다. SWE-bench는 더 극적이다. 실제 GitHub 이슈를 해결하게 하는 "실무 코딩의 황금 표준"이었지만, OpenAI가 2026년에 공식 폐기를 선언했다. 테스트 케이스의 59.4%가 올바른 해법을 거부하는 결함이 있었고, 프론티어 모델들이 원본 수정 패치를 학습 데이터에서 통째로 외워왔다는 증거가 나왔다. 시험지가 이미 유출된 시험이었던 것이다.

굿하트의 법칙이 실시간으로 증명되고 있다. 벤치마크가 목표가 되는 순간, 그것은 좋은 측정 도구이기를 멈춘다. 그래서 업계는 동적 벤치마크로 이동한다. LiveCodeBench는 매일 새 문제를 추가하고, Chatbot Arena는 매일 수천 명의 질문이 유입된다. 정적인 시험지에서 살아 있는 평가로의 전환. 이 방향성은 인간의 능력 측정에도 정확히 같은 함의를 갖는다.

그렇다면 프롬프팅 역량이란 정확히 무엇인가? 단순히 "질문을 잘 하는 것"이 아니다. 문제를 정의하고 구조화하는 능력, 맥락을 설계하는 능력, 추상과 구체 사이를 자유롭게 오가는 능력, 복수의 AI 에이전트를 오케스트레이션하는 능력, 그리고 AI라는 증폭기의 특성을 깊이 이해하여 자신의 의도를 최대 배율로 변환하는 능력의 총체다.

"프롬프트 엔지니어링"이라는 좁은 기술 스킬과 혼동하면 안 된다. 이것은 인지적 메타스킬이다. 생각을 구조화하고 전달하는 능력의 극한 형태.

같은 ChatGPT 앞에서 "마케팅 전략 짜줘"라고 치는 사람은 블로그 포스트 수준의 일반론을 받는다. 타겟 고객의 심리 프로파일부터 경쟁사 포지셔닝 맵, 채널별 ROI 가설까지 구조화해서 던지는 사람은 실행 가능한 전략 문서를 받는다. 이 격차는 모델이 강해질수록 오히려 벌어진다. 도구의 천장이 올라갈수록 그것을 다루는 손의 차이가 기하급수적으로 증폭되기 때문이다.

드래곤볼의 스카우터를 떠올려보자. 베지터가 지구에 도착해 스카우터로 상대의 전투력을 읽는다. "전투력 5… 쓰레기 같군." 조잡하지만 강력한 숫자. 복잡한 전투 능력의 모든 차원을 하나의 수치로 압축해서 즉각적인 판단을 가능하게 했다. 우리에게도 곧 이런 스카우터가 필요해진다. 수능 점수나 학벌이 아니라, 이 사람이 AI와 협업했을 때의 출력 품질을 예측할 수 있는 숫자. 그것이 프롬프팅 역량 지수이고, 이를 측정하는 표준화된 시험이 반드시 등장한다.

그 시험은 당연히 오픈북이다. AI를 쓰는 것이 전제다. AI 없이 능력을 측정하는 것은 계산기 없이 수학 실력을 재는 것만큼 시대착오적이다. 진짜 측정해야 할 것은 증폭기를 얼마나 효과적으로 활용하느냐다.

시험장의 풍경을 상상해 본다. 수험생 앞에 복잡한 비즈니스 문제가 놓인다. "이 SaaS 회사의 이탈률을 3개월 내 30% 줄여라." 어떤 AI든 자유롭게 쓸 수 있다. 제한 시간 안에 산출물의 품질만으로 평가된다. 같은 AI를 쓰더라도 질문의 순서, 결과 검증 방식, 반복 개선의 깊이에 따라 결과물이 극단적으로 갈린다. 한쪽에서는 리서치 에이전트, 코딩 에이전트, 디자인 에이전트를 동시에 지휘해 최종 결과물을 조립하는 사람이 있고, 다른 쪽에서는 하나의 챗창에 모든 걸 쏟아붓고 있는 사람이 있다.

시험의 가장 까다로운 파트는 아마 이것일 것이다. 일부러 결함이 심어진 AI 출력물이 주어진다. 그럴듯하지만 미묘하게 틀린 분석, 논리적이지만 전제가 잘못된 추론. AI가 자신감 있게 내놓는 오답을 그대로 삼키는 것이야말로 이 시대의 가장 위험한 함정이고, 이를 걸러내는 능력이야말로 프롬프팅 역량의 진짜 핵심이다.

그리고 마지막 문제. 수험생의 전문 분야 바깥에서 출제된다. 변호사에게 유전공학, 의사에게 건축 설계. 측정되는 것은 사전 지식이 아니라, 모르는 영역에서 AI를 활용해 전문가급 결과를 만들어내는 능력이다.

이 시험이 표준이 되면 모든 것이 뒤집힌다.

교육부터. 암기와 재현 중심의 커리큘럼은 무의미해진다. 가르쳐야 할 것은 "어떤 질문을 할 것인가"다. 소크라테스가 2,500년 전에 이미 보여줬듯, 답이 아니라 질문이 사고의 본질이다. 채용도 마찬가지다. 학벌이나 경력 연수 대신, AI와 협업하여 실시간으로 과제를 해결하는 라이브 테스트가 입사의 관문이 된다. 이력서의 시대가 저문다.

그리고 여기에 불편한 그림자가 있다. 프롬프팅 역량은 비판적 사고, 문제 구조화 능력, 메타인지와 밀접하게 연결되어 있다. 이것들은 교육 환경과 문화 자본에 크게 좌우된다. 좋은 질문을 하려면 좋은 질문을 접해본 적이 있어야 한다. "AI를 잘 쓰는 능력"이 새로운 계층 구분선이 될 가능성은 기존의 교육 불평등보다 더 가파를 수 있다. 격차가 선형이 아니라 기하급수적으로 벌어지기 때문이다.

가장 흥미로운 역설은 이것이다. 이 시험은 AI가 발전할수록 더 어려워진다. 모델이 강해지면 "대충 물어봐도 괜찮은 답"의 영역이 넓어지고, 역량 차이가 드러나는 지점은 점점 더 복잡하고 미묘한 곳으로 이동한다. 체스에서 컴퓨터가 인간을 이긴 뒤에도 인간 선수 간 실력 차이가 사라지지 않았듯, AI가 아무리 강해져도 그것을 활용하는 인간 사이의 격차는 사라지지 않는다. 격차의 축이 바뀔 뿐이다. 지식에서 질문으로, 정보에서 구조화로.

벤치마크는 결국 사회가 "무엇을 중요하게 여기는가"의 거울이다. 수능이 있었기에 한국은 암기력과 풀이 속도를 중시했고, 사교육 시장은 그 측정 기준에 맞춰 거대한 산업이 되었다. 프롬프팅 벤치마크가 등장하면, 교육과 채용과 승진의 기준이 그 위에서 재편된다. 측정이 현실을 만든다. 우리가 어떤 스카우터를 만드느냐가, 어떤 전투력을 키울지를 결정한다.

지금 이 순간에도 누군가는 ChatGPT에게 "오늘 뭐 먹지?"를 묻고, 누군가는 같은 도구로 산업의 지형을 재설계하고 있다. 그 격차를 숫자로 표현할 수 있게 되는 날, 세상은 꽤 불편한 진실과 마주할 것이다. 그런데 진짜 질문은 점수가 아닐지도 모른다. 이 새로운 측정 기준이 만들어낼 세상은, 과연 지금보다 더 공정한 세상일까?

❤37👍11