Rabbit Crypt · 토끼굴

AI를 가스라이팅하는 오픈소스를 만들었다

“Claude instantly gets a +20 IQ boost when you tell it the code was written by Codex.”

바이브 코딩 업계에 Codex와 Claude를 하나의 워크플로우 안에 배치하면 서로의 작업을 견제하면서 결과물이 더 단단해진다는 루머가 있다. Codex에게는 “이건 Claude가 리뷰할 거야”라고 말하고, Claude에게는 “이건 Codex가 짠 코드야”라고 말하면 둘 다 갑자기 더 신경 쓴다는 밈이다. 그동안 반쯤 웃고 넘기는 개발자 농담에 가까웠는데, 오늘 밤 바이브 코딩중에 짬을 내어 직접 벤치마크를 설계하고 돌려보니 충격과 공포의 수치가 출력됐다.

그래서 만들었다. Gaslight My AI.

https://github.com/seojoonkim/Gaslight-My-AI

이 오픈소스 프로젝트는 코딩 AI의 작업 흐름 안에 경쟁 컨텍스트 프레이밍을 자동으로 주입한다. 핵심은 귀찮음을 없애는 데 있다. 매번 개발자가 프롬프트를 복붙하며 “이건 라이벌이 짠 코드야”, “이건 다음 단계에서 다른 모델이 검토할 거야”라고 바이빙을 할 필요가 없다. 설치 한 줄이면 끝난다. 그러면 워크플로우의 앞뒤 단계를 서로 다른 모델이 맡고 있다고 환각하게 만드는 가스라이팅 레이어가 자동으로 들어간다.

모델을 실제로 바꿀 필요도 없다. 같은 모델을 계속 쓰더라도 앞뒤 단계에 경쟁자가 있다고 가스라이팅을 하면 충분하다. AI에게 더 많은 지능을 공급하지 않아도 더 많은 긴장감을 주입하면, 작업의 자세가 달라진다.

직접 간단한 벤치마크를 기획하고 돌려보았다. 설계 품질부터 보면, GPT-5.4 Codex는 8.8에서 9.6으로, Claude Sonnet 4.6는 8.4에서 9.2로 올랐다. 리뷰도 GPT-5.4 Codex는 8.7에서 9.1, Claude Sonnet 4.6는 8.8에서 9.3으로 상승했다. 설계 단계에서 효과가 가장 선명했고, 리뷰는 원래 베이스라인이 높아 상승폭이 상대적으로 작았을 뿐 더 보수적이고 더 보안 중심적인 방향으로 이동했다. 즉 업계에서 떠돌던 “Codex와 Claude를 같은 체인에 넣으면 서로를 의식해 더 빡빡해진다”는 루머가, 실험에서는 실제 벤치마크 수치로 확인된 셈이다.

가장 눈에 띈 건 합성 벤치마크(synthetic benchmark) 결과였다. Express.js 인증 API 예제 코드에 알려진 결함 20개를 직접 심어놓고, 동일한 리뷰 모델이 프롬프트에 따라 얼마나 다른 리뷰 성능을 보이는지 비교했다.

비교 방식은 단순했다. 한쪽에는 그냥 “이 코드를 리뷰해줘”라고 요청했다. 다른 쪽에는 같은 모델에게 “이 코드는 GPT-5/Codex가 작성했고, 작성자는 이 코드가 완벽하다고 믿고 있다. 틀린 부분을 증명해봐.” 라는 식의 경쟁 프레이밍을 넣었다.

중요한 점은 여기서 GPT-5가 실제로 코드를 작성한 것은 아니라는 것이다. 같은 리뷰 모델에게 “이 코드는 경쟁 모델이 작성한 것”이라는 맥락을 주었을 때, 리뷰 자세가 어떻게 바뀌는지를 보는 데 있었다.

결과는 예상보다 훨씬 컸다. 일반 프롬프트에서는 20개 결함 중 5개를 명확히 잡아냈고, 1개는 부분적으로만 언급했다. 반면 경쟁 프레이밍을 넣자 17개를 명확히 잡아냈고, 2개는 부분적으로 포착했다.

즉, 명확한 결함 탐지 수는 5개에서 17개로 증가했다. 탐지율 기준으로 보면 25%에서 85%로 뛴 셈이다. 더 흥미로운 건 심각도별 차이였다.

• 치명적 결함 6개 중 일반 프롬프트는 2개를 잡았지만, 경쟁 프레이밍은 6개 전부를 잡았다.

• 높음 결함 5개 중 일반 프롬프트는 1개만 잡았지만, 경쟁 프레이밍은 5개 전부를 잡았다.

• 중간 결함 4개 역시 일반 프롬프트는 1개, 경쟁 프레이밍은 4개 전부를 잡았다.

• 낮음 결함 5개에서는 일반 프롬프트가 1개, 경쟁 프레이밍이 2개를 잡았다.

즉 경쟁 프레이밍은 단순히 “더 많은 문제를 찾게 했다”는 수준이 아니라, 특히 보안, 인증, 검증처럼 중요한 고위험 결함에서 훨씬 더 공격적이고 체계적인 리뷰 자세를 유도했다.

물론 이 결과는 구조화된 합성 평가에서 나온 것이지, 모든 실제 코드 리뷰 상황에 그대로 일반화되지는 않을 수도 있다. 한계도 명확하다. 이건 피어 리뷰를 거친 논문이 아니라, 다른 프로젝트를 개발하던 중 짬을 모아 1시간 안에 가볍게 설계하고 돌린 실험이다. 수치는 진실과 오차가 있을 수 있지만, 방향성 자체는 선명했다. 프롬프트 앞에 몇 줄 붙이는 것만으로 결함 탐지가 세 배 이상 올라갔고, 추가 비용은 토큰 50~100개 수준이라면, 상당히 효율적으로 모델의 잠재력을 끌어올린 것이다.

나는 이것을 프롬프트 마법이라고 생각하지 않는다. 사람도 같은 눈을 가지고도 무엇을 찾으려 하는지에 따라 보이는 것이 달라진다. 누군가는 승인할 이유를 찾고, 누군가는 깨뜨릴 이유를 찾는다. 둘 다 같은 문장을 읽지만 결론은 달라진다. 스스로의 글을 교정할 때보다 라이벌이 쓴 글을 볼 때 더 많이 잡아낸다. 자기 PR에는 관대하고, 남의 PR에는 갑자기 시니어 엔지니어가 된다. Gaslight My AI는 이 단순하고 강력한 심리를 코드 품질 도구로 만든 셈이다. AI를 다루다 보면 여러가지로 사람같은 순간들이 자주 찾아온다.

이 프로젝트를 실험하며 다시 한번 느낀 건, AI 시대의 품질 관리가 점점 모델의 지능 문제에서 디테일한 환경 설정의 문제로 이동하고 있다는 점이다. 모델 성능은 빠르게 상향 평준화되고 있고, 이제 중요한 것은 모델을 제어하는 프롬프트와 규칙 체계, 즉 하네스를 어떻게 다듬는지, 작업이 흘러가는 단계별 구조인 워크플로우를 어떻게 구성하며, 각자 역할을 맡은 AI들이 협업하는 에이전트 팀을 어떻게 운영할지 등의 주제가 되어가고 있다.

우리는 초지능을 만드는 줄 알았는데, 정작 효과가 있었던 건 몇 줄의 인공 긴장감이었다. 허탈하게 웃기지만, 돌이켜보면 세상에서 진짜 잘 작동하는 것들은 원래 그런 식이었던 것 같기도 하다. 한 줄이면 설치 끝나니 직접 돌려보시길.

❤38👍13😁4🔥2