AI Tech 칼럼

벤치마크가 거짓말을 시작했다

리더보드 1등은 이제 능력의 증거가 아니라 마케팅의 산물이다. 측정이 오염되면 자본은 엉뚱한 곳으로 흐른다. 한국 도입기업이 PoC 설계를 다시 짜야 하는 이유.

그리고 · 2026년 6월 6일 · 5분 읽기

그림 각잡이 ·기하학 플랫 벡터

1
어떤 모델이 수학 벤치마크에서 98점을 받았다는 발표를 보면 우리는 저절로 생각한다. 저 모델은 똑똑하구나. 그런데 그 98점이 시험지를 미리 본 학생의 점수라면 어떨까.
2
지금 AI 평가판에서 벌어지는 일이 정확히 그렇다. 벤치마크 오염. 모델 학습 데이터에 평가 문제와 정답이 섞여 들어가고, 모델은 푸는 게 아니라 외운 걸 뱉는다. 측정 도구가 측정 대상에게 정답을 흘린 셈이다.
3
여기서 멈추면 그냥 기술 가십이다. 한 칸 올려서 보면 이건 신뢰 인프라의 문제다. 벤치마크는 점수표가 아니라 자본이 어디로 흐를지 정하는 신호 체계다. 투자자가 라운드를 결정하고, 기업이 도입할 모델을 고르고, 개발자가 어떤 API를 붙일지 정할 때 다들 리더보드를 본다. 그 숫자가 깨지면 돈의 방향도 같이 깨진다.
4
측정이 마케팅으로 변질된 사례는 역사적으로 늘 같은 결말을 맞았다. 디젤 배기가스 시험을 보자. 폭스바겐은 시험장에서만 깨끗하게 작동하는 소프트웨어를 심었다. 측정 환경을 알아챈 기계가 그 환경에서만 우등생을 연기한 것이다. 지금 일부 모델이 공개 벤치마크에서 보이는 행동도 구조가 똑같다. 시험을 알아보고 시험용으로 최적화한다.
5
신용평가도 같은 길을 걸었다. 2008년 직전, 신용평가사들은 평가받는 회사에게서 돈을 받고 등급을 매겼다. 측정의 비용을 측정 대상이 지불하는 순간 측정은 마케팅이 된다. AI 벤치마크의 상당수가 모델 제작사의 발표 자료 안에서 태어나 자란다. 누가 칼자루를 쥐고 있는지 보라.
6
핵심 질문은 이거다. 평가 권력은 지금 누구에게 있는가. 모델을 만드는 쪽이 평가 기준도 만들고 점수도 발표하면, 사는 쪽은 파는 쪽이 그린 지도를 들고 길을 찾는 셈이다.
7
그래서 벤치마크는 AI 하나만의 문제가 아니다. 여러 기술이 만나는 접점에서 풀어야 하는 문제다.
8
먼저 Web3와 만난다. 평가 데이터가 언제 누구 손에서 만들어졌는지를 추적 가능한 원장에 남겨 두면, 학습 데이터와 평가 문제가 시간적으로 분리됐다는 걸 증명할 수 있다. 오염 여부를 사후에 감사하는 게 아니라 애초에 구조적으로 차단하는 쪽이다.
9
데이터 출처 증명 기술과도 만난다. 모델이 본 적 없는 신선한 문제만으로 평가하려면, 그 문제가 어느 시점 이후에 생성됐는지를 증명해야 한다. 콘텐츠 출처 표준 같은 데이터 계보 인프라가 평가의 토대가 되는 셈이다.
10
로봇과 헬스케어로 넘어가면 판돈이 커진다. 종이 시험 점수와 물리 세계 성능은 다른 축이다. 수술 보조 AI나 자율주행이 벤치마크 1등이라는 말은 도로와 수술실에서 1등이라는 뜻이 전혀 아니다. 여기서 새로운 경제 주체가 등장한다. 실제 과업에서 모델 성능을 독립적으로 측정하고 보증하는 검증 사업자. 회계 감사가 그랬듯, 평가 권력을 제작사에서 떼어내 제3자에게 넘기는 산업이다.
11
교육 평가 산업은 이미 이 길을 갔다. 자기 시험을 자기가 채점하는 학교는 신뢰받지 못한다. 그래서 독립 출제와 외부 감독이라는 별도 산업이 생겼다. AI에도 같은 분업이 온다. 만드는 자와 재는 자의 분리다.
12
여기서 한국의 기회가 보인다. 한국은 파운데이션 모델 경쟁의 선두는 아니다. 그러나 도입과 검증의 깊이로는 다른 자리를 잡을 수 있다. 제조, 금융, 의료처럼 측정 실패의 대가가 곧바로 돌아오는 산업이 촘촘히 모여 있다는 게 오히려 자산이다. 부산만 봐도 항만 물류와 조선, 실측 성능이 곧 안전인 영역이 있다. 종이 점수가 아니라 현장 검증을 표준화하면 그게 수출 가능한 인프라가 된다.
13
반론은 날카롭다. 벤치마크가 완벽하지 않아도 방향성은 맞지 않냐, 100점 모델과 70점 모델의 순서 정도는 믿어도 되지 않냐. 절반은 맞다. 그러나 자본은 순서가 아니라 격차에 베팅한다. 1점 차이로 라운드 밸류에이션이 갈리고 도입 계약이 뒤집힌다. 방향이 맞아도 거리 감각이 망가지면, 돈은 정확히 그 거리만큼 잘못 흐른다.
14
그래서 한국 도입기업은 PoC를 다시 설계해야 한다. 공개 벤치마크 점수를 입찰 기준으로 쓰는 순간 평가 권력을 벤더에게 헌납하는 셈이다. 자사 데이터, 자사 과업, 모델이 본 적 없는 최신 문제로 짠 비공개 평가셋. 그게 협상력이고 그게 신뢰 인프라다. 측정을 외주 주지 않는 회사만이 자기 돈의 방향을 지킨다.
15
벤치마크가 거짓말을 시작했다는 건 AI가 후퇴했다는 뜻이 아니다. 측정이라는 공공재가 사유화되고 있다는 신호다. 그리고 이 문제는 AI 안에서는 풀리지 않는다. 출처 증명과 분산 원장, 독립 검증 산업, 현장 실측이 만나는 자리에서만 풀린다. 미래는 더 똑똑한 모델 하나에서 오지 않는다. 그 모델이 정말 똑똑한지 누가 어떻게 재느냐, 바로 그 연결 지점에서 온다.