그림 숯 ·목탄·연필 스케치 + 워시
모두가 모델만 본다
AI 뉴스의 주어는 거의 정해져 있다. 누가 더 큰 모델을 냈고, 누가 벤치마크 점수를 갈아치웠는가. 대중은 이 산업을 모델 만들기 경쟁으로 읽는다. 그런데 이 시선은 한 칸을 통째로 비워둔다. 다 만든 뒤에 그 모델이 약속대로 작동하는지는 누가 확인하는가.
이 질문이 사소해 보인다면 반대 사례를 떠올려 보자. 신약은 제약사가 만들지만 시판 여부는 식약처와 임상시험수탁기관이 검증한다. 회계장부는 회사가 쓰지만 그 신뢰는 외부 감사인이 보증한다. 산업이 성숙하면 만드는 자와 검증하는 자가 갈라진다. 바로 그 지점에서 평가는 독립 산업으로 떨어져 나온다. AI에서 그 분리가 지금 시작되고 있다.
융합이 산업을 바꾼 방식
기술의 역사는 단일 기술의 역사가 아니라 결합의 역사다. 컨테이너 박스는 1950년대만 해도 그저 쇠상자였다. 그것이 표준 규격, 크레인, 항만 전산망과 맞물리자 세계 무역의 물류비가 무너졌다. 혁신은 박스가 아니라 그 박스를 믿을 수 있게 만든 표준과 검증 체계였다.
인터넷도 비슷했다. HTTP만으로는 상거래가 일어나지 않았다. SSL 인증서와 인증기관이라는 신뢰 레이어가 붙고 나서야 사람들이 카드 번호를 입력했다. 자물쇠 아이콘 하나가 전자상거래를 열었다. 기술이 퍼지는 속도를 결정한 건 기능이 아니라, 신뢰를 대신 떠맡아 줄 제3자의 존재였다.
AI도 같은 경로 위에 있다. 모델 성능은 이미 충분히 인상적이다. 발목을 잡는 건 성능이 아니라 신뢰다. 이 모델이 의료 상담에서 환각을 일으키지는 않는가, 금융 자문에서 차별적 출력을 내지는 않는가, 보안 우회에 악용되지는 않는가. 만든 회사가 스스로 매긴 점수를 누가 믿겠는가. 자기 시험지를 자기가 채점하는 구조로는 산업의 신뢰 병목이 풀리지 않는다.
평가가 연결하는 기술들
평가를 하나의 도구로만 보면 그냥 테스트 스위트다. 연결점으로 보면 그림이 달라진다.
평가는 데이터와 만난다. 좋은 평가는 새로운 실패 사례를 끊임없이 수집하는 데이터 파이프라인이고, 그 데이터는 다시 모델 개선의 연료가 된다. 평가는 제도와도 만난다. EU AI법은 고위험 AI에 적합성 평가를 요구하는데, 이는 곧 누군가 그 평가를 대행하는 시장이 생긴다는 뜻이다. 회계법인이 감사 시장을 차지했듯이. 평가는 보안과도 만난다. 레드팀, 프롬프트 인젝션 테스트, 모델 탈옥 시도는 사이버보안 산업이 통째로 AI 쪽으로 옮겨오는 통로다. 평가는 도메인과도 만난다. 의료 AI를 채점하려면 의학 지식이, 법률 AI를 채점하려면 판례 지식이 필요하다. 그래서 평가는 수직 산업마다 다른 회사를 낳는다.
여기서 새로운 경제 주체가 보인다. 모델 감사인, 벤치마크 운영사, 도메인별 평가 인증기관, AI 보험 언더라이터. 보험 언더라이터는 모델 신뢰도를 점수화해야 보험료를 매길 수 있다. 이들은 모델을 만들지 않는다. 모델을 믿어도 되는지 판정하는 권한을 판다. 가치사슬에서 가장 늦게 생기지만 가장 오래 남는 자리다.
반론은 분명하다. 평가는 결국 모델 회사가 내부로 흡수하거나 오픈소스 벤치마크가 무료로 깔아버려서 독립 산업으로 크지 못한다는 것. 절반은 맞다. 기본 역량 측정은 상품화된다. 하지만 이해상충이 있는 곳에서 자가 채점은 신뢰를 만들어내지 못한다. 회사가 제 재무제표를 스스로 감사하지 못하는 것과 같은 이유로, 고위험 영역의 평가는 구조적으로 외부로 넘어간다. 무료 벤치마크가 늘수록 오히려 책임지는 제3자 검증의 희소가치는 올라간다.
한국이 비어 있는 칸
한국은 파운데이션 모델 경쟁에서 자본 규모로 밀린다. 그러나 평가 레이어는 자본이 아니라 도메인 깊이와 제도 신뢰로 들어가는 시장이다. 의료, 금융, 제조처럼 한국이 데이터와 규제 경험을 쌓아둔 영역에서, 한국어와 한국 제도에 맞춘 평가 기준을 먼저 세우는 쪽이 표준을 쥔다. 표준을 쥐면 모델이 어디서 오든 통과 도장은 여기서 받는다.
부산을 좌표로 놓으면 더 구체적이다. 부산은 항만과 물류, 의료, 금융중심지 지정이라는 도메인 자산을 동시에 가진 드문 도시다. 물류 AI의 안전성을 항만 현장 데이터로 검증하는 기관, 지역 의료 AI를 임상 맥락에서 채점하는 컨소시엄은 서울보다 여기서 더 자연스럽게 선다. 모델은 못 만들어도, 그 모델을 믿어도 되는지 판정하는 기관은 만들 수 있다.
미래는 연결 지점에서 온다
AI 평가 회사의 부상은 작은 신호처럼 보인다. 하지만 SSL 인증서가 그랬듯, 지금 작아 보이는 검증 레이어가 다음 십 년의 인프라가 된다. 이 신호가 말하는 건 하나다. 미래는 더 큰 모델 하나에서 오지 않는다. 모델이 데이터, 제도, 보안, 도메인과 만나 신뢰로 번역되는 그 연결 지점에서 온다. 만드는 경쟁을 지켜보는 사이, 진짜 빈칸은 채점하는 쪽에서 열리고 있다.
이 글이 좋았다면 눌러주세요
이 글이 유용했다면 공유해 주세요
그리고 칼럼 더 보기 →