그림 숯 ·목탄·연필 스케치 + 워시
모델 한 개를 쥐면 주권이 생긴다는 착각
소버린 AI라는 말이 정치 구호가 되면서 그림이 단순해졌다. 한국어를 잘하는 대형 모델을 국가가 한두 개 키우면 언어 주권이 선다는 식이다. 그래서 예산 회의는 늘 같은 자리에서 멈춘다. GPU 몇 장을 살 것인가, 파라미터를 몇 개까지 키울 것인가.
이 그림은 절반만 맞다. 모델은 결과물이지 자산이 아니다. 6개월이면 더 큰 모델이 나오고, 작년에 보조금으로 만든 가중치는 금세 낡는다. 국가가 세금으로 산 것이 1년 만에 구형이 되는 구조라면, 그건 주권이 아니라 소모품이다. 언어 주권을 모델 소유로 정의하는 순간, 우리는 매년 같은 비용을 다시 치르는 트레드밀에 올라선다.
질문을 바꿔야 한다. 우리는 이 기술을 사회적으로 이해하고 있나. AI는 개인의 생산성 도구이기 전에, 한 사회가 자기 언어로 무엇을 알고 무엇을 모르는지 결정하는 공공 인프라다. 그렇다면 자원을 나누는 단위도 '모델'이 아니라 그 인프라를 떠받치는 세 기둥, 데이터와 연산과 평가가 되어야 한다.
데이터, 연산, 평가, 셋 중 무엇을 쥘 것인가
요리에 빗대보자. 모델 학습은 요리다. 연산(GPU)은 불이고, 데이터는 재료이며, 평가 벤치마크는 손님의 입맛을 적은 채점표다. 지금 한국의 논쟁은 거의 전부 불의 크기에 쏠려 있다. 화구를 몇 개 더 놓을지를 두고 싸운다.
그런데 같은 불이라도 재료가 부실하면 같은 음식이 나오지 않고, 채점표가 없으면 누가 더 잘 만들었는지 끝내 알 수 없다. 연산은 돈만 있으면 클라우드에서 빌릴 수 있는, 시장이 가장 잘 작동하는 영역이다. 반대로 한국어 공공 데이터와 한국어 평가 기준은 시장이 알아서 만들어주지 않는다. 돈이 안 되기 때문이다. 시장이 실패하는 바로 그 지점이 국가가 들어가야 할 자리다.
핵심은 이렇다. 모델은 빌릴 수 있어도 채점표는 빌릴 수 없다. 한국어로 의료 상담을 하는 AI가 거짓말을 얼마나 하는지, 행정 문서를 요약할 때 무엇을 빠뜨리는지, 방언과 노년층 어법을 어떻게 처리하는지. 이런 걸 재는 잣대는 영어권 벤치마크를 번역한다고 생기지 않는다. 우리가 직접 정의해야 하고, 그건 국산 모델 한 개보다 훨씬 오래 살아남는 자산이다.
보조금이 가중치가 아니라 채점표로 가야 하는 이유
여기서 반론이 나온다. 평가만 가지고는 산업이 크지 않는다, 결국 우리 손으로 큰 모델을 돌려봐야 역량이 쌓인다는 주장이다. 일리가 있다. 파운데이션 모델을 한 번도 끝까지 학습시켜보지 않은 나라는 그 기술의 바닥을 모른다.
그러나 역량과 소유는 다르다. 학습 역량은 인력과 코드에 남고, 모델 가중치는 디스크에 남는다. 보조금이 가중치를 사면 그 돈은 1년 뒤 사라진다. 같은 돈으로 한국어 평가 벤치마크와 공개 학습 데이터, 공용 연산 풀을 만들면, 그 위에서 기업과 대학과 스타트업이 저마다 모델을 수십 개씩 학습시킨다. 하나를 사는 대신 백 개가 자랄 토양을 만드는 셈이다.
여기 흔한 함정이 하나 더 있다. 벤치마크 점수 자체가 목표가 되면, 모두가 그 시험만 잘 보는 모델을 만든다. 측정값이 목표가 되는 순간 측정값은 망가진다. 그래서 평가는 한 번 만들고 끝나는 고정 시험이 아니라, 공공이 계속 갱신하고 감사하는 살아 있는 제도여야 한다. 이건 민간이 할 수 없다. 시험 출제자가 응시자일 수는 없으니까.
한국이 아직 정의하지 못한 빈칸
문제는 이 채점표를 누가 만들고 관리할지, 그 제도적 주체가 한국에 비어 있다는 점이다. 과학기술정보통신부는 모델 학습 보조금을 다루고, 개인정보보호위원회는 데이터 활용의 경계를 본다. 그런데 '한국어 AI가 공적으로 쓸 만한지'를 상시 측정하고 그 기준을 공개하고 갱신하는 기관은 사실상 없다. 영국이 AI 안전 연구소를 세워 모델 평가 자체를 국가 기능으로 끌어올린 것과 비교하면, 우리는 평가를 여전히 기업의 자율 홍보에 맡겨두고 있다.
빈칸은 구체적이다. 의료, 행정, 교육처럼 위험이 큰 영역에서 한국어 모델이 통과해야 할 최소 기준은 누가 정하는가. 공공이 보유한 판례와 행정 문서, 보건 데이터를 어떤 조건으로 학습에 개방할 것인가. 시민이 자기 언어로 된 AI의 오작동을 신고하고 그 결과가 다음 평가에 반영되는 통로는 있는가. 부산 같은 비수도권 도시의 행정 현장에서 이 모델들이 실제로 쓸 만한지는 누가 검증하는가. 지금은 전부 비어 있다.
시민 문해력의 최소치도 여기서 갈린다. AI 시대에 시민이 알아야 할 건 프롬프트 잘 쓰는 법이 아니라, '이 모델이 무엇으로 평가받았는가'를 물을 줄 아는 감각이다. 채점표가 공개돼 있어야 그 질문이 성립한다.
AI를 잘 쓰는 나라는 많아질 것이다. 더 큰 모델, 더 빠른 연산은 결국 돈의 문제로 수렴한다. 그러나 자기 언어로 무엇을 측정할지 스스로 정의한 나라는 드물다. 언어 주권은 가장 큰 모델을 가진 쪽이 아니라, 그 모델을 채점할 잣대를 쥔 쪽으로 간다. 잘 쓰는 나라보다 제대로 이해하는 나라가 먼저다.
이 글이 좋았다면 눌러주세요
이 글이 유용했다면 공유해 주세요
받아쓰기 칼럼 더 보기 →