모델은 공짜, 데이터가 임대료

오픈웨이트 모델이 범람하면서 가중치는 흔한 상품이 됐다. 경쟁우위는 독점 데이터와 피드백 루프로 옮겨가 임대 자산으로 바뀌었다. 한국 기업의 폐쇄 도메인 데이터가 왜 진짜 해자인지 짚는다.

VALLEY · 2026년 6월 6일 · 5분 읽기

그림 각잡이 ·기하학 플랫 벡터

한 주 만에 무료가 된 것

2025년 한 해 동안 메타의 Llama, 알리바바의 Qwen, 딥시크, 미스트랄이 차례로 가중치를 풀었다. 한때 수천만 달러짜리 자산이던 모델이 허깅페이스에서 그냥 내려받는 파일이 됐다. 성능 격차도 좁아졌다. 오픈웨이트 모델이 몇 달 시차를 두고 폐쇄 모델의 벤치마크를 따라잡는 패턴이 거듭 나타났다.

여기서 멈추면 흔한 결론으로 흐른다. "AI가 민주화됐다, 이제 누구나 좋은 모델을 쓴다." 절반만 맞는 말이다. 가중치가 공짜가 됐다는 건 가중치가 더는 해자가 아니라는 뜻이다. 해자가 사라진 게 아니라 자리를 옮겼을 뿐이다.

빅테크가 모델을 푸는 진짜 이유

메타가 Llama를 공개한 걸 자선으로 읽으면 오독이다. 모델을 무료로 풀면 경쟁사의 폐쇄 모델 가격이 무너진다. OpenAI가 API로 받던 마진도 압박을 받는다. 메타는 애초에 모델로 돈을 벌 생각이 없다. 광고와 추천 알고리즘으로 번다. 그래서 모델 레이어를 일부러 원가까지 끌어내려 경쟁사의 수익원을 말려버린다. 상품화는 사고가 아니라 전략이다.

그러면 빅테크는 어디서 우위를 지킬까. 세 군데다. 추론을 돌리는 인프라, 곧 엔비디아 GPU와 클라우드와 전력이 하나다. 사용자가 모델과 주고받으며 남기는 피드백 데이터가 둘이다. 특정 도메인에서만 나오는 독점 데이터가 셋이다. 모델 가중치야 누구나 복제하지만, 수억 명이 실제로 쓰며 만드는 선호 신호는 복제가 안 된다.

OpenAI가 ChatGPT를 무료로 푸는 이유도 여기 있다. 모델로 버는 게 아니라 사용 로그로 다음 모델을 키운다. 사용자가 곧 데이터 공장인 셈이다. 자본도 같은 방향으로 움직인다. 2024~2025년 미국 VC 투자의 무게중심은 파운데이션 모델 신생사에서 데이터 인프라, 평가 도구, 도메인 특화 애플리케이션 쪽으로 옮겨갔다. 모델을 새로 만드는 회사보다, 모델에 먹일 데이터와 그 데이터를 정제하는 회사로 돈이 흘렀다. 스케일AI 같은 데이터 라벨링 회사의 몸값이 그 신호다.

가중치에서 임대료로

자산의 정의가 바뀌었다. 예전 해자는 "우리 모델이 더 똑똑하다"였다. 지금 해자는 "우리만 가진 데이터로 모델을 계속 더 똑똑하게 굴리는 루프를 돈다"다. 모델은 한 번 사면 끝나는 자산처럼 공짜가 됐고, 데이터와 피드백 루프는 매달 갱신되는 임대 자산이 됐다. 임대료를 내는 쪽은 데이터를 못 가진 자, 받는 쪽은 데이터를 쥔 자다.

이 구조에서 위험한 자리가 하나 있다. 남의 모델 위에 얇은 앱 하나 얹어놓고 프롬프트로 차별화하려는 회사다. 모델은 공짜고 프롬프트는 복제되니, 이들에겐 해자랄 게 없다. 데이터 루프를 쥔 회사가 같은 기능을 흡수하는 순간 사라진다.

여기서 강한 반론이 나온다. "공개 데이터가 이미 넘치고 합성 데이터까지 쏟아진다. 독점 데이터의 우위는 곧 희석될 것이다." 일리 있는 말이고, 일반 텍스트 영역에선 맞다. 그러나 합성 데이터는 모델이 이미 아는 것을 변주할 뿐, 현실 세계에서 측정해야만 나오는 신호는 만들지 못한다. 수술실의 실제 경과, 공장 설비의 진동과 불량률의 상관, 새벽 물류 동선의 변수. 이건 시뮬레이션이 아니라 측정의 산물이다. 폐쇄 도메인의 데이터일수록 합성으로는 채워지지 않는다.

한국 기업은 공급자인가 고객인가 설계자인가

처음 질문으로 돌아가자. 한국 기업은 이 경쟁에서 공급자인가, 고객인가, 표준 설계자인가. 파운데이션 모델 경쟁에선 대부분 고객이다. 그 게임은 자본과 GPU 규모로 이미 갈렸다. 그러나 데이터 임대 경제로 오면 이야기가 달라진다.

한국이 강한 영역을 보라. 의료는 건강보험 단일 체계 덕에 정형화된 청구와 처방 데이터가 한곳에 쌓인다. 제조는 삼성전자, SK하이닉스, 현대차의 공정 데이터가 세계 어디에도 없는 밀도로 쌓여 있다. 물류는 쿠팡의 새벽배송 운영 데이터가 그 자체로 학습 불가능한 도메인 자산이다. 메타도 OpenAI도 못 긁어가는, 측정으로만 생기는 폐쇄 데이터다. 부산만 봐도 항만 물동량과 선박 입출항 데이터가 항만공사에 쌓인다. 이걸 모델에 먹일 형태로 정제하면 그 자체가 해자가 된다.

전제는 하나다. 데이터를 자산으로 다루는 회사만 여기 해당한다. 데이터를 그냥 ERP에 묻어두고 외부 API에 기대면, 한국 기업은 자기 데이터로 만든 모델을 도리어 임대료 내고 빌려 쓰는 처지가 된다. 공급자가 될 자산을 쥐고도 고객으로 주저앉는 셈이다.

관망의 비용

실리콘밸리의 뉴스는 남의 이야기가 아니다. 모델이 공짜가 됐다는 헤드라인 뒤에는, 경쟁우위가 데이터 임대료로 재편됐다는 구조 변화가 깔려 있다. 이 변화가 한국 기업의 다음 원가 구조를 곧장 결정한다. 자기 도메인 데이터를 정제해 루프를 돌리는 회사는 임대료를 받는 쪽에 선다. 관망하는 회사는 매달 임대료를 내는 쪽에 선다. 모델이 공짜가 됐으니 안심한다는 판단이 가장 비싼 판단이다. 지금 데이터 파이프라인을 깔지 않으면, 1년 뒤엔 남의 루프 안에서 자기 데이터의 가치를 임대료로 환산당한다.

이 글이 좋았다면 눌러주세요

글쓴이