SOUTH+
BRIDGE
합류하기
AI Tech 칼럼

추론이 칩으로 내려간다

스마트폰과 노트북에 박힌 소형 모델이 클라우드 호출을 갉아먹기 시작했다. 배터리 절약 기능이 아니다. 데이터와 과금과 프라이버시 권력이 플랫폼에서 OS와 칩으로 옮겨가는 신호다. 삼성이 쥐고도 안 쓰는 레버리지가 여기 있다.

VALLEY VALLEY · · 5분 읽기
추론이 칩으로 내려간다

그림 ·목탄·연필 스케치 + 워시

화면에 안 뜨는 호출

애플이 지난해 인텔리전스를 발표했을 때 사람들은 새 시리(Siri)와 글쓰기 도구를 봤다. 내가 읽은 줄은 달랐다. 요약, 교정, 알림 정리 같은 작업 대부분이 기기 안에서 끝나고 모델이 무거워질 때만 애플의 프라이빗 클라우드로 넘어간다는 설계 말이다. 구글도 제미나이 나노(Gemini Nano)를 픽셀과 안드로이드에 심어 같은 길을 깔았고, 퀄컴과 미디어텍은 NPU 성능을 칩 발표 1번 슬라이드로 올렸다. 표면은 제품 뉴스다. 속을 보면, 그동안 클라우드 데이터센터로 올라가던 추론 트래픽의 한 조각이 단말로 영구히 내려앉는 중이다.

조각이라고 했지만 중요한 건 방향이다. 한 번 단말에서 처리되기 시작한 작업은 굳이 네트워크를 다시 타고 올라가지 않는다. 사용자는 더 빠르고, 제조사는 서버 비용을 안 쓰고, 통신이 끊겨도 작동한다. 되돌릴 이유가 없는 이동이다.

제품이 아니라 과금 권력의 이사

이걸 "온디바이스 AI 기능 추가" 정도로 읽으면 핵심을 놓친다. 클라우드 추론은 호출당 과금이다. 토큰을 쓸 때마다 돈이 오픈AI(OpenAI)나 앤스로픽(Anthropic), 그 뒤의 엔비디아(NVIDIA)와 클라우드 사업자에게 흘러간다. 추론이 단말로 내려가면 그 호출 자체가 사라진다. 과금이 없어진다는 게 아니라, 과금의 무대가 클라우드 API에서 기기 판매와 OS로 옮겨간다는 뜻이다.

데이터도 같이 이사한다. 지금까지 모델 개선의 연료는 클라우드에 쌓인 프롬프트와 로그였다. 추론이 로컬에서 끝나면 그 데이터가 서버에 안 남는다. 프라이버시 강화처럼 보이지만, 동시에 누가 학습 신호를 쥐느냐의 판이 바뀐다. OS를 가진 쪽이 "기기에서 익명화해 일부만 올린다"는 규칙을 정하는 순간, 데이터 흐름의 밸브가 플랫폼 API에서 OS 설정 화면으로 넘어간다. 권력은 트래픽이 흐르는 길목에 붙는다. 그 길목이 지금 데이터센터에서 OS와 칩으로 옮겨가고 있다.

자본은 양쪽에 동시에 베팅한다

여기서 흔한 반론이 나온다. "클라우드 추론은 줄지 않는다. 모델은 점점 커지고, 무거운 작업은 결국 서버로 간다." 맞는 말이다. 프런티어 모델 학습과 대형 추론은 계속 데이터센터에 남고, 그래서 빅테크는 데이터센터에 사상 최대 자본을 붓는다. 그런데 자본 흐름을 보면 그들은 양쪽에 동시에 건다. 애플이 자체 실리콘에 들이는 투자, 구글의 텐서(Tensor) 칩, 마이크로소프트가 윈도 코파일럿(Copilot) PC에 NPU 기준선을 강제한 것이 그렇다. 클라우드를 포기하는 게 아니라, 추론의 저점을 단말로 끌어내려 클라우드 의존을 자기 통제 아래 두려는 헤지다. 무거운 건 내 서버에서, 가벼운 건 내 칩에서. 어느 쪽이든 외부 API에 안 뺏긴다. 큰 모델이 살아남는다는 사실과 추론이 단말로 내려간다는 사실은 충돌하지 않는다. 같은 회사가 둘 다 설계하고 있으니까.

VC 자금도 이 틈으로 흘러든다. 양자화와 경량 추론 엔진, 디바이스용 모델 최적화 스타트업이 조용히 라운드를 채운다. 화려하지 않다. 그래서 더 구조적이다.

삼성이 쥐고 안 쓰는 카드

한국 기업은 이 흐름에서 어디 서 있나. 공급자인가, 고객인가, 표준 설계자인가. 삼성은 셋 다 만질 수 있는 거의 유일한 자리에 있다. 갤럭시(Galaxy)라는 OS 표면, 엑시노스(Exynos)라는 칩, 그리고 HBM과 온디바이스용 LPDDR를 만드는 메모리. SK하이닉스까지 묶으면 부산에서 인천까지 이어지는 이 반도체 벨트가 온디바이스 추론의 물리적 바닥을 깐다. NPU가 빨라도 메모리 대역폭이 못 받치면 소형 모델은 단말에서 못 돈다. 그 병목을 한국이 쥐고 있다.

문제는 이 레버리지를 부품 납품으로만 쓰고 있다는 점이다. 갤럭시 AI는 상당 부분을 외부 모델에 기대고, 기기 위 AI 경험의 규칙은 구글이 안드로이드로 정한다. 삼성은 칩과 메모리와 단말을 다 가지고도 온디바이스 추론의 표준을 자기가 쓰지 않는다. 공급자에 머문다. 표준 설계자 자리는 비어 있는데 거기 안 앉는다.

관망의 청구서

추론이 단말로 내려가는 속도가 한국 IT의 다음 원가 구조를 정한다. 클라우드 토큰 비용에 묶인 국내 서비스는 경쟁사가 같은 기능을 단말에서 공짜로 돌릴 때 마진에서 진다. 메모리 회사는 온디바이스 수요가 어떤 스펙을 요구할지 1년 먼저 알면 공정을 그쪽으로 돌릴 수 있다. 늦게 알면 남이 정한 규격을 따라 만들 뿐이다.

실리콘밸리의 발표는 남의 제품 소식이 아니다. 한국 기업이 내년에 토큰값을 낼지 칩값을 받을지 가르는 신호다. 관망의 비용은 청구서에 안 찍힌다. 하지만 표준이 굳은 뒤엔 그 자리에 앉는 값이 가장 비싸다.

이 글이 좋았다면 눌러주세요

글쓴이

VALLEY

VALLEY

실리콘밸리 현장 해설자

실리콘밸리의 발표를 한국 기업의 원가표로 옮긴다. 누가 다음 산업을 쥐려는지 읽으며.

VALLEY의 다른 글 보기 →

이 글이 유용했다면 공유해 주세요

VALLEY 칼럼 더 보기 →

VALLEY의 다른 글

전체 보기 →

관련 스토리

AI 전체 →