AI가 세상을 이해하기 시작한다

AI가 세상을 '이해'하기 시작했습니다

지금까지의 AI는 텍스트를 잘 쓰고, 이미지를 잘 만들고, 코드를 잘 짜는 데 집중했습니다. 질문하면 답하고, 지시하면 생성하는 방식입니다. 그런데 최근 AI 연구의 방향이 근본적으로 달라지고 있습니다. 단순히 패턴을 흉내 내는 수준을 넘어, 물리적 세계가 어떻게 작동하는지를 이해하는 AI를 만들겠다는 겁니다.

이 방향의 핵심 키워드가 '월드 모델(World Model)'입니다. 아직 일반에 널리 알려진 개념은 아니지만, 2026년 AI 업계에서 가장 뜨거운 경쟁이 벌어지고 있는 영역입니다.

월드 모델이란

쉽게 말하면, AI가 머릿속에 '세상의 시뮬레이터'를 갖는 것입니다.

챗GPT나 클로드 같은 대형 언어 모델(LLM)은 텍스트를 학습해서 다음에 올 단어를 예측합니다. 이미지 생성 AI는 픽셀 패턴을 학습합니다. 둘 다 '이전에 본 것과 비슷한 것'을 만들어내는 데 뛰어나지만, 물리 법칙을 이해하지는 못합니다. 공을 던지면 포물선을 그린다는 걸, 컵을 기울이면 물이 쏟아진다는 걸, 이 AI들은 '알지' 못합니다. 텍스트로 설명할 수는 있어도, 실제로 시뮬레이션하지는 못합니다.

월드 모델은 다릅니다. 현재 상태를 관측하고, 특정 행동을 취했을 때 다음에 무슨 일이 벌어질지를 예측합니다. 공이 날아가는 궤적, 로봇 팔이 물건을 집을 때의 물리적 상호작용, 자동차가 교차로에서 회전할 때의 동역학. 이런 것들을 내부적으로 시뮬레이션할 수 있는 AI입니다.

메타(Meta)의 수석 AI 과학자 얀 르쿤(Yann LeCun)이 오래전부터 주장해온 개념입니다. 그는 현재의 LLM 중심 접근이 물리적 지능으로 가는 길에서는 근본적 한계가 있다고 줄곧 이야기해왔습니다. 텍스트를 아무리 많이 학습해도, 세상이 '왜' 그렇게 움직이는지는 배울 수 없다는 겁니다.

왜 지금 불붙었나

월드 모델 자체는 새로운 개념이 아닙니다. 하지만 2026년 들어 경쟁이 갑자기 가열된 데는 몇 가지 이유가 있습니다.

첫째, 빅테크가 움직이기 시작했습니다. 구글 딥마인드는 로봇과 자율 시스템이 물리 환경을 이해하고 스스로 판단·행동할 수 있는 월드 모델 연구에 본격적으로 힘을 싣겠다고 발표했습니다. 엔비디아는 '옴니버스'와 '아이작' 플랫폼으로 공장과 물류 현장을 가상 공간에서 학습하고 검증하는 시뮬레이션 생태계를 확장하고 있습니다. 스탠퍼드의 페이페이 리 교수가 설립한 월드랩스(World Labs)는 3차원 공간을 생성·편집할 수 있는 월드 모델 기반 상용 제품까지 공개했습니다.

둘째, AI 에이전트의 한계가 드러났기 때문입니다. 지난 1년간 AI 에이전트가 업무를 자동화하겠다는 약속이 쏟아졌지만, 실제 현장에서는 개념검증(PoC) 수준에 머무는 경우가 많았습니다. 텍스트를 잘 처리하는 AI와, 물리적 세계에서 실제로 행동하는 AI 사이에는 큰 간극이 있습니다. 로봇이 공장에서 부품을 집어 올리려면, 텍스트 이해력이 아니라 물리적 세계에 대한 이해가 필요합니다.

셋째, 피지컬 AI(Physical AI)가 다음 전장으로 떠올랐습니다. 피규어AI와 보스턴다이내믹스 같은 로봇 기업들이 AI 기반 인지·행동 모델을 적용해 로봇의 작업 수행 능력을 끌어올리고 있고, 제조와 물류 현장으로의 확산이 시작되고 있습니다. 카이스트 신진우 교수의 표현대로 "앞으로 5년의 선택이 미래 50년간 피지컬 AI 경쟁력의 잣대가 될 것"이라는 인식이 퍼지고 있습니다.

GPU 한 장으로 세상을 시뮬레이션하다

이런 흐름 속에서 최근 가장 주목받는 연구 결과가 있습니다. 얀 르쿤이 공저자로 참여한 LeWorldModel(LeWM)입니다.

월드 모델 연구의 가장 큰 장벽은 두 가지였습니다. 훈련이 불안정하다는 것, 그리고 엄청난 컴퓨팅 자원이 필요하다는 것.

르쿤이 제안한 JEPA(Joint Embedding Predictive Architecture) 구조는 이론적으로는 훌륭했습니다. 카메라로 본 장면(픽셀)을 압축된 표현으로 바꾸고, 그 표현 공간에서 다음 상태를 예측하는 방식입니다. 문제는 훈련 과정에서 '표현 붕괴(representation collapse)'가 일어난다는 거였습니다. 모델이 모든 입력을 거의 같은 표현으로 매핑해버려서, 사실상 아무것도 구분하지 못하게 되는 현상입니다.

이를 막기 위해 기존 방법들은 온갖 편법을 동원했습니다. 6개 이상의 손실 함수를 조합하거나, 미리 학습된 거대한 인코더를 얹거나, 학습을 안정시키기 위한 복잡한 트릭을 추가했습니다. 결과적으로 연구실에서나 돌릴 수 있는, 무겁고 불안정한 시스템이 됐습니다.

LeWorldModel은 이 문제를 놀랍도록 단순하게 풀었습니다. 손실 함수를 딱 두 개로 줄였습니다. 다음 상태를 예측하는 손실 하나, 표현이 가우시안 분포를 따르도록 강제하는 정규화 하나. 이 '가우시안 정규화(SIGReg)'라는 방법이 표현 붕괴를 막아줍니다. 복잡한 편법 없이, 수학적으로 깔끔한 해결책입니다.

결과가 인상적입니다. 파라미터 1,500만 개. GPT-4 같은 모델이 수천억 개의 파라미터를 쓰는 것과 비교하면 극도로 가볍습니다. GPU 한 장으로 몇 시간이면 훈련이 끝납니다. 계획 수립(planning)은 1초 이내에 완료됩니다. 기존의 기반 모델(foundation model) 기반 월드 모델 대비 속도가 48배 빠릅니다.

로봇공학 벤치마크인 Push-T에서 96% 성공률을 기록했는데, 이건 자신보다 10배 큰 모델들과 견줄 만한 수준입니다.

이게 왜 중요한가

LeWorldModel이 보여준 것은 단순한 기술적 성과가 아닙니다. 두 가지 의미가 있습니다.

첫째, '물리적 지능에는 거대한 규모가 필수'라는 가정이 흔들립니다. AI 업계는 지금 조 단위 파라미터를 향해 달리고 있습니다. 마이크로소프트가 AI 인프라에 800억 달러를 투입하고, 구글이 900억 달러를 쏟는 시대입니다. 하지만 1,500만 파라미터로 세상을 시뮬레이션할 수 있다면, 규모 경쟁만이 답은 아닙니다. '더 크게' 대신 '더 똑똑한 구조'로 문제를 푸는 길이 열린 겁니다.

둘째, 스타트업과 대학 연구실도 게임에 참여할 수 있게 됩니다. GPU 수천 장이 필요한 연구는 빅테크만 할 수 있습니다. GPU 한 장이면 되는 연구는 누구나 할 수 있습니다. 네이버클라우드 성낙호 전무가 국회 포럼에서 "현실 데이터를 추가 학습한 월드 모델이 AI 문제 해결의 새로운 성장 동력이 될 것"이라고 말했는데, 이런 가벼운 모델이 나와야 실제로 그 말이 현실이 됩니다.

어디에 쓸 수 있나

월드 모델이 실용화되면 영향을 받는 영역은 광범위합니다.

로봇 공학. 가장 직접적인 활용처입니다. 로봇이 새로운 환경에서 물건을 집고, 장애물을 피하고, 도구를 사용하는 법을 실제 시행착오 없이 가상으로 먼저 학습할 수 있습니다. 피규어AI와 보스턴다이내믹스가 이미 이 방향으로 움직이고 있습니다.

자율주행. 도로 위의 복잡한 상황을 시뮬레이션하는 데 월드 모델이 핵심 역할을 합니다. 실제 도로에서 테스트하기 위험한 극단적 상황(갑작스러운 보행자 출현, 악천후 등)을 가상으로 무한히 재현할 수 있습니다.

제조와 물류. 엔비디아가 옴니버스 플랫폼으로 이미 하고 있는 일입니다. 공장 라인의 배치를 바꾸거나 물류 동선을 최적화할 때, 실제로 바꾸기 전에 가상으로 시뮬레이션합니다. 월드 모델이 정교해질수록 시뮬레이션의 정확도가 올라갑니다.

게임과 콘텐츠. 월드랩스가 보여준 것처럼, 3차원 공간을 물리 법칙에 맞게 생성하고 편집하는 일에도 쓰입니다.

아직 남은 과제

물론 한계도 있습니다. LeWorldModel 연구진도 인정한 것처럼, 데이터 다양성이 낮은 단순한 환경에서는 오히려 성능이 떨어집니다. 계획 수립의 시간 범위(planning horizon)도 아직 짧습니다. 긴 미래를 정확히 예측하는 건 여전히 어려운 문제입니다.

한국의 상황도 녹록지 않습니다. 국가AI전략위가 2030년 피지컬 AI 1위를 목표로 내걸었지만, 대규모 물리 데이터 축적과 장기 실증 경험이 부족하다는 평가가 이어지고 있습니다. 대학에서는 GPU 사용을 둘러싼 경쟁이 치열하고, GPU를 확보해도 매달 수십억 원의 전기료가 부담입니다.

하지만 LeWorldModel 같은 연구가 보여주는 것은, 반드시 막대한 인프라가 있어야만 이 경쟁에 참여할 수 있는 건 아니라는 점입니다. 똑똑한 구조 하나가 수천 장의 GPU를 대체할 수 있습니다. 규모의 게임이 아니라 구조의 게임이 시작되고 있습니다.

AI가 텍스트를 잘 다루는 시대는 이미 왔습니다. 다음은 AI가 세상을 이해하는 시대입니다. 월드 모델은 그 전환의 핵심 기술입니다.

AI가 세상을 이해하기 시작한다

AI가 세상을 '이해'하기 시작했습니다

월드 모델이란

왜 지금 불붙었나

GPU 한 장으로 세상을 시뮬레이션하다

이게 왜 중요한가

어디에 쓸 수 있나

아직 남은 과제

참고 및 인용

리브레토의 인기글

리브레토 인사이트 구독

AI가 세상을 '이해'하기 시작했습니다

월드 모델이란

왜 지금 불붙었나

GPU 한 장으로 세상을 시뮬레이션하다

이게 왜 중요한가

어디에 쓸 수 있나

아직 남은 과제

참고 및 인용

추천 인사이트

리브레토의 인기글