CHAPTER 10 OF 10

🌐

Other World Model Schools and the Future

다른 World Model 학파와 미래

JEPA만이 World Model 연구가 아니다. Ha & Schmidhuber(2018), DeepMind의 Dreamer V1-V3, Genie, OpenAI Sora, NVIDIA Cosmos — 각각의 학파와 JEPA의 비교. 2026년 6월 현재 영향력 정직하게.

🍌 NANO BANANA CHEATSHEET · CH 10

Overview

개관

World Model은 LeCun과 JEPA만의 주제가 아니다. 여러 학파가 다른 접근으로 같은 목표를 추구한다. 이번 마지막 장은 그 풍경을 본다.

이번 장은 deep research에서 "VLA-JEPA 및 다른 학파의 정확한 비교 수치"가 일부 검증 안 됨을 인지하고, 검증된 핵심만 다룬다. 정확한 비교 벤치마크 수치는 caveat과 함께 제시.

🎯 Learning Goals

Ha & Schmidhuber의 2018 World Models 논문 위치를 안다
Dreamer 시리즈의 핵심 발상과 RL 적용을 안다
Genie의 'foundation world model' 접근을 안다
Sora·NVIDIA Cosmos의 generative world model 라인을 안다
JEPA가 이 풍경에서 어디 위치하는지 그릴 수 있다

Sections

본문

10.1 Ha & Schmidhuber 'World Models' (2018) — 원조

World Model이라는 단어가 AI 학계에서 본격적으로 쓰이게 된 결정적 논문: David Ha & Jürgen Schmidhuber, "World Models" (2018).

핵심 발상: 강화학습 에이전트가 환경을 직접 학습하기 전에, 환경의 모형(World Model)을 먼저 학습한다. 그 다음 그 모형 안에서 "머릿속으로" 시뮬레이션하며 정책 학습.

구조:

Vision (V): VAE로 관측을 압축 (잠재 변수)
Memory (M): RNN으로 "이 상태에서 이런 행동을 하면 다음 상태가 어떨까" 학습
Controller (C): 작은 신경망으로 정책 결정

의의: "World Model을 학습한 뒤 그 안에서 정책을 키운다"는 패턴을 정립. 이후 모든 model-based RL의 표준.

JEPA와의 차이:

Ha 2018: RL용. 게임·시뮬레이터 환경. VAE 기반 (생성형).
JEPA: SSL용. 일반 비디오. 비생성형.

두 접근은 다른 도메인을 다루지만 "World Model 학습"의 기본 정신은 공유.

10.2 DeepMind Dreamer V1-V3

Ha 2018의 발상을 DeepMind가 발전시킨 게 Dreamer 시리즈.

Dreamer V1 (2019): latent dynamics model을 학습해 그 안에서 정책 학습. Atari·DeepMind Control Suite.

Dreamer V2 (2020): 카테고리 잠재 변수 도입. Atari 100% normalized 점수 달성.

Dreamer V3 (2023, arXiv 2301.04104): 단일 모델로 150개 이상의 도메인에서 인간 수준. Atari·Crafter·Minecraft 등 매우 다양한 환경. 같은 하이퍼파라미터로 모든 환경에 적용 — "general world model"의 첫 데모.

핵심 차이 vs JEPA:

Dreamer는 RL 환경 내(시뮬레이터). JEPA는 자연 비디오.
Dreamer는 픽셀 재구성을 손실에 포함 (반-생성). JEPA는 완전 비생성.
Dreamer는 "보상 + 다음 상태"를 명시적으로 예측. JEPA는 그 위에 V-JEPA 2-AC로 액션을 추가.

현재 영향력: Dreamer V3는 RL 분야에서 매우 강한 베이스라인. JEPA가 "일반 시각"이라면 Dreamer는 "환경 RL"의 World Model 표준.

출처: arXiv 2301.04104 (Dreamer V3).

DreamerV3의 World Model 학습 구조. RSSM(Recurrent State-Space Model)이 과거 관찰과 액션에서 잠재 상태를 예측한다.

DreamerV3 벤치마크 요약. 고정된 하이퍼파라미터 하나로 Atari·DMC·Minecraft 등 150개 이상의 다양한 도메인을 동시에 정복한다.

10.3 DeepMind Genie — Foundation World Model

Genie(2024, DeepMind): "수십만 개의 인터넷 게임 영상을 학습해 새로운 상호작용 가능 환경을 생성"의 모델.

핵심 발상: 비디오만 보고 "플레이어 액션 → 다음 프레임"의 관계를 자동 학습. 라벨 없이.

Genie 1: 2D 게임 영상. 입력: 한 장면. 액션을 주면 그 액션에 맞는 다음 프레임 생성.

Genie 2 (2024-12): 3D 환경으로 확장. "한 이미지에서 1분 단위의 상호작용 가능 환경 생성". Foundation world model이라 명명.

JEPA와의 차이:

Genie: Generative. 픽셀까지 만든다.
JEPA: Predictive. 임베딩만.
Genie: 게임·상상 환경 생성에 강점.
JEPA: 자연 영상의 추상 이해에 강점.

의의: "한 이미지에서 상호작용 가능 환경을 만든다"는 발상은 Sora보다 더 명시적으로 "World Model". 다만 픽셀 시뮬레이션의 한계는 그대로.

출처: Wikipedia Genie (world model).

10.4 OpenAI Sora와 NVIDIA Cosmos

OpenAI Sora (2024-02): 텍스트로부터 1분 영상 생성. OpenAI가 "world simulator"라 명명. 자세한 건 9장 참고. Generative.

NVIDIA Cosmos (2025-01, arXiv 2501.03575): "Cosmos World Foundation Model Platform for Physical AI". NVIDIA가 자율주행·로봇용으로 발표.

Cosmos의 두 갈래:

Cosmos-1.0-Diffusion: 비디오 생성형. Sora 류.
Cosmos-1.0-Autoregressive: 토큰 단위 자기회귀.

의의: NVIDIA는 자율주행·로봇 시뮬레이션 자원을 World Model로 패키징해 산업 도입을 노림. 학술적 새로움보다 "산업 적용"의 실용 사례.

JEPA와의 비교:

Cosmos: 픽셀 생성. 시각적 확인 가능한 시뮬레이션.
JEPA: 임베딩만. 사람이 "시뮬레이션 결과"를 볼 수 없음.
두 접근 모두 자율주행·로봇 시뮬레이션을 노리지만 본질이 다름.

출처: arXiv 2501.03575.

NVIDIA Cosmos World Foundation Model 개요. 대규모 비디오 데이터로 사전학습된 WFM이 Physical AI를 위한 범용 세계 시뮬레이터로 동작하는 구조.

Cosmos 플랫폼 구성 요소. 비디오 큐레이터, 토크나이저, 확산/자기회귀 WFM, Guardrail로 이루어진 풀 파이프라인.

10.5 World Model 풍경의 종합 — 그리고 본 코스의 마무리

현재 World Model 풍경:

학파	대표 모델	접근	적용 도메인
Meta / LeCun	I-JEPA, V-JEPA, V-JEPA 2	비생성 SSL	자연 비디오, 로봇
DeepMind RL	Dreamer V1-V3	반-생성 RL	게임·시뮬레이터
DeepMind Foundation	Genie 1·2	생성 (foundation)	상호작용 환경
OpenAI	Sora	생성 (diffusion)	비디오 생성
NVIDIA	Cosmos	생성 (두 갈래)	산업 시뮬레이션
원조	Ha & Schmidhuber 2018	VAE+RNN	RL 게임

각 진영의 현재 영향력 (2026-06 정직 평가):

Meta JEPA: 학계 활발한 연구. Meta 외 산업 채택은 제한적. 자율주행·로봇 분야에서 신호 시작.
DeepMind Dreamer: RL 분야의 강한 베이스라인. 학계 인용 활발.
Genie: 새로움 인상적. 실용 적용은 초기.
Sora: 상업적 화제성 압도. "진짜 World Model"의 학술 가치는 논쟁 중.
NVIDIA Cosmos: 산업 도입 노린 패키지. 자율주행 회사들이 검토 중.

caveat: 위 "영향력 평가"는 본 deep research에서 정량 지표(인용 수·산업 채택 통계)로 검증 안 됨. 대체적 학계 풍경의 묘사.

본 코스를 마치며: 10장에 걸쳐 LeCun의 비전 → JEPA 시리즈 → 한계 → 다른 학파를 봤다. 이 분야는 2026년 현재 가장 활발한 AI 연구 전선 중 하나다. 어느 학파가 이길지는 정해지지 않았다. 본 코스를 끝낸 학습자가 갖고 갈 것: (1) 정확한 사실의 토대, (2) 양쪽 진영을 공정히 정리할 수 있는 자세, (3) 새 결과가 나올 때마다 평가할 수 있는 도구. 이 세 가지가 본 분야의 미래를 자기 눈으로 따라갈 수 있게 한다.

💡 Analogy · 비유

여러 길이 같은 산 정상을 향한다

한 산의 정상(인간 수준 World Model)에 여러 길이 있다.

(A) JEPA 길: 추상화된 의미 표현으로 직접 정상에. LeCun 일행이 개척 중. (B) Sora 길: 픽셀 시뮬레이션의 정교화로. OpenAI·DeepMind 일행. (C) Dreamer 길: 시뮬레이터 환경 안에서 RL로. DeepMind RL팀. (D) Cosmos 길: 산업 적용으로 검증하며. NVIDIA.

1990년대 인터넷 등장 때도 이랬다. 한 진영(웹 vs Gopher vs FTP)이 길이라고 단언한 사람들이 모두 부분적으로 옳았고, 결국 웹이 표준이 됐다. 그러나 그게 끝이 아니었다 — 모바일 앱·SNS·블록체인 등 새 길이 계속 나타났다.

World Model도 마찬가지일 가능성. 2026년 6월의 "승자"가 영원한 승자가 아니다. 본 코스의 학습자는 풍경 전체를 알고, 새 학파가 등장할 때마다 "이게 LeCun 식인가 OpenAI 식인가 또는 새 식인가"를 빠르게 분류할 수 있어야 한다.

끝. 잘 끝마쳤다.

본 코스를 마치며 — 각 학파의 World Model을 한 줄로 비교하는 의사 코드. 각 함수의 'predict_next'가 그 학파의 본질.

python

# ============== Different schools, same goal: predict the future ==============

# Ha & Schmidhuber 2018 — VAE + RNN
def ha_predict_next(state, action, vae, rnn):
    z = vae.encode(state)
    z_next = rnn(z, action)
    return vae.decode(z_next)         # pixels (lossy)

# Dreamer V3 — RSSM (Recurrent State Space Model)
def dreamer_predict_next(state, action, rssm):
    deterministic, stochastic = rssm.encode(state)
    next_det, next_stoch = rssm.step(deterministic, stochastic, action)
    return rssm.decoder(next_det, next_stoch)   # pixels + reward

# Sora — Diffusion in pixel space
def sora_predict_next(text_prompt, prev_frames, diffusion):
    return diffusion.sample(condition=(text_prompt, prev_frames))   # pixels

# Genie 2 — Foundation video model
def genie_predict_next(scene_image, action, genie):
    return genie.unroll(scene_image, [action], steps=60)            # 1 minute of pixels

# V-JEPA 2-AC — Predictive (LeCun school)
def vjepa2_predict_next(video, action, encoder, action_transformer):
    s = encoder(video).detach()
    return action_transformer(s, action)                            # embedding only

# NVIDIA Cosmos — two flavors
def cosmos_predict_next_diffusion(state, action, model):
    return model.diffusion(state, action)                           # pixels

def cosmos_predict_next_autoregressive(state, action, model):
    return model.next_token(state, action)                          # discrete tokens

# 각 함수의 반환 타입이 학파의 본질:
# pixels (생성형) vs embedding (비생성형) vs tokens (자기회귀)
# 이 trade-off 위에 모든 World Model 연구가 서 있다.

한 자리에 모아 보면 각 학파가 무엇을 "예측"하는지가 명확하다. Ha·Dreamer·Sora·Genie·Cosmos diffusion은 픽셀, Cosmos autoregressive는 토큰, V-JEPA 2-AC는 임베딩. 각각이 다른 trade-off — 시각 확인 vs 추상 학습 효율, 데이터 효율 vs 일반화. 본 분야의 미래 5년이 어느 trade-off가 진짜 World Model로 가는 길인지를 결정할 것이다.

🏭 현업에서의 평가

World Model 풍경 전체를 매핑하는 능력이 본 분야 시니어 연구자의 최종 자격. 한 학파만 알면 시야 좁음.

✅ 시니어가 보는 것

Ha 2018·Dreamer V3·Genie 1·2·Sora·NVIDIA Cosmos·JEPA 시리즈 모두 안다
각 학파의 본질적 차이(예측 대상·도메인) 즉답
JEPA의 위치를 풍경에서 정확히 가리킴
한 학파의 fan이 아닌 풍경 전체의 객관 평가

⚠️ 레드 플래그

JEPA만 알고 다른 학파 모름
Dreamer를 "옛날 거"로 무시
Sora·NVIDIA Cosmos를 마케팅 그대로 옮김
각 학파의 영향력을 정량 근거 없이 단정

🎤 예상 인터뷰 질문

JEPA·Dreamer·Genie·Sora의 핵심 차이를 각각 한 문장으로
당신 회사가 자율주행에 World Model을 도입한다면 어느 학파를 보겠습니까?
2026년 현재 어느 학파가 가장 영향력 있다고 보십니까? 근거는?

숙달 vs 익숙함: Familiar는 'World Model 학파 여럿이 있다'를 안다. Mastery는 각 학파의 대표 모델·접근·도메인을 매핑하고, 영향력을 정량 근거(있을 때)로 평가하며, JEPA의 위치를 풍경에서 정확히 가리킨다.

Key Takeaways

핵심 정리

Ha 2018 원조

VAE+RNN. RL용 World Model의 시작.

Dreamer V3 (2023)

150+ 도메인 인간 수준. RL의 강력 베이스.

Genie (DeepMind)

Foundation world model. 픽셀 생성.

Sora

텍스트→비디오. OpenAI 'world simulator'.

NVIDIA Cosmos

산업 적용 패키지. 두 갈래 (diffusion + AR).

JEPA의 위치

비생성 자연 비디오. 다른 학파와 본질 차이.

영향력 미정

어느 학파가 이길지 2-3년 결정.

본 코스의 끝

정확한 사실 + 공정한 풍경 + 새 결과 평가 도구.

← Ch09 · The Generative vs Predictive Debate 목차로 →