📚 SYLLABUS

World Models & JEPA — LeCun's Path Beyond Generative AI

World Model과 JEPA — LeCun이 그리는 다음 AI의 길

Yann LeCun의 2022년 비전 문서에서 시작해 I-JEPA(2023), V-JEPA(2024), V-JEPA 2(2025)까지 — World Model이라는 큰 우산 아래에서 JEPA 시리즈를 깊이 본다. 자율 지능을 위한 6모듈 아키텍처, Generative vs Predictive 논쟁, 물리 추론 벤치마크의 정직한 격차, 그리고 Dreamer·Genie·Sora·NVIDIA Cosmos 같은 다른 학파들. 초보자에게 전문용어를 모두 풀어 설명하고, 검증된 사실(deep research 24-claim)에 기반.

INTERMEDIATE PYTHON 10 CHAPTERS

🌍 Why World Models?

왜 World Model인가 — LeCun의 비전

Yann LeCun이 2022년에 던진 질문: '지능이란 결국 미래를 예측하는 능력이다. 그럼 AI도 자기 안에 세상의 모형(World Model)을 가져야 하지 않을까?' 이 한 문장이 JEPA 시리즈의 출발점이다.

World Model의 정의LeCun의 2022 vision paper6모듈 자율 지능 아키텍처Configurator·Perception·World Model·Cost·Actor·Memory

🆚 Generative vs Predictive AI

LeCun의 LLM 비판 — 정확한 두 가지 이유

LeCun이 'LLM 스케일링은 막다른 길'이라고 단언하는 두 가지 정확한 이유를 본다. 토큰화 SSL의 한계 + 추상 잠재 변수의 부재. 이 두 비판이 JEPA가 왜 '비생성(non-generative)'인지의 근거다.

Generative AI vs Predictive AITokenized SSLDiscrete vs continuous distributionsAbstract latent variables

📚 Self-Supervised Learning의 진화

SSL 가족 트리 — SimCLR에서 JEPA까지

JEPA는 갑자기 등장한 게 아니라 Self-Supervised Learning(SSL)이 5년간 진화한 결과다. SimCLR(2020) → MoCo → BYOL → DINO → MAE → JEPA의 흐름을 따라가면 JEPA가 왜 그 모양인지 자연스럽게 보인다.

Self-Supervised Learning 정의Contrastive learning (SimCLR·MoCo)Non-contrastive learning (BYOL·DINO)Masked Autoencoders (MAE)

🏗️ The JEPA Architecture

JEPA 아키텍처의 정확한 정의

두 인코더 + Predictor + 잠재 변수 z. 에너지 함수 E(x,y,z) = D(sy, Pred(sx,z))로 정의되는 비생성 학습 아키텍처. EBM과 LVM의 결합이 수학적 토대.

Joint Embedding Predictive Architecture 정의두 인코더 sx, syPredictor + latent zEnergy function

🖼️ I-JEPA — Images First (2023)

I-JEPA — 이미지에 적용한 첫 JEPA

Assran 등이 2023년 1월에 발표한 첫 JEPA 구현. 이미지의 context block에서 여러 target block의 표현을 예측. Hand-crafted augmentation에 의존하지 않는 게 핵심 차별점. CVPR 2023 발표.

I-JEPA 논문 (arXiv 2301.08243)Context block과 target block마스킹 전략 (15-20% target)ViT 기반 구현

🎞️ V-JEPA — Adding Time (2024)

V-JEPA — 시간축으로 확장 (2024)

2024년 2월 15일 Meta가 공개. Bardes 등의 'Revisiting Feature Prediction'. I-JEPA의 마스킹 발상을 비디오의 시공간 영역으로 확장. ViT-H/16으로 Kinetics-400 81.9%, SSv2 72.2%, ImageNet 77.9% (frozen evaluation).

V-JEPA 논문 (arXiv 2404.08471)Spatio-temporal maskingFeature prediction only objectiveKinetics-400·Something-Something-v2 벤치마크

🤖 V-JEPA 2 — Scale and Action (2025)

V-JEPA 2 — 1.2B 파라미터와 로봇 제어

2025년 6월 11일 Meta가 공개. arXiv 2506.09985. 1.2B 파라미터, 100만 시간 이상의 인터넷 비디오로 사전학습. V-JEPA 2-AC 변형은 DROID 데이터 62시간 미만으로 액션 조건화, Franka 로봇 zero-shot pick-and-place 65-80%. 단순 비디오 모델에서 'World Model'로의 본격 진입.

V-JEPA 2 논문 (arXiv 2506.09985)1.2B 파라미터·100만+ 시간 비디오Action-conditioned (V-JEPA 2-AC)DROID 데이터셋·Franka Emika Panda 로봇

📐 Physical Reasoning Benchmarks

물리 추론 벤치마크 — World Model의 진짜 평가

Meta가 V-JEPA 2와 함께 공개한 세 가지 물리 추론 벤치마크 (IntPhys 2, MVPBench, CausalVQA). 인간 85-95% 정확도 vs 현재 video model들 chance 수준. World Model의 격차를 정직하게 보여주는 평가.

IntPhys 2 (Intuitive Physics)MVPBench (Minimal Video Pairs)CausalVQA인간 vs 모델 격차

⚔️ The Generative vs Predictive Debate

두 진영의 풍경 — LeCun vs LLM·Sora 진영

JEPA의 비생성 접근 vs LLM·Sora의 생성 접근. LeCun의 정확한 비판과 반대 진영의 반박을 양쪽 입장으로 본다. 누가 옳은가는 향후 2-3년의 실험이 결정.

LeCun vs Sutskever·Karpathy·AltmanSora 'world simulator' 논쟁LLM 스케일링 가설Hinton·Bengio 입장

🌐 Other World Model Schools and the Future

다른 World Model 학파와 미래

JEPA만이 World Model 연구가 아니다. Ha & Schmidhuber(2018), DeepMind의 Dreamer V1-V3, Genie, OpenAI Sora, NVIDIA Cosmos — 각각의 학파와 JEPA의 비교. 2026년 6월 현재 영향력 정직하게.

Ha & Schmidhuber 'World Models' (2018)DeepMind Dreamer V1-V3DeepMind GenieOpenAI Sora