The Generative vs Predictive Debate
두 진영의 풍경 — LeCun vs LLM·Sora 진영
JEPA의 비생성 접근 vs LLM·Sora의 생성 접근. LeCun의 정확한 비판과 반대 진영의 반박을 양쪽 입장으로 본다. 누가 옳은가는 향후 2-3년의 실험이 결정.
Overview
1-8장에서 JEPA 진영의 입장을 봤다. 그러나 학계와 산업은 한 가지 입장으로 통일되어 있지 않다. LLM·Sora·Diffusion 진영의 입장도 강력하다. 이번 장은 두 진영의 공개된 논쟁을 정리한다.
중요한 caveat: 본 deep research에서 검증된 사실은 LeCun의 입장 위주다. 반대 진영의 정확한 인용 가능한 반박은 일부 확인되었으나 일부는 추가 검증 필요. 본 장은 그 한계를 명시하면서 양쪽 풍경을 그린다.
- LeCun의 정확한 비판 4가지를 외운다
- LLM 진영의 주요 반박 논거를 안다
- Sora 'world simulator' 주장에 대한 LeCun 반응을 안다
- Hinton·Bengio·Sutskever·Karpathy의 대체적 입장을 안다 (caveat 포함)
- 양쪽 진영의 미래 가설을 객관적으로 정리할 수 있다
Sections
9.1 LeCun의 정확한 4가지 비판
LeCun이 LLM·Sora·Diffusion에 대해 공개적으로 한 비판을 정리.
1. 토큰화 SSL의 한계 (2장에서 봄): 비디오 같은 연속 신호의 불확실성을 이산 토큰 분포로 표현 못 함. arXiv 2022 paper §8.3.1.
2. Abstract latent variable 부재 (2장): LLM은 z가 없어 다중 해석·목표 탐색·행동 시뮬레이션 불가. arXiv 2022.
3. Sora는 'world simulator'가 아니다: OpenAI가 2024년 2월 Sora를 발표하며 "world simulator"라고 표현. LeCun이 공개적으로 "이건 dead end"라고 반박. (출처: the-decoder.com에 보도된 LeCun의 X/Twitter 글)
4. "LLM 스케일링 = AGI 경로"의 반대: "Scaling is not enough" 명제. arXiv 2022 §8.3.1.
이 4가지가 LeCun 입장의 공개적·인용 가능한 핵심. JEPA의 모든 설계 결정이 이 4가지에 답한다.
출처: LeCun 2022 vision paper, https://the-decoder.com/metas-chief-ai-researcher-says-openais-world-simulator-sora-is-a-dead-end/
9.2 LLM 진영의 주요 반박 — 'Scaling이 결국 추론을 만든다'
OpenAI·Anthropic 등 주류 LLM 진영의 핵심 가설: "충분한 scale + 충분한 데이터 + 충분한 컴퓨트면 emergent reasoning이 나타난다".
근거들: 1. GPT-3 → GPT-4의 도약: 단순 next-token prediction이 추론·코딩·수학 등 새 능력을 자동으로 습득. 2. Chain-of-Thought: LLM에 "단계별로 생각해 봐"를 시키면 추론 능력이 폭증. 모델 안에 reasoning이 "잠재". 3. o1·o3 같은 reasoning model: test-time compute를 늘리면 수학 올림피아드급 추론 가능. 4. GPT-4V·Sora의 시각 이해: LLM에 비전을 더하면 World Model 비슷한 능력이 자연스럽게 나타남.
대표 발언: - Ilya Sutskever (전 OpenAI): "GPT가 한 단어 다음 단어를 정확히 예측하려면 결국 세상을 깊이 이해해야 한다. Next-token prediction = compression = understanding." - Sam Altman (OpenAI): "우리는 scale에 베팅한다. 지난 5년의 모든 데이터가 그게 옳음을 보였다."
caveat: 위 인용은 광범위하게 알려진 입장이지만, 본 deep research에서 정확한 출처(공식 인터뷰 URL 등)로 검증된 것은 일부. 강의에서 "대체적 입장"의 수준으로 다룰 것.
9.3 Sora 'world simulator' 논쟁
2024년 2월 OpenAI가 Sora를 발표하며 "world simulator"라는 강한 표현을 썼다. 이게 "world model"이라는 단어의 공식 사용에 큰 영향.
Sora의 주장 (OpenAI): - 비디오 diffusion으로 학습 - 일관된 물리·3D 공간을 자연스럽게 학습 - "World simulator"로서 미래 어떤 환경도 시뮬레이션 가능
LeCun의 반박 (the-decoder.com 보도): - "Generating realistic video by reconstructing pixels does not require understanding the physics of the world." - "Sora generates plausible-looking videos but it doesn't actually 'understand' what it's making." - 픽셀 시뮬레이션은 진짜 World Model이 아니다는 입장.
Karpathy 등의 다른 의견: Karpathy는 "Sora가 다양한 물리적 시나리오를 학습한 건 의미 있다. World model의 한 형태로 봐도 된다."는 입장 (대체적 입장, 정확한 출처 확인 필요).
현재 풍경: "world simulator/model" 단어가 두 가지 다른 의미로 동시에 쓰임: - LeCun 식 = 임베딩 공간에서 미래 예측하는 모델 (JEPA) - OpenAI 식 = 픽셀 단위로 일관된 영상을 만드는 모델 (Sora)
둘 다 "world model"이라 부르지만 본질이 다르다. 학습자는 단어가 쓰일 때 어느 의미인지 항상 확인해야 함.
9.4 Turing Award 3인의 분화
2018 Turing Award를 함께 받은 3인 — Yann LeCun, Geoffrey Hinton, Yoshua Bengio — 의 현재 입장은 흥미롭게 분화되어 있다.
Yann LeCun (Meta): JEPA 진영. "LLM은 막다른 길". World Model + 비생성 SSL이 길.
Geoffrey Hinton (전 Google, 현재 독립): 2023년 "AI 위험" 경고로 화제. 입장이 LLM 비판과 일치하는 부분 있지만 ("LLM이 진짜 추론을 하는가"에 회의적), JEPA를 명시적으로 지지하진 않음. 그의 비판은 주로 "AI 안전성"에 집중.
Yoshua Bengio (Mila): LLM의 한계에 대해 비교적 동의. "System 2 reasoning"이 필요하다고 주장. Generative flow networks(GFlowNets) 같은 자기 방향 추구. LeCun과 가까운 입장이지만 동일하진 않음.
caveat: 위 세 입장은 broad description이고 "공개된 모든 발언"의 통합이 아니다. 각자 입장은 변할 수 있으며, 본 강의는 2026년 6월 현재의 대체적 풍경만 그린다.
의미: "AI 거장들의 합의" 같은 건 없다. "LLM이 길이다" vs "다른 길이 필요하다"의 논쟁이 진행 중. 학습자가 한 진영의 입장만 외우면 위험.
9.5 누가 옳은가 — 본 코스의 결론
정답은: 아직 모른다. 향후 2-3년의 실험과 결과가 결정.
JEPA 진영이 이길 시나리오: - V-JEPA 3, 4가 물리 추론 벤치마크에서 인간 수준에 근접 - 자율주행·로봇 분야에서 World Model 기반 접근이 LLM·diffusion 기반보다 압승 - 8장의 격차(인간 vs 모델)가 빠르게 줄어듦
LLM 진영이 이길 시나리오: - o3·o4·o5의 reasoning model이 모든 벤치마크에서 인간 수준 도달 - Sora·Veo·Genie 같은 video generative model이 자연스럽게 World Model 능력 습득 - JEPA 진영의 결과가 정체되고 follow-up 결과 부족
둘 다 부분적으로 이길 시나리오 (가장 현실적): - 인지·언어는 LLM, 시각·로봇은 JEPA의 하이브리드 - 두 접근이 서로 차용해 융합 — "LLM + World Model"
본 코스의 권장 자세: - 한 진영의 fan이 되지 말 것 - 양쪽 입장을 공정히 정리할 수 있어야 함 - 새 결과가 나올 때마다 "누가 어느 방향을 강화했는가"를 추적
이게 본 분야의 가장 흥미진진한 부분이다.
20세기 초 미술계에 두 진영이 있었다.
사실주의(Realism): "진짜처럼 그리는 게 핵심이다. 더 정확한 디테일, 더 자연스러운 색." 사진 같은 그림을 추구. — LLM·Sora 진영과 유사. 픽셀까지 정확히.
추상주의(Abstractionism): "진짜처럼 그리는 건 사진이 한다. 우리는 본질을 추상화한다." 모양·색·감정으로 의미를 표현. — JEPA 진영과 유사. 임베딩 공간의 의미.
100년이 지나도 둘 중 어느 게 "옳다"는 결론은 안 났다. 둘 다 미술의 정당한 갈래다. 그리고 가장 흥미로운 작가들(피카소 등)은 두 진영을 자유롭게 오갔다.
AI도 마찬가지일 가능성이 가장 크다. JEPA vs LLM 둘 다 정당한 길이고, 진짜 진보는 두 길의 융합에서 나온다. 본 코스를 끝낸 학습자가 어느 한 진영에 "신앙"을 가지지 말기를 권한다.
두 진영의 접근을 같은 문제(다음 비디오 프레임 예측)에 적용해 차이를 본다. 둘 다 정당한 접근이고, 둘 다 어떤 면에서 강점이 있다.
import torch
import torch.nn as nn
# ============== Generative approach (Sora-style) ==============
class VideoDiffusionWorldModel(nn.Module):
"""Generates the next frame's pixels via diffusion."""
def __init__(self):
super().__init__()
self.encoder = ViT_video()
self.diffusion = DiffusionDecoder() # noise → next frame pixels
def predict_next(self, current_video):
cond = self.encoder(current_video)
next_frame_pixels = self.diffusion.sample(condition=cond)
# Output: full RGB image of the predicted next frame
return next_frame_pixels
def train_step(self, current, next_frame):
cond = self.encoder(current)
loss = self.diffusion.diffusion_loss(next_frame, cond)
# Loss = pixel-level reconstruction (lossy)
return loss
# ============== Predictive approach (V-JEPA-style) ==============
class VJEPAWorldModel(nn.Module):
"""Predicts the next frame's embedding, not pixels."""
def __init__(self):
super().__init__()
self.context_encoder = ViT_video()
self.target_encoder = ViT_video() # EMA copy
self.predictor = ViT_predictor()
def predict_next(self, current_video):
sx = self.context_encoder(current_video)
sy_pred = self.predictor(sx)
# Output: embedding of the predicted next frame (not pixels)
return sy_pred
def train_step(self, current, next_frame):
sx = self.context_encoder(current)
sy_true = self.target_encoder(next_frame).detach()
sy_pred = self.predictor(sx)
loss = ((sy_pred - sy_true) ** 2).mean()
# Loss = embedding-level distance (non-generative)
return loss
# 두 접근의 trade-off:
# Generative: 픽셀까지 만들어 시각적 확인 쉬움. 그러나 unpredictable detail에 학습 신호 낭비
# Predictive: 픽셀 안 만듦. 추상 의미만 학습. 그러나 결과를 사람이 시각적으로 확인 못 함
두 모델의 출력 차이가 핵심. Generative는 RGB 픽셀을 만들어 사람이 "그럴듯한 다음 프레임"으로 시각 확인 가능. Predictive는 임베딩만 만들어 사람이 직접 볼 수 없음 — 그러나 학습 자원이 "중요한 의미"에 집중. 둘 다 World Model을 노리지만 본질적으로 다른 trade-off. 본 분야의 미래가 이 둘 중 하나로 굳어질지, 융합될지가 핵심 관심사.
✅ 시니어가 보는 것
- LeCun의 4가지 비판을 외움
- LLM 진영의 주요 반박 논거 안다
- Sora 'world simulator' 논쟁의 정확한 위치 안다
- Hinton·Bengio 입장을 LeCun과 구분
- 양쪽 입장을 공정히 정리할 수 있는 자세
⚠️ 레드 플래그
- 한 진영의 fan으로 다른 쪽 비하
- Sora를 "진짜 world model"로 또는 "완전한 사기"로 단정
- Turing Award 3인이 같은 의견을 가졌다고 가정
- Position paper와 peer-reviewed 결과를 같은 무게로
🎤 예상 인터뷰 질문
- LeCun이 Sora를 'dead end'라고 한 이유와 OpenAI의 반박은?
- Sutskever의 'next-token prediction = compression = understanding' 주장에 어떻게 반응하시나요?
- JEPA와 LLM이 융합될 가능성과 그 모습은?
Key Takeaways
LeCun 4가지 비판
토큰화 SSL · z 부재 · Sora dead end · scaling 한계.
LLM 진영 반박
Scaling이 emergent reasoning을 만든다.
Sora 'world simulator'
OpenAI의 강한 주장. LeCun 반대.
Turing 3인 분화
LeCun·Hinton·Bengio가 다른 입장.
Sutskever 압축 = 이해
LLM 진영의 핵심 입장.
정답 미정
향후 2-3년 실험이 결정.
융합 가능성
두 접근이 합쳐질 가능성이 가장 현실적.
한 진영 신앙 X
공정한 양쪽 정리가 시니어의 표식.