CHAPTER 08 OF 10

📐

Physical Reasoning Benchmarks

물리 추론 벤치마크 — World Model의 진짜 평가

Meta가 V-JEPA 2와 함께 공개한 세 가지 물리 추론 벤치마크 (IntPhys 2, MVPBench, CausalVQA). 인간 85-95% 정확도 vs 현재 video model들 chance 수준. World Model의 격차를 정직하게 보여주는 평가.

🍌 NANO BANANA CHEATSHEET · CH 08

Overview

개관

7장에서 V-JEPA 2의 인상적인 결과들을 봤다 — 65-80% zero-shot, SSv2 77.3%, Epic-K 39.7%. 그러나 Meta는 같은 발표에서 "우리 모델이 못 하는 것"의 정직한 평가도 함께 공개했다. 세 가지 물리 추론 벤치마크.

이번 장은 그 벤치마크들이 무엇을 측정하고, 인간과 모델의 격차가 얼마나 크고, 그게 World Model 연구의 미래에 무엇을 의미하는지 본다.

이게 본 코스의 가장 정직한 장이다 — JEPA의 자랑이 아니라 한계를 직시한다.

🎯 Learning Goals

세 가지 물리 추론 벤치마크의 정확한 목적을 안다
인간 vs 모델 성능 격차의 정확한 숫자를 외운다
왜 분류 벤치마크(SSv2, K400)만으로는 World Model을 평가 못 하는지 이해한다
이 벤치마크들이 World Model 연구에 무엇을 의미하는지 본다
현재 JEPA의 한계를 정직하게 평가하는 자세를 갖는다

Sections

본문

8.1 왜 새 벤치마크가 필요한가

기존 비디오 벤치마크 — Kinetics-400, Something-Something-v2, Epic-Kitchens 등 — 는 모두 분류 위주다. "이 비디오에서 어떤 행동이 일어나고 있나"를 분류.

분류는 World Model의 일부일 뿐이다. 진짜 World Model이라면:

이 다음에 어떻게 될까의 예측 능력
물리 법칙을 위반하면 인지할 수 있는 능력 (컵이 떨어졌는데 공중에 떠 있다 → 이상함)
원인-결과 추론 능력

이런 능력은 단순 분류 정확도로 평가 안 된다. Meta가 V-JEPA 2의 발표와 함께 "우리는 분류는 잘하지만 이건 어떤가"를 보이려 만든 새 벤치마크 세트가 IntPhys 2, MVPBench, CausalVQA.

출처: https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/, https://github.com/facebookresearch/CausalVQA

8.2 IntPhys 2 — 직관 물리

IntPhys 2: Intuitive Physics version 2. 이전 IntPhys(2018)를 V-JEPA 2 시대로 갱신한 벤치마크.

무엇을 측정하나: 비디오를 보고 "물리적으로 가능한가 불가능한가"를 판단.

예시 1 (가능): 공이 책상에서 굴러 떨어진다 → 바닥에 떨어진다
예시 2 (불가능): 공이 책상에서 굴러 떨어진다 → 공중에 떠 있는다
예시 3 (불가능): 책상 뒤로 사라진 공이 책상 앞으로 나타나야 하는데 색이 바뀌어 나타남

왜 어려운가: 분류가 아니라 "세계 모형"이 필요. 모델이 머릿속에 "공은 떨어진다"를 알고 있어야 "공중에 떠 있는 공"이 이상하다고 인지 가능.

결과 (verified):

인간: 거의 완벽한 정확도 (90%대)
V-JEPA 2 포함 현재 video models: at or close to chance (50%대)

엄청난 격차. 이게 LeCun이 "World Model은 아직 갈 길이 멀다"고 말하는 근거.

8.3 MVPBench — 최소 비디오 쌍

MVPBench: Minimal Video Pairs benchmark. 두 비디오가 거의 같지만 미묘하게 다른 경우의 구분.

무엇을 측정하나: 다중 선택 QA. 한 비디오를 보고 "무엇이 일어나고 있는가"를 두 선택지 중 고름. 두 선택지는 한 단어만 다른 식 — 예: "사람이 컵을 들었다" vs "사람이 컵을 놓았다".

왜 어려운가: 표면적 시각 패턴이 거의 같음. 두 행동의 "의미"를 정확히 이해해야 구분 가능.

의의: World Model이 단순 패턴 매칭이 아니라 "진짜 동작 의미"를 학습했는지의 시험. 분류 정확도는 같아도 MVPBench에서 차이가 드러남.

결과: 인간 85-95%. 모델들은 그보다 한참 낮음 (구체적 숫자는 모델별로 다르지만 모두 인간보다 훨씬 낮음).

출처: Meta 블로그 verbatim.

8.4 CausalVQA — 인과 추론

CausalVQA: Causal Visual Question Answering. 비디오에 대한 "왜" 질문에 답하는 능력.

무엇을 측정하나: "이 비디오에서 컵이 깨진 이유는?" "이 사람이 다음에 뭘 할까?" 같은 인과·예측 질문.

왜 어려운가:

단순 "무엇이 일어났나" 아니라 "왜 일어났나"
비디오에 안 나오는 행동 결과까지 예측 필요
상식적 추론 + 시각적 이해의 결합

구현: 공식 코드와 데이터 facebookresearch/CausalVQA GitHub.

결과: 인간 85-95%. 모델들은 chance에 가까운 성능부터 부분적 성능까지 다양하지만 모두 인간보다 한참 낮음.

출처: https://github.com/facebookresearch/CausalVQA, Meta 블로그.

8.5 격차의 의미 — 그리고 본 코스의 가장 정직한 결론

세 벤치마크의 결과를 한 줄로: "분류 벤치마크에선 SSL 모델들이 인간 수준에 근접했지만, World Model이 진짜로 필요한 물리 추론·인과 추론·미묘한 동작 구분에선 인간이 아직 압도적으로 우위".

이게 무엇을 의미하나?

LeCun 진영의 해석: "역시 LLM·diffusion 같은 generative만으론 안 된다. 진짜 World Model이 필요하고, 우리(JEPA)는 그 방향으로 가고 있다. 다만 갈 길이 멀다."

LLM 진영의 반론: "이 벤치마크들에서 LLM 기반 video model(예: GPT-4V)도 비슷한 격차를 보인다. JEPA가 본질적으로 더 가까이 갔는지 증거는 불분명."

본 코스의 결론 — 정직하게:

JEPA 시리즈가 의미 있는 진전을 만든 건 사실. V-JEPA 2의 zero-shot 결과는 인상적.
그러나 인간 수준 World Model은 아직 매우 멀다. 물리 추론에서 chance 수준은 충격적 격차.
누가 먼저 이 격차를 메울지는 미정. JEPA, LLM, Sora, Dreamer 어느 진영도 결정적 승리 못 함.
이 격차의 존재 자체가 본 분야의 가장 큰 연구 동기.

이게 학습자가 본 코스를 끝낼 때 갖고 가야 할 가장 정직한 그림이다. 다음 두 장(9·10)에서 이 격차를 누가 어떻게 메우려 하는지의 풍경을 본다.

💡 Analogy · 비유

분류와 이해는 다르다

외국어 학습자가 시험 두 가지를 친다.

시험 A — 분류: 들은 단어를 가나다 순으로 분류. 단어 자체는 알아들으니 정답을 맞춤. 80%.

시험 B — 이해: 들은 문장을 듣고 "왜 이 사람이 화났는가"를 답함. 단어를 다 알아도 맥락·감정·인과를 이해해야 함. 30%.

두 시험의 점수 차이가 학습자의 진짜 한계를 보여준다. 단어는 외웠지만 "이해"는 못 했다.

비디오 SSL 모델도 같다. SSv2(분류 시험 A)에서 77%인데 IntPhys 2(이해 시험 B)에서 chance 수준. "비디오 패턴은 외웠지만 세상이 어떻게 굴러가는지는 진짜로 모른다"는 의미. 이 격차를 인지하지 못한 채 "V-JEPA 2가 World Model이다!"라고 말하면 과장이다. JEPA는 World Model을 향한 좋은 출발이지만 도착은 아니다.

물리 추론 벤치마크의 평가 흐름. 단일 비디오 분류와 어떻게 다른지의 의사 코드.

python

# ============== Classification benchmark (SSv2, Kinetics) ==============
def evaluate_classification(model, dataset):
    correct = 0
    for video, label in dataset:
        embedding = model.encode(video)
        pred = classifier(embedding)
        correct += (pred == label)
    return correct / len(dataset)

# Result: V-JEPA 2 → SSv2 77.3%, K400 ~83%

# ============== Physical reasoning (IntPhys 2) ==============
def evaluate_intphys2(model, dataset):
    """For each scene, model predicts which of two videos is physically possible."""
    correct = 0
    for possible_video, impossible_video in dataset:
        # Both videos look similar but one violates physics
        score_possible = model.score_plausibility(possible_video)
        score_impossible = model.score_plausibility(impossible_video)
        # Higher score should go to the physically possible one
        correct += (score_possible > score_impossible)
    return correct / len(dataset)

# Result: V-JEPA 2 → IntPhys 2 ~50% (chance level)
#         Humans   → IntPhys 2 ~90%+

# ============== Minimal Video Pairs (MVPBench) ==============
def evaluate_mvpbench(model, dataset):
    """Two questions per video, differing by one word."""
    correct = 0
    for video, qa_pair in dataset:
        q_correct, q_distractor = qa_pair
        # The model must pick the correct option, not the distractor
        score_correct = model.score_answer(video, q_correct)
        score_distractor = model.score_answer(video, q_distractor)
        correct += (score_correct > score_distractor)
    return correct / len(dataset)

# ============== Causal VQA ==============
def evaluate_causalvqa(model, dataset):
    """Open-ended 'why' or 'what next' questions."""
    correct = 0
    for video, question, gold_answer in dataset:
        predicted = model.generate_answer(video, question)
        correct += semantic_match(predicted, gold_answer)
    return correct / len(dataset)

분류 벤치마크는 단순 label 맞추기. 그러나 IntPhys 2는 "두 비디오 중 어느 게 물리적으로 가능한가"를 묻고, MVPBench는 "한 단어 다른 두 답 중 어느 게 맞나"를 묻고, CausalVQA는 "왜" 질문에 자유 답변. 후자 세 가지는 진짜 World Model이 없으면 풀 수 없는 문제. 그래서 분류는 77%인데 IntPhys 2는 chance인 모순적 결과가 나온다.

🏭 현업에서의 평가

World Model 연구자의 정직성 시금석. 분류 점수만 자랑하는 사람과 물리 추론 격차를 인정하는 사람이 갈린다.

✅ 시니어가 보는 것

IntPhys 2·MVPBench·CausalVQA의 정확한 이름과 측정 대상 즉답
인간 85-95% vs 모델 chance 격차의 의미 이해
분류 벤치와 물리 추론 벤치의 본질적 차이 설명
JEPA의 한계를 객관적으로 평가하는 자세

⚠️ 레드 플래그

'V-JEPA 2가 World Model을 풀었다'는 과장
분류 점수(SSv2 77.3%)만으로 World Model 능력 판단
물리 추론 격차를 모르거나 무시
Meta 마케팅을 그대로 옮기며 한계 언급 안 함

🎤 예상 인터뷰 질문

IntPhys 2·MVPBench·CausalVQA가 각각 무엇을 측정하나요?
V-JEPA 2가 SSv2에선 77.3%인데 왜 IntPhys 2에선 chance 수준인가요?
이 격차가 World Model 연구에 무엇을 의미하나요?

숙달 vs 익숙함: Familiar는 'V-JEPA 2가 좋다'를 안다. Mastery는 세 벤치마크 이름·측정 대상·인간 vs 모델 격차를 즉답하고, 그 격차가 본 분야 연구의 방향에 무엇을 의미하는지 풀어낸다.

Key Takeaways

핵심 정리

세 가지 새 벤치

IntPhys 2 · MVPBench · CausalVQA.

측정 대상

물리 추론 · 미세 동작 · 인과 추론.

인간 85-95%

세 벤치 전반에서 사람은 거의 완벽.

모델은 chance 수준

특히 IntPhys 2에서 at/close to chance.

분류 ≠ 이해

SSv2 77% vs IntPhys 2 50%의 모순.

JEPA의 정직한 한계

Meta 자신이 격차를 공개.

본 분야의 동기

이 격차를 메우는 게 향후 연구 핵심.

본 코스의 정직

JEPA의 자랑이 아니라 한계를 직시.

← Ch07 · V-JEPA 2 — Scale and Action (2025) Ch09 · The Generative vs Predictive Debate →