Chapter 12 · 15 chapters

🔭

VLM Post-Training Trends 2024-2026

VLM Post-Training 최신 트렌드 2024-2026

2025-2026년 VLM post-training은 시각적 품질 필터링, 점진적 RL, 그리고 객체 중심 프롬프팅 패러다임으로 수렴하고 있다.

🍌 Nano Banana — Chapter 12 Visual Summary

🎯 학습 목표

5 goals

Learning Goals

Watch Before You Answer의 필터링 방법과 효과를 설명할 수 있다
GroundVTS의 3-stage training 전략과 각 단계의 역할을 설명할 수 있다
2025-2026년 VLM post-training의 주요 연구 방향 4가지를 정리할 수 있다
최신 VLM temporal grounding 접근법의 benchmark 성능과 설계 원칙을 설명할 수 있다
향후 VLM post-training의 열린 문제와 연구 방향을 제시할 수 있다

2024-2026년 VLM post-training 분야에서는 몇 가지 뚜렷한 트렌드가 관찰된다. 첫째, 데이터 품질 우선: 알고리즘 혁신보다 훈련 데이터의 시각적 품질 보장이 더 중요하다는 인식이 확산되었다. 둘째, Step-level reward: GRPO의 scalar reward에서 벗어나 더 세밀한 step-level reward를 제공하는 방법들이 등장했다. 셋째, 점진적 domain 확장: image → video로 단계적으로 capability를 구축하는 multi-stage 접근법이 주류가 되었다. 넷째, 패러다임 전환: 좌표 예측에서 객체 ID 기반 분류로의 전환처럼, 어려운 문제를 쉬운 문제로 reformulate하는 시도가 증가했다.

이 챕터에서는 이 시기의 주요 논문들을 통해 각 트렌드의 구체적 내용과 실천 방법을 다룬다. 특히 Qwen3-VL을 backbone으로 사용한 연구들을 중심으로 설명한다.

핵심 내용

Watch Before You Answer: 시각적 품질 필터링

[arxiv 2604.05117](https://arxiv.org/abs/2604.05117)(April 2026)은 'Watch Before You Answer'라는 접근법으로 비디오 post-training 데이터의 시각 품질을 보장한다.

핵심 방법: GPT-5-mini를 oracle로 사용하여 비디오 없이도 답할 수 있는 질문을 제거한다.

1. 비디오 없이 GPT-5-mini에게 질문 2. 여러 choice 중 GPT-5-mini가 높은 confidence로 정답을 선택하면 '텍스트 answerable' → 제거 3. 불확실하거나 틀리면 '시각 필요' → 보존

결과:

- 263,071 샘플 → 181,710 샘플 (69.1% 보존) - 16/32/64 프레임 설정에서 각각 4.8/4.6/6.2점 개선 - Video-R1 baseline 대비

실전 적용: 자체 비디오 훈련 데이터에 같은 방법을 적용할 때 judge model로 반드시 GPT-5나 동급 모델을 사용해야 한다. 약한 judge model은 실제로 시각이 필요한 질문도 '텍스트 answerable'로 잘못 분류할 수 있다.

이 방법의 한계: GPT-5-mini의 편향이 필터링 결과에 반영된다. Judge model이 잘 아는 도메인의 질문은 더 많이 제거되고, 덜 아는 도메인은 덜 제거될 수 있다.

GroundVTS: 비주얼 토큰 샘플링을 통한 시간적 접지

[GroundVTS](https://arxiv.org/abs/2604.02093)(April 2026)는 temporal grounding을 위한 3-stage progressive training을 제안한다.

핵심 아이디어: 일반 VLM은 균일하게 모든 프레임에 동등한 visual token을 할당한다. GroundVTS는 쿼리에 관련된 프레임에 더 많은 visual attention을 집중하도록 Visual Token Sampling(VTS) 모듈을 학습한다.

3-stage 훈련:

*Stage 1: VTS warm-up* - VTS 모듈만 훈련, 나머지 모두 freeze - 쿼리와 관련된 프레임을 더 많이 샘플링하도록 학습 - 데이터: 대규모 비디오-텍스트 쌍

*Stage 2: Joint LoRA* - VTS + Projector + LLM(LoRA)을 함께 훈련 - Vision encoder는 계속 freeze - LLM이 non-uniform visual distribution에 적응

*Stage 3: Grounding Fine-tuning* - Stage 2 모델에 70K curated grounding pair로 특화 훈련 - 정밀한 타임스탬프 예측 능력 강화

3-stage 각 단계에서 평가를 수행하고 가장 좋은 stage에서 early stopping하는 것이 실전 팁이다.

2025-2026년 주요 연구 방향 종합

이 시기 VLM post-training의 4가지 핵심 방향:

방향 1: 데이터 품질 우선 (Data-First) - Watch Before You Answer (2604.05117) - 텍스트 편향 제거로 시각 이해 강화 - 69.1% 데이터만으로 더 좋은 성능

방향 2: Dense Reward / Step-level Credit - Video-OPD (2602.02994) - Teacher VLM distillation로 토큰별 reward - GRPO scalar reward의 한계 극복

방향 3: 문제 재정의 (Problem Reformulation) - STVG-R1 (2602.11730) - 좌표 예측 → ID 분류로 패러다임 전환 - Cross-modal alignment 어려움 회피

방향 4: 점진적 Domain 확장 (Progressive RL) - MSRL (2603.25108) - Image → Short video → Long video - Cross-modal generalization 개선

공통 주제: 모든 방향에서 'Qwen3-VL을 backbone으로 사용하거나 비교 기준으로 삼는다'. Qwen3-VL의 MRoPE와 dynamic resolution이 temporal 관련 태스크에서 강점을 보여주기 때문이다.

통합 Multimodal Reward Model의 도전

단일 reward model이 이미지, 비디오, 텍스트를 모두 평가할 수 있는 '통합 멀티모달 reward model'은 매력적인 목표지만 현재까지 충분히 달성되지 못했다.

현황 (VideoRewardBench 2025):

- 28개 모델 평가에서 video-specific 능력이 우수한 단일 reward model 없음 - RL 훈련이 cross-modal generalization을 보장하지 않음 - SFT-trained 모델이 RL-trained보다 video eval에서 더 안정적

MSRL의 해결 방향:

- Image preference → short video → long video의 점진적 훈련 - 각 단계에서 이전 단계 ability 보존 확인 - 비디오 특화 preference 데이터 수집 필수

오픈 문제:

1. 어떻게 image-text RL 훈련이 video로 일반화되도록 할 수 있는가? 2. 비디오 specific preference annotation의 비용 효율적 수집 방법? 3. 통합 reward model과 태스크 특화 reward model 중 어느 것이 실전에서 더 효과적인가?

현재 실용적 접근: image/text reward model과 video-specific reward model을 separate하게 운영하고 태스크에 따라 사용하는 것이 가장 안전하다.

Qwen3-VL 중심 SOTA 성능 현황

2026년 초 기준 temporal grounding 주요 벤치마크에서 Qwen3-VL 기반 방법들의 성능:

QVHighlights R@1 IoU@0.7:

- Baseline (SFT only): ~35 - GRPO: 41.5 - Video-OPD (Qwen3-VL-8B): 50.4

Charades-STA R@1 IoU@0.7:

- 최신 GRPO 기반: ~55-60 - Video-OPD/GroundVTS 적용: ~65-70

STVG (VidSTG):

- vIoU 기준: STVG-R1이 기존 coordinate prediction 대비 유의미한 개선

패턴 요약: On-policy distillation(Video-OPD)이 offline scalar reward(GRPO)보다 temporal grounding에서 일관되게 우수하다. Step-level reward의 이점이 실험으로 입증되고 있다.

Qwen3-VL 선택 이유: MRoPE의 3D position encoding이 temporal 관련 태스크에서 자연스럽게 유리하다. 프레임 위치(temporal dimension)가 명시적으로 인코딩되어 모델이 시간 순서를 올바르게 이해한다.

💡 비유로 이해하기

Analogy

음식 맛집 운영의 진화

2025-2026년 VLM post-training 트렌드는 음식점 경영의 진화와 닮았다. 초기에는 '어떤 조리 기법(알고리즘)이 최고인가'를 연구했다. 이제는 '재료 품질(데이터 품질)이 더 중요하다'는 인식이 공유되면서, 모든 주요 레스토랑이 재료 검수 시스템에 더 많이 투자하고 있다.

Watch Before You Answer의 텍스트 편향 필터링은 '보기엔 신선해 보이지만 실제론 냉동 식품'을 걸러내는 것이다. GroundVTS의 3-stage 훈련은 수석 셰프(VTS), 부셰프(LoRA), 특수 조리사(Grounding FT) 순서로 팀을 조직적으로 훈련하는 것이다.

MSRL의 image → video 점진적 확장은 새 직원을 처음에 간단한 샐러드부터 시작해 복잡한 코스 요리까지 단계적으로 훈련하는 것이다 — 처음부터 복잡한 요리를 맡기면 실패 확률이 높다.

💻 코드 예시

GroundVTS의 3-stage training 파이프라인을 개념적으로 구현한 코드다. VTS 모듈 학습, LoRA joint training, 최종 grounding fine-tuning 순서를 보여준다.

python

import torch
from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
from peft import LoraConfig, get_peft_model
from trl import SFTTrainer, SFTConfig

base_model_name = "Qwen/Qwen2-VL-7B-Instruct"

class GroundVTSTrainer:
    """GroundVTS 3-stage progressive training"""

    def __init__(self, model_name: str):
        self.processor = AutoProcessor.from_pretrained(model_name)
        self.model = Qwen2VLForConditionalGeneration.from_pretrained(
            model_name, torch_dtype=torch.bfloat16, device_map="auto"
        )

    def stage1_vts_warmup(self, vts_dataset, epochs=2):
        """Stage 1: VTS만 훈련 — 쿼리 관련 프레임 선택 학습"""
        # Vision encoder + LLM: freeze
        for name, param in self.model.named_parameters():
            if 'visual' in name or 'model' in name:
                param.requires_grad = False
        # Projector만 훈련 (VTS 역할)
        for name, param in self.model.named_parameters():
            if 'merger' in name:  # Qwen2-VL의 projector 레이어명
                param.requires_grad = True
        print("Stage 1: VTS warmup started")
        return self._train(vts_dataset, epochs, lr=5e-4)

    def stage2_joint_lora(self, instruction_dataset, epochs=3):
        """Stage 2: VTS + LoRA joint training"""
        lora_cfg = LoraConfig(
            r=64, lora_alpha=128,
            target_modules=["q_proj","k_proj","v_proj","o_proj"],
            task_type="CAUSAL_LM",
        )
        self.model = get_peft_model(self.model, lora_cfg)
        # Projector도 계속 훈련
        for name, param in self.model.named_parameters():
            if 'merger' in name:
                param.requires_grad = True
        print("Stage 2: Joint LoRA training")
        return self._train(instruction_dataset, epochs, lr=1e-4)

    def stage3_grounding_finetune(self, grounding_70k, epochs=2):
        """Stage 3: 70K grounding pair로 특화 훈련"""
        print("Stage 3: Grounding fine-tuning (70K curated)")
        return self._train(grounding_70k, epochs, lr=5e-5)

    def _train(self, dataset, epochs, lr):
        args = SFTConfig(
            output_dir="./groundvts_stage",
            num_train_epochs=epochs,
            learning_rate=lr,
            per_device_train_batch_size=1,
            gradient_accumulation_steps=16,
            bf16=True,
        )
        trainer = SFTTrainer(
            model=self.model,
            args=args,
            train_dataset=dataset,
            processing_class=self.processor,
        )
        trainer.train()
        return self.model

stage1_vts_warmup에서는 merger(projector) 레이어만 학습 가능하게 설정한다. stage2_joint_lora는 LoRA를 LLM에 추가하고 projector와 함께 훈련한다. stage3_grounding_finetune은 curated 70K 데이터로 최종 특화. 각 stage에서 학습률을 낮추는 것이 안정적 수렴에 중요하다.

🏭 현업에서의 평가

Industry Evaluation

최신 VLM post-training 트렌드를 아는 것은 '논문을 읽었는가'가 아니라 '이 방법들의 실제 의미와 자신의 작업에 어떻게 적용할 수 있는가'를 평가한다.

✅ 시니어가 보는 것

Watch Before You Answer의 필터링이 왜 성능을 높이는지 시각 이해 관점에서 설명하는 능력
GroundVTS의 각 stage가 해결하는 문제를 구체적으로 설명하는 능력
Video-OPD의 step-level reward와 GRPO의 scalar reward 차이를 수식으로 설명하는 능력
Qwen3-VL MRoPE가 temporal grounding에 유리한 이유를 아키텍처 관점에서 설명하는 능력

⚠️ 레드 플래그

논문 이름만 알고 방법의 핵심 메커니즘을 설명하지 못하는 경우
Watch Before You Answer와 일반 데이터 필터링을 구분하지 못하는 경우
GroundVTS의 VTS 모듈이 어떤 역할을 하는지 설명하지 못하는 경우

🎤 예상 인터뷰 질문

Video-OPD에서 teacher VLM으로부터 step-level reward를 어떻게 계산하는지 설명해주세요.
Watch Before You Answer의 필터링이 데이터를 30% 제거했는데 성능이 향상된 이유는 무엇인가요?
STVG-R1의 instance ID 방식이 coordinate prediction보다 실용적인 상황과 그렇지 않은 상황을 각각 제시해주세요.

숙달 vs 익숙함: 친숙함 수준은 논문 제목과 핵심 방법을 아는 것이다. 숙련 수준은 이 방법들을 자신의 temporal grounding 프로젝트에 적용하고, 어떤 방법이 자신의 데이터와 태스크에 적합한지 ablation을 설계하여 검증할 수 있는 것이다.

✨ 핵심 요약

Watch Before You Answer: 69.1% 보존으로 4.8-6.2점 향상

GPT-5-mini로 텍스트만 풀 수 있는 데이터를 제거. 적은 데이터로 더 좋은 시각 이해.

GroundVTS: VTS warmup → Joint LoRA → Grounding FT

3-stage 점진적 훈련으로 쿼리 적응적 visual token sampling과 정밀 grounding을 단계적 구축.

Video-OPD: GRPO 대비 QVHighlights +8.9점

Teacher distillation로 토큰별 step-level reward 제공. Scalar reward보다 credit assignment 정확.

STVG-R1: ID 분류로 좌표 예측 대체

객체에 temporally consistent ID 부여 후 분류 문제화. Cross-modal coordinate alignment 어려움 해결.

MSRL: Image→Video 점진적 RL이 cross-modal 개선

단순 혼합 훈련보다 domain을 단계적으로 확장하는 것이 video generalization에 효과적.

Qwen3-VL MRoPE가 temporal 태스크에 유리

3D position encoding(t, h, w)으로 시공간 위치를 명시적 인코딩. 2026년 temporal grounding SOTA의 공통 backbone.

통합 multimodal reward model은 아직 미완성

VideoRewardBench: RL-trained reward model이 video cross-modal generalization에 실패. 태스크별 분리 운영이 현재로서 안전하다.