CATEGORY
Multimodal AI
CLIP·VLM·text↔image
JUN 22, 2026
LLM & VLM Post-Training 완전 정복 — SFT부터 최신 RL까지
SFT Chat Template부터 PPO·DPO·GRPO·DAPO·VAPO까지 LLM Post-Training 전 과정을 15챕터로 정복한다. VLM 비주얼 인스트럭션 튜닝·멀티모달 RLHF, 비디오 프레임 선택·전처리·Duration 설계, Temporal Grounding GRPO vs Video-OPD step-level reward, Qwen3/Qwen3-VL 기반 실전 코드까지. 2026년 6월 최신 논문 트렌드(VAPO·DAPO·Scale>Algorithm·VideoRewardBench·STVG-R1) 포함.
15 chapters
JUN 17, 2026
Pretrained to Imagine, Fine-Tuned to Act: World-Action Models
비디오로 미래를 상상하고 그 상상에서 행동을 이끌어내는 WAM(World-Action Model)의 등장 배경부터 최신 시스템까지. VLA와의 차이, 역동역학·공동 예측·표현 전용 세 패러다임, DreamZero(RoboArena 1750)·Fast-WAM·LingBot-VA 등 실전 시스템, 그리고 WAM+VLA 하이브리드 미래 전망을 10챕터로 체계적으로 다룬다. (NVIDIA Tech Blog, Moritz Reuss, 2026)
10 chapters
JUN 16, 2026
Temporal Grounding for Video VLMs (2026)
Temporal Grounding이 2024년까지 DETR 기반 boundary regression이었다면, 2025-2026년에는 VLM이 timestamp를 직접 emit하는 생성 문제로 재정의되었다. Time-R1(NeurIPS 2025), VideoMind(ICLR 2026), MeCo(ICLR 2026), VideoITG(CVPR 2026 Highlight), TimeLens(CVPR 2026) 6편과 12개 신규 paper 아이디어까지.
10 chapters
JUN 15, 2026
Real-time Video LLM
Real-time Video LLM은 sampler/memory 설계를 넘어 'Streaming Pipeline + Adaptive Processing'으로 멘탈 모델이 바뀐다. VideoLLM-online의 EOS-based stream alignment, Flash-VStream STAR, vLLM continuous batching, 그리고 차세대 architecture(Cascade + Chunk encoder + Scene graph memory + Timing of Speech)까지.
11 chapters
JUN 15, 2026
World Models & JEPA — LeCun's Path Beyond Generative AI
LeCun의 2022 비전부터 V-JEPA 2(2025)까지. World Model이라는 큰 우산 아래 JEPA 시리즈를 깊이 본다. Generative vs Predictive 논쟁, 물리 추론 벤치마크, Dreamer·Genie·Sora·Cosmos 같은 다른 학파까지.
10 chapters
JUN 11, 2026
Frame Sampling for Multimodal AI
비디오 LLM의 진짜 병목은 모델 크기가 아니라 frame sampling이다. 2026 SOTA(AKS, BOLT, Frame-Voyager, Q-Frame, AdaRD-Key, FOCUS)와 상용 서비스(Gemini, Twelve Labs)의 갭, plug-and-play architecture로 SOTA를 갈아끼우는 운영 패턴.
10 chapters
AUG 28, 2024
VLM과 Fine-tuning: LLaVA, LoRA, LLaMA Adapter v2
VLM의 3가지 구성요소(LLM·Vision Encoder·Alignment)를 해부하고, LLaVA의 instruction data 생성 전략과 2-stage 학습 방식, LoRA·LLaMA Adapter v2로 이어지는 PEFT 기법까지.
paper
MAY 30, 2024
멀티모달 LLM 기초 연구: CLIP → Flamingo → LLaMA → Vicuna
멀티모달 LLM의 출발점을 짚는다. CLIP·Flamingo가 image-text 융합의 문을 열고, LLaMA 오픈소스 공개 이후 Alpaca·Vicuna로 이어지는 fine-tuning 생태계의 탄생.
paper