🎨

CATEGORY

Multimodal AI

CLIP·VLM·text↔image

실시간 VLM 비용 최적화 — 단계별 이벤트 탐지 논문 10편

끝없이 흐르는 비디오에서 특정 이벤트를 최소 비용으로 실시간 탐지하기 위한 파이프라인 단계별 비용 절감 핵심 논문 10편(2026.07 기준)을 해부한다. ①토큰 다이어트(TimeChat-Online·Dispider) → ②기억 관리(StreamingVLM·ReKV·LiveVLM·StreamMem·Flash-VStream) → ③트리거(VideoLLM-Online·StreamMind·StreamBridge)의 3단계로 정리하고, 직교 조합한 '2단 게이트 캐스케이드'로 종합. prefill·KV cache·attention sink 기초부터 쌓는 advanced 10챕터.

LLM & VLM Post-Training 완전 정복 — SFT부터 최신 RL까지

SFT Chat Template부터 PPO·DPO·GRPO·DAPO·VAPO까지 LLM Post-Training 전 과정을 15챕터로 정복한다. VLM 비주얼 인스트럭션 튜닝·멀티모달 RLHF, 비디오 프레임 선택·전처리·Duration 설계, Temporal Grounding GRPO vs Video-OPD step-level reward, Qwen3/Qwen3-VL 기반 실전 코드까지. 2026년 6월 최신 논문 트렌드(VAPO·DAPO·Scale>Algorithm·VideoRewardBench·STVG-R1) 포함.

Pretrained to Imagine, Fine-Tuned to Act: World-Action Models

비디오로 미래를 상상하고 그 상상에서 행동을 이끌어내는 WAM(World-Action Model)의 등장 배경부터 최신 시스템까지. VLA와의 차이, 역동역학·공동 예측·표현 전용 세 패러다임, DreamZero(RoboArena 1750)·Fast-WAM·LingBot-VA 등 실전 시스템, 그리고 WAM+VLA 하이브리드 미래 전망을 10챕터로 체계적으로 다룬다. (NVIDIA Tech Blog, Moritz Reuss, 2026)

Temporal Grounding for Video VLMs (2026)

Temporal Grounding이 2024년까지 DETR 기반 boundary regression이었다면, 2025-2026년에는 VLM이 timestamp를 직접 emit하는 생성 문제로 재정의되었다. Time-R1(NeurIPS 2025), VideoMind(ICLR 2026), MeCo(ICLR 2026), VideoITG(CVPR 2026 Highlight), TimeLens(CVPR 2026) 6편과 12개 신규 paper 아이디어까지.

Real-time Video LLM

Real-time Video LLM은 sampler/memory 설계를 넘어 'Streaming Pipeline + Adaptive Processing'으로 멘탈 모델이 바뀐다. VideoLLM-online의 EOS-based stream alignment, Flash-VStream STAR, vLLM continuous batching, 그리고 차세대 architecture(Cascade + Chunk encoder + Scene graph memory + Timing of Speech)까지.

World Models & JEPA — LeCun's Path Beyond Generative AI

LeCun의 2022 비전부터 V-JEPA 2(2025)까지. World Model이라는 큰 우산 아래 JEPA 시리즈를 깊이 본다. Generative vs Predictive 논쟁, 물리 추론 벤치마크, Dreamer·Genie·Sora·Cosmos 같은 다른 학파까지.

Frame Sampling for Multimodal AI

비디오 LLM의 진짜 병목은 모델 크기가 아니라 frame sampling이다. 2026 SOTA(AKS, BOLT, Frame-Voyager, Q-Frame, AdaRD-Key, FOCUS)와 상용 서비스(Gemini, Twelve Labs)의 갭, plug-and-play architecture로 SOTA를 갈아끼우는 운영 패턴.

VLM과 Fine-tuning: LLaVA, LoRA, LLaMA Adapter v2

VLM의 3가지 구성요소(LLM·Vision Encoder·Alignment)를 해부하고, LLaVA의 instruction data 생성 전략과 2-stage 학습 방식, LoRA·LLaMA Adapter v2로 이어지는 PEFT 기법까지.

멀티모달 LLM 기초 연구: CLIP → Flamingo → LLaMA → Vicuna

멀티모달 LLM의 출발점을 짚는다. CLIP·Flamingo가 image-text 융합의 문을 열고, LLaMA 오픈소스 공개 이후 Alpaca·Vicuna로 이어지는 fine-tuning 생태계의 탄생.