direcf
›
Frame Sampling for Multimodal AI
📚 Coursework
Frame Sampling for Multimodal AI
비디오 LLM의 진짜 병목은 모델 크기가 아니라 frame sampling이다. 2026 SOTA(AKS, BOLT, Frame-Voyager, Q-Frame, AdaRD-Key, FOCUS, VideoChat-Flash)와 상용 서비스(Gemini, Twelve Labs, Qwen-VL)의 갭, 그리고 plug-and-play architecture로 SOTA를 갈아끼우는 운영 패턴까지 다루는 10챕터 강의.
고급
10 chapters
Python
커리큘럼
CH
01
01
🎬Why Frame Sampling Is the Bottleneck
왜 프레임 샘플링이 진짜 병목인가
비디오 LLM의 진짜 병목은 모델 크기나 context 길이가 아니라, 한정된 token 예산 안에 어떤 frame을 통과시킬지 결정하는 sampling 단계다.
CH
02
02
🎯Classical Baselines and Where They Fail
고전적 baseline들 — 어디까지 효과적이고 언제 무너지는가
Uniform / fixed-fps / shot detection은 단순하지만 여전히 production의 기본값이다. 짧고 동질적인 비디오에서는 충분히 강하고, 비용·지연·구현 복잡도 면에서 압도적이다. 그러나 long video, query-specific reasoning, rare event, multi-event 추론에서는 정보 손실이 정량적으로 누적되며 무너진다. 이 chapter는 세 baseline의 수학적 정의, 산업이 이들을 고수하는 경제적 이유, 그리고 정확히 어떤 query에서 깨지는지를 코드와 함께 정리한다.
CH
03
03
🧭Query-Aware Adaptive Sampling — AKS & BOLT
Query-Aware Adaptive Sampling — AKS와 BOLT
CVPR 2025의 AKS(arXiv:2502.21271)와 BOLT(arXiv:2503.21483)는 둘 다 training-free·plug-and-play query-aware sampler로, downstream VLM을 한 줄도 고치지 않은 채 LLaVA-Video-7B+AKS가 LLaVA-Video-72B uniform baseline을 넘어서고, BOLT는 8-frame budget만으로 Video-MME 53.8→56.1, MLVU 58.9→63.4를 달성한다. 두 방법의 공통 본질은 *relevance(질문 관련도)*와 *coverage(시간적 다양성)* 사이의 명시적 트레이드오프를 frozen CLIP score 위에서 푸는 데 있다.
CH
04
04
🎓Learned Samplers — Frame-Voyager, M-LLM, GenS
Learned Sampler — Frame-Voyager, M-LLM, GenS
Training-free sampler가 휴리스틱으로 '관련성'을 정의했다면, learned sampler는 downstream VLM의 정답률 자체를 supervision으로 쓴다. Frame-Voyager(ICLR 2025)는 단일 프레임이 아니라 **프레임 조합**을 ranking하고, M-LLM Selector(CVPR 2025, Amazon)는 spatial importance와 temporal coherence를 분리해 점수화하며, GenS(ACL 2025 Findings, Salesforce)는 VideoLLM 자체를 generative retriever로 써서 프레임 인덱스를 직접 생성한다. LongVideoBench에서 GenS는 Aria +13.4pt, GPT-4o +13.6pt를 기록했다. 세 모델 모두 downstream VLM을 frozen으로 두는 plug-and-play를 유지한다.
CH
05
05
🌐The Relevance × Diversity Frontier — Q-Frame, AdaRD-Key, FOCUS
Relevance × Diversity Frontier — Q-Frame, AdaRD-Key, FOCUS
2025년 ICCV의 Q-Frame(Xiaomi, arXiv:2506.22139)과 2026년 ICLR submission인 AdaRD-Key(arXiv:2510.02778), FOCUS(arXiv:2510.27280)는 모두 같은 결론에 도달했다: pure relevance만으로는 redundant한 near-identical frame을 골라 temporal evolution을 놓친다. relevance × diversity가 새로운 frontier이고, log-det / max-volume / multi-armed bandit이 그 수학적 언어가 되었다.
CH
06
06
🎞️Long-Video Sampling — LongVU, Hour-LLaVA, VideoMarathon
Long-Video 샘플링 — LongVU, Hour-LLaVA, VideoMarathon
5분 클립과 1시간 영상은 다른 시스템이다. LongVU의 DINOv2 기반 temporal pruning, Hour-LLaVA의 MemAug 메모리 모듈, 9.7K-hour VideoMarathon 데이터셋, 그리고 HourVideo 벤치마크가 hour-scale의 phase transition을 어떻게 다루는지 본다.
CH
07
07
🗜️Token-Level Compression — VideoChat-Flash, NVILA, FastVID
Token-Level Compression — VideoChat-Flash, NVILA, FastVID
Frame sampling은 N개의 frame을 줄이지만, token-level compression은 frame 하나당 M개의 token을 줄인다. 두 축은 orthogonal하게 작동하며 자유롭게 compose할 수 있다. VideoChat-Flash(HiCo, arXiv:2501.00574)는 Clip→Video 계층적 압축으로 ~1/50 ratio, 10K-frame Multi-Hop NIAH 99.1%를 달성했다. NVILA(arXiv:2412.04468)는 "scale-then-compress" — 먼저 frame 수를 256까지 늘리고 그 다음 공격적으로 token을 줄인다. FastVID(arXiv:2503.11187)는 layer-attention 기반 dynamic density pruning으로 training-free하게 inference 비용을 낮춘다. 짧은 비디오는 sampling만으로 충분하고, 긴 비디오는 sampling + compression, 시간 단위 비디오는 sampling + memory + compression을 모두 써야 한다.
CH
08
08
🏢Commercial Reality — Gemini, Twelve Labs, OpenAI/Anthropic, Open-source
상용 서비스의 현실 — Gemini, Twelve Labs, OpenAI/Anthropic, Open-source
2년간 연구 SOTA(AKS, BOLT, GenS, Frame-Voyager, Q-Frame, AdaRD-Key, FOCUS)가 query-aware adaptive sampler로 ~93% frame 감축에서 동등 정확도를 입증했지만, 2026년 6월 현재 상용 video-LLM API는 단 하나도 그것을 default로 채택하지 않았다. Gemini 2.5 Pro는 1 fps, Qwen2.5-VL은 2 fps, InternVL은 uniform 16-32, LLaVA-Video는 uniform 64. Twelve Labs만 dense multi-vector indexing으로 다른 길을 가지만, 그것조차 inference time이 아닌 index time에 비용이 amortize되기 때문이다. 이 chapter는 그 갭이 왜 경제적으로 합리적인지를 정직하게 설명한다.
CH
09
09
🔌Plug-and-Play Architecture Design
Plug-and-Play 아키텍처 설계
Video-LLM 파이프라인은 6단계(input → decode → sample → encode → token-reduce → LLM)로 분해되며, sampler는 SOTA 교체가 가장 빈번한 swap point다. `Sampler.select(...) -> List[int]` 계약을 ABI로 고정하면, AKS·BOLT·Frame-Voyager·M-LLM을 encoder·LLM 재학습 없이 feature flag로 갈아끼울 수 있다. vLLM-Omni의 disaggregated serving과 Twelve Labs Embed API 스타일 frame-feature cache가 이 모듈식 설계의 production 레퍼런스다.
CH
10
10
🧪Reference Architecture & Evaluation
Reference Architecture와 평가 — 직접 만들고 운영하기
Chapter 1부터 9까지 배운 것을 하나의 swappable pipeline으로 묶는다. Ingest Queue → DecodeWorker → FrameStore → SceneSegmenter → Sampler Plugin → Encoder Pool → EmbedCache → TokenReducer → vLLM-Omni serving — chassis는 그대로 두고 sampler만 갈아끼우는 F1 race car 패턴. 5대 benchmark(Video-MME, MLVU, LongVideoBench, EgoSchema, Multi-Hop NIAH)는 lmms-eval로 돌리고, arxiv에 새 paper가 뜨면 3일 안에 wrap → hold-out eval → cost-vs-quality 비교 → feature-flag rollout → 프로덕션 metric 모니터링이라는 운영 사이클로 흡수한다. 2026 하반기에는 FrameMind/FrameThinker/A.I.R. 류 agentic sampler와 MSJoE 같은 joint sampler-MLLM evolution이 다음 SOTA 자리를 노리고 있다.