direcf Frame Sampling for Multimodal AI
📚 Coursework

Frame Sampling for Multimodal AI

비디오 LLM의 진짜 병목은 모델 크기가 아니라 frame sampling이다. 2026 SOTA(AKS, BOLT, Frame-Voyager, Q-Frame, AdaRD-Key, FOCUS, VideoChat-Flash)와 상용 서비스(Gemini, Twelve Labs, Qwen-VL)의 갭, 그리고 plug-and-play architecture로 SOTA를 갈아끼우는 운영 패턴까지 다루는 10챕터 강의.

고급 10 chapters Python

커리큘럼

10 chapters
CH
01
🎬Why Frame Sampling Is the Bottleneck
왜 프레임 샘플링이 진짜 병목인가
비디오 LLM의 진짜 병목은 모델 크기나 context 길이가 아니라, 한정된 token 예산 안에 어떤 frame을 통과시킬지 결정하는 sampling 단계다.
Token economics of video LLMsContext window arithmeticInformation loss in uniform sampling
CH
02
🎯Classical Baselines and Where They Fail
고전적 baseline들 — 어디까지 효과적이고 언제 무너지는가
Uniform / fixed-fps / shot detection은 단순하지만 여전히 production의 기본값이다. 짧고 동질적인 비디오에서는 충분히 강하고, 비용·지연·구현 복잡도 면에서 압도적이다. 그러나 long video, query-specific reasoning, rare event, multi-event 추론에서는 정보 손실이 정량적으로 누적되며 무너진다. 이 chapter는 세 baseline의 수학적 정의, 산업이 이들을 고수하는 경제적 이유, 그리고 정확히 어떤 query에서 깨지는지를 코드와 함께 정리한다.
Uniform sampling의 수학적 정의와 Qwen2.5-VL / LLaVA-Video / InternVL의 default 선택Fixed-fps sampling — Gemini 2.5 Pro의 1 fps와 인간 발화 단위 가정PySceneDetect 기반 shot detection — ContentDetector / AdaptiveDetector의 threshold knob
CH
03
🧭Query-Aware Adaptive Sampling — AKS & BOLT
Query-Aware Adaptive Sampling — AKS와 BOLT
CVPR 2025의 AKS(arXiv:2502.21271)와 BOLT(arXiv:2503.21483)는 둘 다 training-free·plug-and-play query-aware sampler로, downstream VLM을 한 줄도 고치지 않은 채 LLaVA-Video-7B+AKS가 LLaVA-Video-72B uniform baseline을 넘어서고, BOLT는 8-frame budget만으로 Video-MME 53.8→56.1, MLVU 58.9→63.4를 달성한다. 두 방법의 공통 본질은 *relevance(질문 관련도)*와 *coverage(시간적 다양성)* 사이의 명시적 트레이드오프를 frozen CLIP score 위에서 푸는 데 있다.
Relevance vs. coverage objectiveCLIP/SigLIP-based query–frame alignmentAKS recursive partition for temporal coverage
CH
04
🎓Learned Samplers — Frame-Voyager, M-LLM, GenS
Learned Sampler — Frame-Voyager, M-LLM, GenS
Training-free sampler가 휴리스틱으로 '관련성'을 정의했다면, learned sampler는 downstream VLM의 정답률 자체를 supervision으로 쓴다. Frame-Voyager(ICLR 2025)는 단일 프레임이 아니라 **프레임 조합**을 ranking하고, M-LLM Selector(CVPR 2025, Amazon)는 spatial importance와 temporal coherence를 분리해 점수화하며, GenS(ACL 2025 Findings, Salesforce)는 VideoLLM 자체를 generative retriever로 써서 프레임 인덱스를 직접 생성한다. LongVideoBench에서 GenS는 Aria +13.4pt, GPT-4o +13.6pt를 기록했다. 세 모델 모두 downstream VLM을 frozen으로 두는 plug-and-play를 유지한다.
Combinational ranking — 단일 프레임이 아니라 조합 단위로 학습M-LLM 기반 spatial+temporal dual scoringGenerative retrieval — VideoLLM이 frame index를 emit
CH
05
🌐The Relevance × Diversity Frontier — Q-Frame, AdaRD-Key, FOCUS
Relevance × Diversity Frontier — Q-Frame, AdaRD-Key, FOCUS
2025년 ICCV의 Q-Frame(Xiaomi, arXiv:2506.22139)과 2026년 ICLR submission인 AdaRD-Key(arXiv:2510.02778), FOCUS(arXiv:2510.27280)는 모두 같은 결론에 도달했다: pure relevance만으로는 redundant한 near-identical frame을 골라 temporal evolution을 놓친다. relevance × diversity가 새로운 frontier이고, log-det / max-volume / multi-armed bandit이 그 수학적 언어가 되었다.
pure relevance의 redundancy 실패 모드Q-Frame: query-aware + per-frame multi-resolution under token budgetAdaRD-Key: Relevance × log-det Diversity Max-Volume objective와 weak-query gating
CH
06
🎞️Long-Video Sampling — LongVU, Hour-LLaVA, VideoMarathon
Long-Video 샘플링 — LongVU, Hour-LLaVA, VideoMarathon
5분 클립과 1시간 영상은 다른 시스템이다. LongVU의 DINOv2 기반 temporal pruning, Hour-LLaVA의 MemAug 메모리 모듈, 9.7K-hour VideoMarathon 데이터셋, 그리고 HourVideo 벤치마크가 hour-scale의 phase transition을 어떻게 다루는지 본다.
Hour-scale phase transitionLongVU spatiotemporal adaptive compressionDINOv2 vs CLIP similarity for temporal pruning
CH
07
🗜️Token-Level Compression — VideoChat-Flash, NVILA, FastVID
Token-Level Compression — VideoChat-Flash, NVILA, FastVID
Frame sampling은 N개의 frame을 줄이지만, token-level compression은 frame 하나당 M개의 token을 줄인다. 두 축은 orthogonal하게 작동하며 자유롭게 compose할 수 있다. VideoChat-Flash(HiCo, arXiv:2501.00574)는 Clip→Video 계층적 압축으로 ~1/50 ratio, 10K-frame Multi-Hop NIAH 99.1%를 달성했다. NVILA(arXiv:2412.04468)는 "scale-then-compress" — 먼저 frame 수를 256까지 늘리고 그 다음 공격적으로 token을 줄인다. FastVID(arXiv:2503.11187)는 layer-attention 기반 dynamic density pruning으로 training-free하게 inference 비용을 낮춘다. 짧은 비디오는 sampling만으로 충분하고, 긴 비디오는 sampling + compression, 시간 단위 비디오는 sampling + memory + compression을 모두 써야 한다.
Frame-level vs token-level: orthogonal한 두 축의 design spaceVideoChat-Flash / HiCo의 hierarchical Clip→Video compression (~1/50)Multi-Hop NIAH at 10K frames — 99.1% recall이 의미하는 것
CH
08
🏢Commercial Reality — Gemini, Twelve Labs, OpenAI/Anthropic, Open-source
상용 서비스의 현실 — Gemini, Twelve Labs, OpenAI/Anthropic, Open-source
2년간 연구 SOTA(AKS, BOLT, GenS, Frame-Voyager, Q-Frame, AdaRD-Key, FOCUS)가 query-aware adaptive sampler로 ~93% frame 감축에서 동등 정확도를 입증했지만, 2026년 6월 현재 상용 video-LLM API는 단 하나도 그것을 default로 채택하지 않았다. Gemini 2.5 Pro는 1 fps, Qwen2.5-VL은 2 fps, InternVL은 uniform 16-32, LLaVA-Video는 uniform 64. Twelve Labs만 dense multi-vector indexing으로 다른 길을 가지만, 그것조차 inference time이 아닌 index time에 비용이 amortize되기 때문이다. 이 chapter는 그 갭이 왜 경제적으로 합리적인지를 정직하게 설명한다.
Gemini 2.5 Pro의 1 fps default와 그 이유videoMetadata.fps API knob과 cost estimationTwelve Labs Marengo 3.0 / Pegasus 1.2의 multi-vector dense embedding 아키텍처
CH
09
🔌Plug-and-Play Architecture Design
Plug-and-Play 아키텍처 설계
Video-LLM 파이프라인은 6단계(input → decode → sample → encode → token-reduce → LLM)로 분해되며, sampler는 SOTA 교체가 가장 빈번한 swap point다. `Sampler.select(...) -> List[int]` 계약을 ABI로 고정하면, AKS·BOLT·Frame-Voyager·M-LLM을 encoder·LLM 재학습 없이 feature flag로 갈아끼울 수 있다. vLLM-Omni의 disaggregated serving과 Twelve Labs Embed API 스타일 frame-feature cache가 이 모듈식 설계의 production 레퍼런스다.
Canonical 6-stage video pipelineSampler.select() ABI contractvLLM-Omni disaggregated serving
CH
10
🧪Reference Architecture & Evaluation
Reference Architecture와 평가 — 직접 만들고 운영하기
Chapter 1부터 9까지 배운 것을 하나의 swappable pipeline으로 묶는다. Ingest Queue → DecodeWorker → FrameStore → SceneSegmenter → Sampler Plugin → Encoder Pool → EmbedCache → TokenReducer → vLLM-Omni serving — chassis는 그대로 두고 sampler만 갈아끼우는 F1 race car 패턴. 5대 benchmark(Video-MME, MLVU, LongVideoBench, EgoSchema, Multi-Hop NIAH)는 lmms-eval로 돌리고, arxiv에 새 paper가 뜨면 3일 안에 wrap → hold-out eval → cost-vs-quality 비교 → feature-flag rollout → 프로덕션 metric 모니터링이라는 운영 사이클로 흡수한다. 2026 하반기에는 FrameMind/FrameThinker/A.I.R. 류 agentic sampler와 MSJoE 같은 joint sampler-MLLM evolution이 다음 SOTA 자리를 노리고 있다.
Reference modular architecture: 8-stage swappable pipelineVideo-MME / MLVU / LongVideoBench / EgoSchema / Multi-Hop NIAH 각각이 측정하는 것lmms-eval을 표준 harness로 쓰는 법