WELCOME — DIRECF.GITHUB.IO
direct fun, deep study
AI 시대를 살아가며 공부한 것들과 가끔의 사적인 단상. 좌측 카테고리에서 영역별로 글을 탐색할 수 있다.
최신 글
COMPUTER SCIENCE
Video Codecs — H.264, H.265, AV1, and Beyond
Raw 데이터의 압도적 크기부터 세 가지 중복·압축 파이프라인·DCT·모션 추정·H.264/H.265/AV1까지. ffmpeg 실전 매뉴얼.
MULTIMODAL AI
Real-time Video LLM
Real-time Video LLM은 sampler/memory 설계를 넘어 'Streaming Pipeline + Adaptive Processing'으로 멘탈 모델이 바뀐다. VideoLLM-online의 EOS-based stream alignment, Flash-VStream STAR, vLLM continuous batching, 그리고 차세대 architecture(Cascade + Chunk encoder + Scene graph memory + Timing of Speech)까지.
MULTIMODAL AI
World Models & JEPA — LeCun's Path Beyond Generative AI
LeCun의 2022 비전부터 V-JEPA 2(2025)까지. World Model이라는 큰 우산 아래 JEPA 시리즈를 깊이 본다. Generative vs Predictive 논쟁, 물리 추론 벤치마크, Dreamer·Genie·Sora·Cosmos 같은 다른 학파까지.
그 외 글
MULTIMODAL AI
Frame Sampling for Multimodal AI
COMPUTER VISION
DeepLabV3 & SqueezeSegV2: Semantic Segmentation
COMPUTER VISION
PointPainting: Sequential Fusion of Lidar and Image Semantics
COMPUTER VISION
PointRCNN: 3D Object Proposal Generation from Point Cloud
COMPUTER VISION
PointNet++: Deep Hierarchical Feature Learning
COMPUTER VISION
PointNet: Deep Learning on Point Sets for 3D
COMPUTER VISION
CNN Backbone Evolution: AlexNet → ResNet