WELCOME — DIRECF.GITHUB.IO
direct fun, deep study
AI 시대를 살아가며 공부한 것들과 가끔의 사적인 단상. 좌측 카테고리에서 영역별로 글을 탐색할 수 있다.
최신 글
MULTIMODAL AI
Temporal Grounding for Video VLMs (2026)
Temporal Grounding이 2024년까지 DETR 기반 boundary regression이었다면, 2025-2026년에는 VLM이 timestamp를 직접 emit하는 생성 문제로 재정의되었다. Time-R1(NeurIPS 2025), VideoMind(ICLR 2026), MeCo(ICLR 2026), VideoITG(CVPR 2026 Highlight), TimeLens(CVPR 2026) 6편과 12개 신규 paper 아이디어까지.
🧠
ENGINEERING PHILOSOPHY
Human Capital & Token Capital — Satya Nadella의 AI 시대 엔지니어링 철학
Microsoft CEO Satya Nadella가 2026년 제시한 'Human Capital + Token Capital' 프레임워크 — 모델 선택이 아니라 학습 루프를 짓는 것이 AI 시대 엔지니어링의 핵심이다. 저자 소개, 신빙성 평가 포함.
COMPUTER SCIENCE
Video Codecs — H.264, H.265, AV1, and Beyond
Raw 데이터의 압도적 크기부터 세 가지 중복·압축 파이프라인·DCT·모션 추정·H.264/H.265/AV1까지. ffmpeg 실전 매뉴얼.
그 외 글
MULTIMODAL AI
Real-time Video LLM
MULTIMODAL AI
World Models & JEPA — LeCun's Path Beyond Generative AI
MULTIMODAL AI
Frame Sampling for Multimodal AI
COMPUTER VISION
DeepLabV3 & SqueezeSegV2: Semantic Segmentation
COMPUTER VISION
PointPainting: Sequential Fusion of Lidar and Image Semantics
COMPUTER VISION
PointRCNN: 3D Object Proposal Generation from Point Cloud
COMPUTER VISION
PointNet++: Deep Hierarchical Feature Learning