WELCOME — DIRECF.GITHUB.IO
direct fun, deep study
AI 시대를 살아가며 공부한 것들과 가끔의 사적인 단상. 좌측 카테고리에서 영역별로 글을 탐색할 수 있다.
최신 글
AI ENGINEERING
How AI Agents Reshape Knowledge Work
Perplexity의 실제 사용 데이터로 증명한 AI 에이전트의 힘 — 세션당 26분 자율 실행, 87% 시간 절감, 94% 비용 절감. 자율성·효율성·범위 확장(Scope) 3차원 프레임으로 에이전트가 지식 노동을 어떻게 재편하는지 분석한다. (Yang et al. 2025, arXiv:2606.07489)
MULTIMODAL AI
Pretrained to Imagine, Fine-Tuned to Act: World-Action Models
비디오로 미래를 상상하고 그 상상에서 행동을 이끌어내는 WAM(World-Action Model)의 등장 배경부터 최신 시스템까지. VLA와의 차이, 역동역학·공동 예측·표현 전용 세 패러다임, DreamZero(RoboArena 1750)·Fast-WAM·LingBot-VA 등 실전 시스템, 그리고 WAM+VLA 하이브리드 미래 전망을 10챕터로 체계적으로 다룬다. (NVIDIA Tech Blog, Moritz Reuss, 2026)
AI ENGINEERING
Harness Engineering — Claude Code 하네스 완전 가이드
AI 에이전트 성능의 98.4%는 모델이 아니라 하네스다. Claude Code 유출본 분석·Karpathy 컨텍스트 엔지니어링·LangChain Terminal Bench 30→5위 사례로 CLAUDE.md·Hooks·MCP·Skills·Memory·Permission 전 레이어를 당장 적용 가능한 수준으로 설계한다.
그 외 글
MULTIMODAL AI
Temporal Grounding for Video VLMs (2026)
🧠
ENGINEERING PHILOSOPHY
Human Capital & Token Capital — Satya Nadella의 AI 시대 엔지니어링 철학
COMPUTER SCIENCE
Video Codecs — H.264, H.265, AV1, and Beyond
MULTIMODAL AI
Real-time Video LLM
MULTIMODAL AI
World Models & JEPA — LeCun's Path Beyond Generative AI
MULTIMODAL AI
Frame Sampling for Multimodal AI
COMPUTER VISION
DeepLabV3 & SqueezeSegV2: Semantic Segmentation