direcf / AI 엔지니어를 위한 멀티모달 데이터 시스템
GitHub ↗
📚 SYLLABUS

Multimodal Data Systems for AI Engineers

AI 엔지니어를 위한 멀티모달 데이터 시스템

정형 데이터·비전·비디오 — 세 가지 모달리티를 다루는 시스템적 사고법. Claude Code가 코드를 짤 수 있는 지금, AI 엔지니어에게 필요한 건 '왜'와 '어떻게 설계할 것인가'다. GBM vs Deep Learning의 실전 판단부터 Video Foundation Model 선택 기준, Feature Store 설계, 멀티모달 융합 전략까지 — 시스템 전체를 꿰뚫는 판단력을 10챕터로 기른다.

INTERMEDIATE PYTHON 10 CHAPTERS
CH 01
🗺️ The Data Modality Landscape
데이터 모달리티 지형도
정형·비전·비디오 세 모달리티는 텐서 형태, 귀납적 편향, 메모리 비용이 근본적으로 달라서 — 같은 문제라도 모달리티에 따라 올바른 아키텍처가 완전히 달라진다.
정형 데이터 vs 비전 vs 비디오텐서 형태와 귀납적 편향모달리티별 정보 밀도멀티모달 시스템 설계 원칙
CH 02
📊 The Nature of Tabular Data
정형 데이터의 본질
GBM(XGBoost/LightGBM)이 Kaggle과 현업에서 여전히 지배적인 이유는 정형 데이터의 이질성(heterogeneity)과 희소한 레이블에 딥러닝의 귀납적 편향이 맞지 않기 때문이다 — 단, 고차원 임베딩 입력이나 시계열 구조가 있을 때는 딥러닝이 이긴다.
GBM vs 딥러닝 논쟁XGBoost/LightGBM/CatBoost 특성 비교피처 엔지니어링 철학TabNet과 FT-Transformer
CH 03
🖼️ Evolution of Vision Representation Learning
Vision 표현 학습의 진화
CNN에서 ViT, 그리고 CLIP·SAM·DINOv2 같은 foundation model까지 — Vision 표현 학습의 역사는 '수동으로 설계한 귀납적 편향'에서 '대규모 데이터로 학습한 보편 표현'으로의 이동이며, AI 엔지니어는 이 스펙트럼에서 언제 어떤 것을 쓸지 판단해야 한다.
CNN의 귀납적 편향과 한계Vision Transformer(ViT)의 등장Self-supervised 비전 학습(SimCLR, DINO, MAE)CLIP과 언어-비전 정렬
CH 04
🎬 Temporal Structure of Video Data
비디오의 시간적 구조
비디오는 공간(H×W)과 시간(T)이 동시에 중요한 4D 텐서다 — 메모리 비용이 이미지의 T배이며, 이를 극복하기 위한 temporal modeling 전략(3D CNN, 2D+Temporal, VideoMAE, 프레임 샘플링)의 선택이 전체 시스템 성능과 비용을 결정한다.
비디오 텐서와 메모리 벽광학 흐름(Optical Flow)3D CNN과 2D+Temporal 비교VideoMAE와 비디오 foundation model
CH 05
🏗️ Data Pipeline Architecture
데이터 파이프라인 아키텍처
Training-serving skew — 학습과 서빙에서 피처가 다르게 계산되는 문제 — 는 프로덕션 ML 실패의 1번 원인이며, 이를 해결하는 Feature Store와 데이터 버전 관리가 ML 시스템 신뢰성의 핵심이다.
Training-Serving SkewFeature Store 아키텍처Batch vs Streaming 파이프라인데이터 버전 관리(DVC, Delta Lake)
CH 06
🧠 Foundation Models and Fine-tuning Strategy
Foundation Models와 Fine-tuning 전략
Foundation model 시대의 AI 엔지니어 핵심 판단은 'Zero-shot 쓸 것인가, Linear Probe 쓸 것인가, Full Fine-tuning 할 것인가, LoRA/Adapter 쓸 것인가' — 이 선택은 레이블 데이터 크기, 도메인 거리, 배포 비용의 함수다.
Foundation Model의 정의와 스케일링 법칙CLIP과 Zero-shot TransferFine-tuning 전략 스펙트럼LoRA와 Parameter-Efficient Fine-tuning
CH 07
🔗 Multimodal Fusion Design
멀티모달 융합 설계
Early/Mid/Late fusion의 선택은 '레이블 데이터 크기', '모달리티 간 의미 거리', '서빙 레이턴시 요구'의 세 변수로 결정되며 — 대부분의 실무 시스템은 Late fusion이나 Cross-modal Attention으로 시작해야 한다.
Early/Mid/Late Fusion 비교Cross-modal Attention (Flamingo, FLAVA)CLIP 기반 멀티모달 검색정형+비전 융합 패턴
CH 08
🎯 Data-Centric AI
Data-Centric AI
Andrew Ng이 제창한 Data-Centric AI의 핵심: 모델 아키텍처를 고정하고 데이터의 품질을 높이는 것이 아키텍처를 바꾸는 것보다 대부분의 경우 더 효과적이다 — 특히 도메인 특화 비전/비디오 시스템에서.
데이터 품질의 5가지 차원어노테이션 파이프라인 설계Active Learning 전략합성 데이터(Synthetic Data)
CH 09
📏 Evaluation Framework Design
평가 프레임워크 설계
모달리티마다 올바른 메트릭이 다르고, 오프라인 메트릭과 비즈니스 메트릭 사이에는 항상 간극이 있다 — 이 간극을 좁히는 평가 프레임워크 설계가 AI 시스템의 신뢰성을 결정한다.
모달리티별 평가 메트릭Offline vs Online 평가통계적 유의성 테스트보정(Calibration)과 불확실성
CH 10
🚀 Production ML Systems
프로덕션 ML 시스템
ML 시스템의 진짜 어려움은 모델이 아니라 인프라에 있다 — 서빙 아키텍처, 데이터 드리프트 탐지, 피드백 루프, MLOps 성숙도가 모델의 장기 가치를 결정한다.
모델 서빙 아키텍처 (Batch/Real-time/Streaming)데이터 드리프트와 컨셉 드리프트 탐지모델 모니터링과 알림피드백 루프와 재학습 자동화