direcf
›
LLM & VLM Post-Training Mastery
📚 Coursework
LLM & VLM Post-Training Mastery
SFT부터 최신 RL 기반 alignment까지, LLM과 VLM post-training의 이론과 실전을 모두 다룹니다. Qwen3/Qwen3-VL 기반 코드 예시, 2026년 6월까지의 최신 논문 트렌드, 해외 빅테크 면접 완전 대비를 포함한 고급 과정입니다.
고급
15 chapters
Python
커리큘럼
CH
01
01
🗺️The Post-Training Landscape & SFT Deep Dive
Post-Training 전체 맵 & SFT 심화
Pre-training이 세상 지식을 쌓는다면, post-training은 그 지식을 사람이 원하는 방식으로 꺼내 쓰는 인터페이스를 만드는 과정이다.
CH
02
02
🎭RLHF & PPO Deep Dive
RLHF & PPO 심화 — 4-모델 구조와 Reward Modeling
RLHF는 사람의 선호를 reward signal로 변환하고, PPO는 그 reward로 모델을 안전하게 최적화하는 두 단계의 정교한 파이프라인이다.
CH
03
03
⚖️Preference Learning: DPO, SimPO, ORPO, GRPO
Preference Learning 방법론 완전 비교 — DPO부터 GRPO까지
4-모델 PPO의 복잡성을 피하면서 사람의 선호를 직접 학습하는 offline 방법들은 각자 다른 철학과 장단점을 가진다.
CH
04
04
🚀LLM Post-Training Trends 2024-2026
LLM Post-Training 최신 트렌드 — DAPO, VAPO, Scale vs Algorithm
2024-2026년은 단순 offline preference에서 value-based online RL로 전환이 가속화되고, scale이 알고리즘 선택보다 결정적임을 실험이 증명한 시기다.
CH
05
05
👁️VLM Architecture & Multimodal Alignment Fundamentals
VLM 아키텍처 기초 & 멀티모달 Alignment 원리
VLM은 Vision Encoder + Projector + LLM의 세 모듈로 구성되며, Qwen3-VL은 동적 해상도와 3D RoPE로 이 구조를 발전시킨다.
CH
06
06
🎨Visual Instruction Tuning & VLM SFT Strategy
Visual Instruction Tuning & VLM SFT 전략
VLM SFT는 LLM SFT에 시각 데이터 처리와 멀티모달 chat template, 모듈별 freeze 전략이라는 세 가지 복잡성이 더해진다.
CH
07
07
🏆VLM RLHF & Multimodal Preference Learning
VLM RLHF & 멀티모달 Preference Learning
멀티모달 reward modeling은 아직 미성숙하며, RL-trained reward model이 cross-modal 일반화에서 SFT-trained보다 반드시 우수하지는 않다.
CH
08
08
⏱️Video Understanding & Temporal Grounding
Video Understanding & Temporal Grounding — 개념, 논문, RL 접근법
Temporal grounding은 시간을 인식하는 VLM을 만드는 핵심 태스크이며, 2026년에는 RL + 객체 중심 visual prompting 패러다임이 주류가 되었다.
CH
09
09
🎬Video Data Preprocessing for VLM Training
비디오 데이터 전처리 실전 — 분할·프레임·Duration·포맷
비디오 데이터 전처리는 어떻게 자르고, 어떤 프레임을 선택하고, 어느 해상도로 인코딩하느냐가 최종 모델 성능의 숨겨진 결정 요인이다.
CH
10
10
🔬Post-Training Data Curation & Quality Management
Post-Training 데이터 큐레이션 & 품질 관리 — LLM & VLM 통합
데이터 품질이 알고리즘보다 더 중요하다는 것이 2025-2026년 연구의 일관된 발견이며, gradient effective rank가 새로운 정량적 품질 지표로 부상했다.
CH
11
11
📊VLM Evaluation & Benchmark Strategy
VLM Evaluation & Benchmark 전략
벤치마크 점수 높이기보다 실제 사용 사례를 반영하는 평가 설계가 더 중요하며, 인기 벤치마크에는 시각 없이 풀 수 있는 오염 문제가 광범위하다.
CH
12
12
🔭VLM Post-Training Trends 2024-2026
VLM Post-Training 최신 트렌드 2024-2026
2025-2026년 VLM post-training은 시각적 품질 필터링, 점진적 RL, 그리고 객체 중심 프롬프팅 패러다임으로 수렴하고 있다.
CH
13
13
🎯Overseas Big Tech Interview Preparation
해외 빅테크 면접 완전 대비 — Post-Training 이론 & 실전
해외 빅테크 post-training 면접은 이론적 깊이 + 실전 경험 + 시스템 설계 능력을 동시에 평가하며, '왜'를 설명하는 능력이 가장 중요하다.
CH
14
14
🏗️System Design: End-to-End Post-Training Pipeline
시스템 설계 케이스 스터디 — Post-Training 파이프라인
실제 post-training 파이프라인은 데이터 큐레이션 → 훈련 → 평가 → 이터레이션의 루프이며, 각 단계의 효율성이 전체 속도를 결정한다.
CH
15
15
🗺Paper Reading Guide & Research Direction
논문 리딩 가이드 & 향후 Research Direction
ML 논문을 체계적으로 읽고 비판적으로 평가하는 능력이 연구자의 핵심 역량이며, post-training 분야는 아직 많은 열린 문제가 있다.