📚 Coursework

LLM & VLM Post-Training Mastery

SFT부터 최신 RL 기반 alignment까지, LLM과 VLM post-training의 이론과 실전을 모두 다룹니다. Qwen3/Qwen3-VL 기반 코드 예시, 2026년 6월까지의 최신 논문 트렌드, 해외 빅테크 면접 완전 대비를 포함한 고급 과정입니다.

고급 15 chapters Python

커리큘럼

15 chapters

🗺️The Post-Training Landscape & SFT Deep Dive

Post-Training 전체 맵 & SFT 심화

Pre-training이 세상 지식을 쌓는다면, post-training은 그 지식을 사람이 원하는 방식으로 꺼내 쓰는 인터페이스를 만드는 과정이다.

Pre-training vs Post-trainingSFT 데이터 포맷 & Chat TemplateNLL Loss 심화

🎭RLHF & PPO Deep Dive

RLHF & PPO 심화 — 4-모델 구조와 Reward Modeling

RLHF는 사람의 선호를 reward signal로 변환하고, PPO는 그 reward로 모델을 안전하게 최적화하는 두 단계의 정교한 파이프라인이다.

RLHF 동기 & 한계Reward Model 훈련PPO 역학 & KL 제약

⚖️Preference Learning: DPO, SimPO, ORPO, GRPO

Preference Learning 방법론 완전 비교 — DPO부터 GRPO까지

4-모델 PPO의 복잡성을 피하면서 사람의 선호를 직접 학습하는 offline 방법들은 각자 다른 철학과 장단점을 가진다.

DPO 수식 유도SimPO 길이 정규화ORPO 단일 단계

🚀LLM Post-Training Trends 2024-2026

LLM Post-Training 최신 트렌드 — DAPO, VAPO, Scale vs Algorithm

2024-2026년은 단순 offline preference에서 value-based online RL로 전환이 가속화되고, scale이 알고리즘 선택보다 결정적임을 실험이 증명한 시기다.

DeepSeek-R1과 GRPO 등장DAPO: Clip-High VariantVAPO: Value-Based RL

👁️VLM Architecture & Multimodal Alignment Fundamentals

VLM 아키텍처 기초 & 멀티모달 Alignment 원리

VLM은 Vision Encoder + Projector + LLM의 세 모듈로 구성되며, Qwen3-VL은 동적 해상도와 3D RoPE로 이 구조를 발전시킨다.

VLM 3-모듈 아키텍처Vision Encoder 종류Projector 설계

🎨Visual Instruction Tuning & VLM SFT Strategy

Visual Instruction Tuning & VLM SFT 전략

VLM SFT는 LLM SFT에 시각 데이터 처리와 멀티모달 chat template, 모듈별 freeze 전략이라는 세 가지 복잡성이 더해진다.

Visual Instruction Tuning 패러다임멀티모달 데이터 구성Stage별 Freeze 전략

🏆VLM RLHF & Multimodal Preference Learning

VLM RLHF & 멀티모달 Preference Learning

멀티모달 reward modeling은 아직 미성숙하며, RL-trained reward model이 cross-modal 일반화에서 SFT-trained보다 반드시 우수하지는 않다.

멀티모달 Reward Model 설계VLM DPO/RLHFVideoRewardBench 발견

⏱️Video Understanding & Temporal Grounding

Video Understanding & Temporal Grounding — 개념, 논문, RL 접근법

Temporal grounding은 시간을 인식하는 VLM을 만드는 핵심 태스크이며, 2026년에는 RL + 객체 중심 visual prompting 패러다임이 주류가 되었다.

Temporal Grounding 태스크 정의Video-OPD vs GRPOSTVG-R1 패러다임

🎬Video Data Preprocessing for VLM Training

비디오 데이터 전처리 실전 — 분할·프레임·Duration·포맷

비디오 데이터 전처리는 어떻게 자르고, 어떤 프레임을 선택하고, 어느 해상도로 인코딩하느냐가 최종 모델 성능의 숨겨진 결정 요인이다.

비디오 분할 전략프레임 샘플링 방법Duration & Frame Count 선택

🔬Post-Training Data Curation & Quality Management

Post-Training 데이터 큐레이션 & 품질 관리 — LLM & VLM 통합

데이터 품질이 알고리즘보다 더 중요하다는 것이 2025-2026년 연구의 일관된 발견이며, gradient effective rank가 새로운 정량적 품질 지표로 부상했다.

데이터 품질의 중요성 실증Gradient Effective Rank비디오 벤치마크 오염 필터링

📊VLM Evaluation & Benchmark Strategy

VLM Evaluation & Benchmark 전략

벤치마크 점수 높이기보다 실제 사용 사례를 반영하는 평가 설계가 더 중요하며, 인기 벤치마크에는 시각 없이 풀 수 있는 오염 문제가 광범위하다.

주요 VLM 벤치마크 분석벤치마크 오염 문제Temporal Grounding 평가

🔭VLM Post-Training Trends 2024-2026

VLM Post-Training 최신 트렌드 2024-2026

2025-2026년 VLM post-training은 시각적 품질 필터링, 점진적 RL, 그리고 객체 중심 프롬프팅 패러다임으로 수렴하고 있다.

Watch Before You AnswerGroundVTS 3-StageVideo-OPD vs GRPO

🎯Overseas Big Tech Interview Preparation

해외 빅테크 면접 완전 대비 — Post-Training 이론 & 실전

해외 빅테크 post-training 면접은 이론적 깊이 + 실전 경험 + 시스템 설계 능력을 동시에 평가하며, '왜'를 설명하는 능력이 가장 중요하다.

면접 질문 유형 분류이론 심화 질문 대비코딩 질문 유형

🏗️System Design: End-to-End Post-Training Pipeline

시스템 설계 케이스 스터디 — Post-Training 파이프라인

실제 post-training 파이프라인은 데이터 큐레이션 → 훈련 → 평가 → 이터레이션의 루프이며, 각 단계의 효율성이 전체 속도를 결정한다.

End-to-End 파이프라인 설계분산 훈련 설정모니터링 & 디버깅

🗺Paper Reading Guide & Research Direction

논문 리딩 가이드 & 향후 Research Direction

ML 논문을 체계적으로 읽고 비판적으로 평가하는 능력이 연구자의 핵심 역량이며, post-training 분야는 아직 많은 열린 문제가 있다.

ML 논문 효율적 읽기핵심 저널 & 컨퍼런스2026년 오픈 문제