CS336: 처음부터 만드는 언어 모델링

Triton 기반 FlashAttention2 및 분산 학습으로 LLM Full-stack 구현

neo2026년 6월 2일11분advanced

AI 요약

Context

추상화된 라이브러리 사용 방식으로는 언어 모델의 내부 동작과 시스템 병목 지점 파악에 한계 존재. 모델 아키텍처부터 메모리 계층 최적화까지 전 과정을 직접 구현하여 시스템 전반의 이해도 제고 필요.

실천 포인트

1. GPU 리소스 낭비 방지를 위해 로직 검증은 CPU에서 수행하고 벤치마크 시에만 GPU를 투입하는 전략 검토

2. Triton을 활용한 Custom Kernel 구현으로 표준 Attention의 메모리 병목 현상 해결 가능성 확인

3. Scaling Law 기반의 모델 크기 예측을 통해 불필요한 컴퓨팅 자원 소모를 사전에 방지

4. 데이터 정제 단계의 중복 제거 효율이 모델 최종 성능에 미치는 정량적 영향 분석

태그