한국 문화 이해부터 화면 조작까지: Kanana-V 기능 확장의 모든 것

카카오의 Multimodal Model Training 팀이 8단계 데이터 정제 파이프라인과 Interleaved 한국어 데이터셋을 적용해 Vision Language Model의 한국 문화 이해 능력 강화 및 PDF·GUI 조작 기능 확장

daniel.log / jayten.ten / wooner.l2026년 3월 10일12분advanced

AI 요약

Context

Vision Language Model(VLM)은 단일 이미지 질의응답 수준에서 벗어나 실제 서비스 환경에서 다중 페이지 PDF 문서 이해, 여러 이미지 비교·분석, GUI 화면 인식 및 조작 등 다양한 역량을 요구받고 있다. 무작위 수집된 테라바이트 규모의 Interleaved 데이터셋은 광고성 저품질 콘텐츠가 상당수 포함되어 있고, 데이터 품질과 규모 사이의 트레이드오프를 해결해야 했다.

Technical Solution

Datatrove 프레임워크 도입으로 수백 테라바이트 규모 데이터를 샤딩(Sharding) 처리해 병렬 정제 파이프라인 구축
8단계 데이터 정제 파이프라인 구현: 이미지 기반 문서 필터링(종횡비 3.0 이상, 28픽셀 미만 제거) → FastText 기반 언어 식별(한국어 90% 이상 확률) → Gopher 반복 패턴 제거 → 기본 품질 필터(평균 단어 길이 1자, 한국어 조사/어미 불용어 리스트 별도 적용) → C4 문장 구조 검증(4문장 이상) → FineWeb 종합 품질 평가(라인 구조 검사) → MinHash를 통한 유사 문서 중복 제거(Locality-Sensitive Hashing 적용) → 한국어 특화 PII 탐지 로직으로 개인정보 마스킹
영어 중심 필터링 기준을 한국어 특성에 맞게 조정: 최소 평균 단어 길이 기준 완화, 한국어 조사와 어미로 구성된 불용어 리스트 적용, 마침표 생략 경우 제거 불적용
Interleaved 한국어 데이터셋을 모델 학습에 적용해 한국 문화적 맥락 이해와 in-context learning 효과 강화
KoPDFBench(한국어 PDF 벤치마크) 자체 구축 및 다중 이미지·Long-Context 학습 최적화, GUI Grounding 기술을 통한 Computer Use Agent(CUA) 개발

Impact

원본 데이터셋 대비 약 77%의 데이터가 필터링되어 최종적으로 약 23%만 남음
정제 전 데이터와 정제 후 데이터로 학습한 모델 비교 결과, 정제된 데이터로 학습한 모델이 한국 문화 이해 및 VQA 벤치마크에서 더 높은 점수 기록
동일 파라미터 규모의 Qwen3-VL 4B 모델과 비교해 문서 이해(Document), GUI Grounding(CUA), 다중 이미지(Multi-Image) 카테고리에서 대등 이상의 성능 달성, 특히 한국어 특화 태스크에서 뚜렷한 경쟁력 확인

Key Takeaway

대규모 원시 데이터의 품질 개선은 양적 확장보다 질적 필터링이 더 유의미한 성능 향상을 가져온다. 특히 특정 언어나 문화권 모델 개발 시에는 글로벌 표준 기준을 무비판적으로 적용하지 않고 언어의 문법적 특성(조사, 어미, 띄어쓰기 관습)과 문화적 맥락에 맞게 조정하는 것이 필수적이다.

실천 포인트

대규모 언어 모델 또는 멀티모달 모델 개발 팀에서 저품질 텍스트·이미지 데이터가 많이 섞인 수백 테라바이트 규모의 데이터셋을 다루고 있다면, Datatrove 같은 분산 데이터 처리 프레임워크를 도입하고 OBELICS, Gopher, C4, FineWeb 등의 공개된 필터링 기준을 조직의 특성(언어, 도메인, 서비스 목표)에 맞게 조정하는 다단계 파이프라인을 설계하면 모델 성능을 정량적으로 개선할 수 있다.

태그

#Vision Language Model #한국어 처리 #Computer Use Agent #멀티모달 AI #데이터 정제

원문 읽기