피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Holotron-12B - High Throughput Computer Use Agent
H Company가 Hybrid SSM-Attention 아키텍처로 Holotron-12B를 개발해 단일 H100 GPU에서 WebVoyager 벤치마크 기준 Holo2-8B 대비 2배 이상 처리량 달성
AI 요약
Context
기존 트랜스포머 기반 다중모달 모델들은 컴퓨터 사용 에이전트의 장문맥 처리와 고동시성 추론 시나리오에서 메모리 오버헤드와 처리량 제약을 겪었다. 특히 여러 고해상도 이미지와 긴 상호작용 이력을 포함한 실제 운영 환경에서 KV 캐시의 이차 계산 비용이 성능 병목이 되었다.
Technical Solution
- Hybrid SSM-Attention 아키텍처 도입: NVIDIA Nemotron-Nano-2 VL 베이스 모델의 State-Space Model과 Attention을 결합해 선형 상태 저장으로 시퀀스 길이 독립적인 메모리 사용 구현
- KV 캐시 최적화: 기존 토큰 및 레이어당 K·V 활성화 저장 방식에서 SSM 기반 상수 상태 저장으로 변경해 VRAM 사용량 감소
- H Company 자체 데이터셋 기반 지도학습: Nemotron-Nano-12B-v2-BF16 모델에 약 140억 토큰 규모의 자체 로컬라이제이션·네비게이션 데이터 혼합으로 2단계 학습 수행
- vLLM SSM 최적화 적용: vLLM v0.14.1의 최신 SSM 최적화를 단일 H100 GPU에 적용해 높은 동시성 요청 처리
- UI 이해 및 그라운딩 특화: 스크린 이해, 요소 위치 파악(grounding), UI 수준 상호작용에 중점을 두고 지도학습
Impact
- WebVoyager 벤치마크에서 Nemotron 베이스 모델 대비 35.1%에서 80.5%로 성능 향상
- 최대 동시성 100 요청 시 초당 8,900 토큰 처리: Holo2-8B의 5,100 토큰/초 대비 74% 증가
- 동시성 증가에 따른 처리량 저하 최소화: Holo2-8B는 동시성 증가 시 처리량이 빠르게 정체되는 반면 Holotron-12B는 선형적 확장
Key Takeaway
SSM 기반 선형 상태 저장 구조는 장문맥·다중모달 에이전트 워크로드의 메모리 효율과 배치 크기 확장을 동시에 개선하며, 베이스 모델의 강력한 기초와 맞춤형 학습 데이터가 결합되면 에이전트 성능과 운영 처리량을 모두 달성할 수 있음을 시사한다.
실천 포인트
고동시성·장문맥 다중모달 추론이 필요한 컴퓨터 사용 에이전트 또는 자동화 시스템 구축 환경에서 Hybrid SSM-Attention 아키텍처를 도입하면 기존 트랜스포머 대비 메모리 풋프린트를 선형으로 감소시키면서 배치 크기를 증대하여 동일 GPU 자원에서 2배 이상의 처리량을 달성할 수 있다.