Intel Gaudi 2 AI 가속기에서 Optimum Habana 라이브러리와 커스텀 파이프라인 클래스를 통해 Llama 2 모델의 텍스트 생성을 몇 줄의 코드로 실행 가능하게 구현

Text-Generation Pipeline on Intel® Gaudi® 2 AI Accelerator

2024년 2월 29일10분intermediate

AI 요약

Context

Generative AI 시대에 오픈소스 트랜스포머 모델인 Llama 2를 활용한 텍스트 생성이 필요하지만, 개발자들은 이를 쉽게 구현하고 배포할 방법을 찾고 있었다.

Technical Solution

Optimum Habana 라이브러리 활용: 버전 1.10.4를 설치하여 Intel Gaudi 2 가속기 최적화 지원
커스텀 GaudiTextGenerationPipeline 클래스 개발: 전처리와 후처리를 포함한 엔드-투-엔드 텍스트 생성 수행
단일 및 다중 프롬프트 입력 지원: run_pipeline.py 스크립트로 문자열 입력을 받아 처리
모델 크기별 최적화 옵션 제공: 7B, 13B 모델은 단일 HPU로 실행, 70B 모델은 DeepSpeed를 활용한 8개 HPU 분산 실행(world_size 8)
HPU 그래프 및 KV 캐시 활성화: --use_hpu_graphs와 --use_kv_cache 플래그로 메모리 효율성 및 처리 속도 최적화
LangChain 호환성 제공: use_with_langchain 생성자 인자를 통해 LangChain 0.0.191 버전과 통합 가능

Impact

아티클에 정량적 성능 수치가 제시되지 않음.

Key Takeaway

Llama 2와 같은 대규모 언어 모델을 특정 하드웨어 가속기에 최적화된 라이브러리와 추상화된 파이프라인 클래스로 감싸면, 복잡한 배포 및 분산 처리 로직을 숨기고 개발자 경험을 획기적으로 단순화할 수 있다.

실천 포인트

Llama 2 모델을 Intel Gaudi 2에서 프로덕션에 배포하려는 엔지니어는 Optimum Habana의 GaudiTextGenerationPipeline 클래스를 사용하면 HuggingFace 계정 인증(huggingface-cli login) 후 단일 python 명령어로 텍스트 생성을 실행할 수 있으며, 필요시 DeepSpeed 분산 추론으로 70B 모델까지 확장 가능하다.

태그

#Distributed Inference #Llama2 #Intel Gaudi #Optimum Habana #Text Generation

원문 읽기