전체 피드 소스 목록

카테고리

Frontend Backend DevOps AI/ML Mobile Database Security Career Infrastructure

© 2026 DevPick

#llama-2

피드 검색 북마크 설정

Hugging Face Blog

AWS와 Hugging Face가 optimum-neuron 라이브러리를 통해 Llama 2를 AWS Inferentia2에 컴파일·배포하여 inf2.48xlarge에서 토큰당 2~3ms의 레이턴시와 초당 227~750 토큰의 처리량 달성

Make your llama generation time fly with AWS Inferentia2

Backendintermediate19 분 소요2023년 11월 7일

Hugging Face Blog

Meta의 Llama 2를 Amazon SageMaker에 배포하기 위해 60가지 구성을 벤치마킹하여 비용·처리량·지연시간별 최적 배포 전략 제시

Llama 2 on Amazon SageMaker a Benchmark

AI/MLintermediate16 분 소요2023년 9월 26일

Hugging Face Blog

Hugging Face가 PyTorch FSDP와 meta device를 활용한 단계별 모델 로딩으로 Llama 2 70B 파인튜닝 시 CPU RAM 사용량을 2TB에서 1.5GB 수준으로 감소

Fine-tuning Llama 2 70B using PyTorch FSDP

AI/MLadvanced29 분 소요2023년 9월 13일

Hugging Face Blog

Meta가 Llama 2를 오픈소스로 공개하며 상용 라이선스 기반의 7B~70B 파라미터 모델 12개를 Hugging Face에 통합

Llama 2 is here - get it on Hugging Face

AI/MLintermediate23 분 소요2023년 7월 18일