#vision-language-model 아티클 모음

Dev.to

CLIP 파인튜닝 전략으로 건축 스타일 분류 정확도 26%p 향상

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

AI/MLadvanced20 분 소요1일 전

The Register

AI 기반 퀀텀 에러 제어로 연산 속도 2.5배 향상 및 오류율 10억 배 개선 지향

Nvidia slaps forehead: I know what quantum is missing - it's AI!

AI/MLadvanced5 분 소요2026년 4월 14일

카카오 기술블로그

한국 문화 이해부터 화면 조작까지: Kanana-V 기능 확장의 모든 것

카카오의 Multimodal Model Training 팀이 8단계 데이터 정제 파이프라인과 Interleaved 한국어 데이터셋을 적용해 Vision Language Model의 한국 문화 이해 능력 강화 및 PDF·GUI 조작 기능 확장

AI/MLadvanced69 분 소요2026년 3월 10일

Hugging Face Blog

NVIDIA가 Cosmos Reason 2 비전 언어 모델을 출시해 로봇과 AI 에이전트의 공간-시간 추론 능력 향상 및 입력 토큰 길이를 16K에서 256K로 확장

NVIDIA Cosmos Reason 2 Brings Advanced Reasoning To Physical AI

AI/MLintermediate13 분 소요2026년 1월 5일

Hugging Face Blog

Vision-Language Model 기반 OCR 엔진 도입으로 텍스트 인식을 넘어 테이블·차트·이미지 등 복잡한 문서 요소를 구조화된 형식으로 추출 가능

Supercharge your OCR Pipelines with Open Models

AI/MLintermediate42 분 소요2025년 10월 21일

Hugging Face Blog

Hugging Face가 SmolVLM2-2.2B 기반 GUI 에이전트를 2단계 SFT로 훈련해 제로 그라운딩 상태에서 GUI 자동화 능력 확보

Smol2Operator: Post-Training GUI Agents for Computer Use

AI/MLintermediate34 분 소요2025년 9월 23일

Hugging Face Blog

TRL이 Vision Language Model 정렬을 위해 Mixed Preference Optimization, Group Relative Policy Optimization, Group Sequence Policy Optimization 3가지 새로운 알고리즘을 추가하고 vLLM 통합으로 온라인 정렬 훈련 지원

Vision Language Model Alignment in TRL ⚡️

AI/MLintermediate32 분 소요2025년 8월 7일

Hugging Face Blog

NVIDIA가 Llama-3.1-8B와 C-RADIOv2-VLM-H를 결합하여 8B 경량 VLM을 개발, OCRBench v2에서 업계 최고 수준의 문서 인식 정확도 달성

Welcome the NVIDIA Llama Nemotron Nano VLM to Hugging Face Hub

AI/MLintermediate29 분 소요2025년 6월 27일

Hugging Face Blog

nanoVLM에서 KV Cache를 구현해 자동회귀 생성 중 불필요한 재연산을 제거함으로써 38% 속도 향상

KV Cache from scratch in nanoVLM

Backendintermediate19 분 소요2025년 6월 4일

Hugging Face Blog

H Company가 Holo1 Action VLM 모델군을 개발하여 웹 UI 자동화 에이전트 Surfer-H로 실제 웹 작업 정확도 92.2%, 작업당 비용 $0.13 달성

Holo1: New family of GUI automation VLMs powering GUI agent Surfer-H

AI/MLintermediate9 분 소요2025년 6월 3일

Hugging Face Blog

HuggingFace가 순수 PyTorch 기반의 nanoVLM 저장소를 공개해 Colab 무료 티어에서 Vision Language Model 학습 가능

nanoVLM: The simplest repository to train your VLM in pure PyTorch

AI/MLbeginner21 분 소요2025년 5월 21일

Hugging Face Blog

Language Technologies Lab이 SigLIP 인코더와 MLP 프로젝터를 Salamandra 7B LLM에 통합해 이미지·비디오 멀티모달 이해 능력 추가

Visual Salamandra: Pushing the Boundaries of Multimodal Understanding

AI/MLintermediate12 분 소요2025년 4월 11일

Hugging Face Blog

Google이 SigLIP에 텍스트 디코더, 자기-증류 손실 함수, 동적 해상도 적응을 추가하여 다국어 비전-언어 인코더 성능을 모든 스케일에서 향상

SigLIP 2: A better multilingual vision language encoder

AI/MLintermediate18 분 소요2025년 2월 21일

Hugging Face Blog

Hugging Face가 256M~2.2B 파라미터의 SmolVLM2 모델 3종을 출시해 스마트폰부터 서버까지 모든 기기에서 비디오 이해 기능 실행 가능

SmolVLM2: Bringing Video Understanding to Every Device

AI/MLintermediate24 분 소요2025년 2월 20일

Hugging Face Blog

Google이 PaliGemma 2 Mix 모델을 공개해 3B/10B/28B 크기와 224x224/448x448/896x896 해상도 조합으로 OCR, 캡셔닝, 객체 감지 등 다중 비전-언어 작업 수행

PaliGemma 2 Mix - New Instruction Vision Language Models by Google

AI/MLintermediate18 분 소요2025년 2월 19일

Hugging Face Blog

HuggingFace가 Vision Language Model을 256M 파라미터로 축소하면서 세계 최소 VLM 달성 및 비전 인코더·토크나이제이션·데이터 믹스 재설계

SmolVLM Grows Smaller – Introducing the 256M & 500M Models!

AI/MLintermediate18 분 소요2025년 1월 23일

Hugging Face Blog

Google이 PaliGemma 2를 출시하여 3B/10B/28B 3가지 크기와 224x224/448x448/896x896 3가지 입력 해상도 조합으로 선택 폭 확대

Welcome PaliGemma 2 – New vision language models by Google

AI/MLintermediate21 분 소요2024년 12월 5일

Hugging Face Blog

Hugging Face가 2B 파라미터 Vision Language Model(SmolVLM)을 개발해 대규모 모델 대비 9배 압축된 시각 정보 처리로 Colab에서 미세조정 가능한 구조 구현

SmolVLM - small yet mighty Vision Language Model

AI/MLintermediate30 분 소요2024년 11월 26일

Hugging Face Blog

Microsoft 연구팀이 DocVQA 데이터셋을 2.4백만 개 이미지 및 9.5백만 개 Q/A 쌍으로 240배 확대하여 Florence-2 모델의 성능을 20% 향상

Docmatix - a huge dataset for Document Visual Question Answering

AI/MLintermediate9 분 소요2024년 7월 18일

Hugging Face Blog

Hugging Face TRL 라이브러리가 Vision Language Model을 위한 Direct Preference Optimization(DPO) 지원 추가로 AMBER 벤치마크에서 Idefics2 기준 환각 감소(85.8→85.9 정확도)

Preference Optimization for Vision Language Models

AI/MLintermediate32 분 소요2024년 7월 10일