Embeddings가 텍스트를 의미를 보존한 수치 벡터로 변환해 RAG, 의미 검색, 추천 시스템의 기반을 제공하는 핵심 개념

The One Concept Behind RAG, Search, and AI Systems

Vaishali2026년 3월 25일9분intermediate

AI 요약

Context

기존 시스템에서 텍스트는 단순 문자열일 뿐 의미를 비교하거나 측정할 방법이 없었다. 기계학습 모델은 원본 텍스트를 처리할 수 없으므로 의미적 유사성 검색, 맥락 기반 검색, 추천 등이 불가능했다.

Technical Solution

Embeddings 도입: 텍스트를 고차원 벡터 공간의 점으로 변환하여 의미를 수치화
Word Embeddings vs Sentence Embeddings 선택: Word Embeddings는 개별 단어를 맥락 없이 표현하며 NER, 품사 태깅에 사용하고, Sentence Embeddings는 전문(full sentence)과 맥락을 고려해 의미 검색, RAG, 텍스트 분류에 사용
Cosine Similarity 메트릭 적용: 벡터 간 각도만 측정하여 크기 무시, 사전학습된 Embeddings에서 크기가 의미를 갖지 않으므로 현대 AI 시스템의 약 90%에서 기본값으로 사용
Dot Product 메트릭 선택적 사용: 방향과 크기를 모두 고려하며, YouTube와 같이 자체 Embeddings를 학습하고 크기에 의미를 부여한 시스템에서 사용
Euclidean Distance 제한적 사용: 직선거리 측정 방식으로 저차원 데이터와 고전 ML 시스템에만 적용하며 NLP에서는 드물게 사용

Key Takeaway

Embeddings는 단순 전처리 단계가 아니라 의미를 검색 가능하고 비교 가능하며 활용 가능한 형태로 만드는 기반 기술이다. Embeddings의 원리를 이해하면 RAG, 의미 검색, 추천, AI 에이전트 메모리 등 상위 개념들을 체계적으로 이해할 수 있다.

실천 포인트

의미 검색이나 RAG 시스템을 구축할 때 사전학습된 Embeddings API를 사용한다면 Cosine Similarity를 기본 메트릭으로 선택하면 된다. 반면 자사 데이터셋으로 Embeddings를 직접 학습하고 벡터의 크기에 의미(예: 선호도 강도)를 부여하는 경우라면 Dot Product를 사용해 방향과 크기를 모두 활용할 수 있다.

태그

원문 읽기