Como proteger sua IA com Amazon Bedrock Guardrails

Amazon Bedrock Guardrails의 5가지 필터 조합으로 생성형 AI 챗봇의 부적절한 응답, 민감 정보 노출, 프롬프트 인젝션을 차단하는 아키텍처 구현

Juan Felipe Voltolini2026년 3월 25일9분intermediate

AI 요약

Context

생성형 AI 챗봇은 범위 외 질문(의료, 금융), 해로운 콘텐츠(증오, 폭력), 민감 정보(CPF, 신용카드)를 구분 없이 응답하거나 저장하는 보안 문제를 가지고 있었다.

Technical Solution

Topic Deny로 의료, 금융, 법률 등 금지된 주제 정의: 주제명, 설명, 차단할 질문 예시 입력으로 정확도 향상
Content Filters로 증오(HATE), 폭력, 성인 콘텐츠, 프롬프트 공격(PROMPT_ATTACK) 감지: 입력/출력별로 HIGH/NONE 강도 설정 (프롬프트 공격은 입력만 필터링)
PII Detection으로 이메일, 이름, 전화, 신용카드 자동 감지: 연락처는 ANONYMIZE(플레이스홀더 치환), 금융/문서는 BLOCK(전체 메시지 거부)
Regex Patterns로 브라질 CPF 형식(XXX.XXX.XXX-XX) 커스텀 감지: 내장 PII(미국 SSN 기반)의 한계 보완
Word Filters로 특정 단어 차단: AWS 관리 욕설 리스트 + 'hack', 'exploit', 'jailbreak' 같은 보안 관련 단어 커스텀 등록
아키텍처: Client → API Gateway → Lambda → Bedrock Nova 2 Lite + Guardrail 통합
두 가지 적용 방식 지원: (1) 모델 호출 시 guardrailConfig 파라미터 추가, (2) ApplyGuardrail API로 모델 실행 없이 독립적 검증

Impact

Topic Deny는 영어 주도 학습으로 포르투갈어 주제 분류 정확도 제한 (Word Filters와 Regex로 보완 시 100% 차단 가능). Bedrock Nova 2 Lite는 입력 토큰 1K당 약 $0.06, Guardrails는 텍스트 유닛(1000자 = 1유닛) 당 $0.75 (실제 테스트 시 센트 단위 비용).

Key Takeaway

생성형 AI 보안은 단일 필터로 해결 불가능하며, Topic Deny(범위), Content Filters(유해성), PII Detection(민감 정보), Regex(지역화 패턴), Word Filters(결정적 차단)의 5가지 계층을 조합해야 견고한 보호가 가능하다. 특히 비영어권 배포 시 Word Filters와 Regex를 primary로 설정하고 Topic Deny를 보조로 운영해야 한다.

실천 포인트

포르투갈어, 한국어 등 비영어권 생성형 AI 서비스 배포 시, Topic Deny만으로는 주제 분류 정확도가 낮으므로 Word Filters(특정 용어)와 Regex Patterns(지역 형식, 예: 주민등록번호)을 우선적으로 조합하면 Topic Deny의 한계를 보완하면서도 100% 차단률 달성 가능하다.

태그

#PII Detection #Guardrails #AI Security #Amazon Bedrock #Content Moderation

원문 읽기