피드로 돌아가기
Gemini Deep Research Agent API 공개
GeekNewsGeekNews
AI/ML

Gemini Deep Research Agent API 공개

비동기 Interactions API를 통한 에이전트 기반 Deep Research 워크플로우 자동화

ragingwind2026년 4월 23일8intermediate

Context

기존 LLM의 단발성 질의응답 및 단순 RAG 구조는 복합적인 정보 수집과 심층 분석에 한계 노출. 웹 UI에 국한되었던 리서치 기능을 외부 애플리케이션에 통합하기 위한 API 인터페이스 필요성 대두.

Technical Solution

  • 수 분 단위의 장기 작업 처리를 위한 비동기 Interactions API 기반의 Polling 및 Streaming 구조 설계
  • 사용자의 개입을 통한 방향성 제어를 위해 collaborative_planning 플래그를 활용한 계획-승인-실행의 3단계 워크플로우 구현
  • Model Context Protocol(MCP) 표준 채택을 통한 외부 금융 데이터 등 도메인 특화 도구의 유연한 확장성 확보
  • visualization 옵션을 통한 분석 결과의 자동 차트 생성 및 base64 인코딩 이미지 반환 로직 통합
  • 텍스트, PDF, 오디오를 동시에 처리하는 멀티모달 입력 체계 구축으로 리서치 컨텍스트 확장
  • thinking_summaries 설정을 통한 에이전트의 내부 추론 과정 가시화로 결과물 신뢰도 확보

- 수 분 단위의 지연 시간이 발생하는 비동기 API 특성을 고려한 UX/UI 폴링 전략 수립 - collaborative_planning=False 전환 시점에만 실제 리서치가 수행되는 상태 관리 로직 확인 - 외부 데이터 연동 시 MCP 서버 규격 준수 여부 및 allowed_tools를 통한 권한 제어 검토 - 분석 결과의 시각화를 위해 프롬프트 내 차트 유형을 구체적으로 명시하는 프롬프트 엔지니어링 적용

원문 읽기