피드로 돌아가기
I built CodeArchy: an open-source that turns any codebase into a visual, explainable architectural experience, powered by Gemma 4.
Dev.toDev.to
AI/ML

Gemma 4 기반 로컬 AST 분석을 통한 코드베이스 시각화 및 아키텍처 추론 시스템 구축

I built CodeArchy: an open-source that turns any codebase into a visual, explainable architectural experience, powered by Gemma 4.

I. Kennedy Yinusa2026년 5월 22일16advanced

Context

대규모 모놀리스나 AI 생성 코드 등 복잡한 코드베이스 파악에 소요되는 과도한 리딩 시간 문제 발생. 단순 파일 리스트나 전체 의존성 그래프는 정보 과잉으로 인해 시스템의 상위 레벨 구조를 파악하기 어려운 한계 존재.

Technical Solution

  • Tree-sitter AST 엔진을 통한 심볼, Import, Export 정보의 정밀 추출 및 Typed Dependency Graph 구축
  • Heuristic Pass(디렉토리 그룹화, 시맨틱 키워드 매칭, 연결성 기반 정제)를 통한 모듈의 사전 클러스터링 수행
  • Token-efficient Summary 기법을 적용하여 수만 개의 의존 관계를 서브시스템 간 관계로 압축 후 Gemma 4에 전달
  • LLM의 아키텍처 추론 능력을 활용해 저수준 모듈을 Auth Layer, API Gateway 등 목적 기반 Subsystem으로 추상화
  • Ollama 기반 Local Inference 환경 구축으로 소스 코드 외부 유출을 원천 차단한 Offline-first 아키텍처 설계
  • Kokoro TTS 및 스토리 플레이어 연동을 통한 시각적 노드 애니메이션과 음성 설명의 동기화 구현

- 대규모 코드 분석 시 Tree-sitter와 같은 정적 분석 도구로 구조적 데이터를 먼저 추출할 것 - LLM 입력 전 도메인 키워드 기반의 사전 그룹화(Pre-clustering)를 통해 컨텍스트 윈도우 최적화 검토 - 보안 요구사항이 높은 기업 내부 코드 분석 시 Ollama 등 Local LLM 인프라 도입 고려

원문 읽기