피드로 돌아가기
Dev.toAI/ML
원문 읽기
Gemma 4 기반 로컬 AST 분석을 통한 코드베이스 시각화 및 아키텍처 추론 시스템 구축
I built CodeArchy: an open-source that turns any codebase into a visual, explainable architectural experience, powered by Gemma 4.
AI 요약
Context
대규모 모놀리스나 AI 생성 코드 등 복잡한 코드베이스 파악에 소요되는 과도한 리딩 시간 문제 발생. 단순 파일 리스트나 전체 의존성 그래프는 정보 과잉으로 인해 시스템의 상위 레벨 구조를 파악하기 어려운 한계 존재.
Technical Solution
- Tree-sitter AST 엔진을 통한 심볼, Import, Export 정보의 정밀 추출 및 Typed Dependency Graph 구축
- Heuristic Pass(디렉토리 그룹화, 시맨틱 키워드 매칭, 연결성 기반 정제)를 통한 모듈의 사전 클러스터링 수행
- Token-efficient Summary 기법을 적용하여 수만 개의 의존 관계를 서브시스템 간 관계로 압축 후 Gemma 4에 전달
- LLM의 아키텍처 추론 능력을 활용해 저수준 모듈을 Auth Layer, API Gateway 등 목적 기반 Subsystem으로 추상화
- Ollama 기반 Local Inference 환경 구축으로 소스 코드 외부 유출을 원천 차단한 Offline-first 아키텍처 설계
- Kokoro TTS 및 스토리 플레이어 연동을 통한 시각적 노드 애니메이션과 음성 설명의 동기화 구현
실천 포인트
- 대규모 코드 분석 시 Tree-sitter와 같은 정적 분석 도구로 구조적 데이터를 먼저 추출할 것 - LLM 입력 전 도메인 키워드 기반의 사전 그룹화(Pre-clustering)를 통해 컨텍스트 윈도우 최적화 검토 - 보안 요구사항이 높은 기업 내부 코드 분석 시 Ollama 등 Local LLM 인프라 도입 고려