피드로 돌아가기
I built an AI that explains your CI failures in plain English (right inside your PR)
Dev.toDev.to
DevOps

LLM 기반 CI 로그 분석을 통한 MTTR 단축 및 Flaky Test 탐지 자동화

I built an AI that explains your CI failures in plain English (right inside your PR)

ali yaakoub2026년 5월 10일3intermediate

Context

방대한 CI 로그 내에서 실제 에러 원인을 식별하는 과정의 높은 인지 부하 발생. 단순한 로그 출력 구조로 인해 환경 변수 누락이나 버전 불일치 같은 핵심 병목 지점 파악에 과도한 시간 소요.

Technical Solution

  • GitHub App 형태의 Event-driven 아키텍처 설계를 통한 workflow 상태 실시간 모니터링
  • LLM 기반의 Log Parsing logic을 적용하여 노이즈 제거 및 핵심 Error Type, Severity, Failing Line 추출
  • 통계적 분석 기반의 Flakiness Score 산출 모델을 통한 비결정적 테스트(Flaky Test) 식별 및 패턴 추적
  • PR Comment와 Slack/Discord Webhook을 연동한 Feedback Loop 최적화로 컨텍스트 스위칭 비용 최소화
  • Repository Health Scoring 시스템을 구축하여 CI 안정성을 정량적 지표로 관리하는 대시보드 구현

1. CI 로그의 노이즈(npm install, deprecation warnings)를 제거하는 전처리 필터 도입 검토

2. 테스트 성공/실패 패턴의 시계열 분석을 통한 Flaky Test 자동 탐지 체계 구축

3. 개발자 경험(DX) 향상을 위해 에러 분석 결과를 코드 리뷰가 일어나는 PR 인터페이스 내에 직접 통합

원문 읽기