피드로 돌아가기
A real-world walkthrough of regression using coffee, code, and actual data
Dev.toDev.to
AI/ML

Linear Regression을 통한 상관관계 수치화 및 예측 모델 구현

A real-world walkthrough of regression using coffee, code, and actual data

Sujit Mali2026년 5월 20일11beginner

Context

추상적인 통계 공식보다 실제 데이터 기반의 문제 해결 방식 필요성 대두. 단순 관찰을 넘어 특정 입력값(X)의 변화에 따른 결과값(Y)의 정량적 예측 모델 구축을 목표로 함.

Technical Solution

  • Scatter Plot을 통한 데이터 분포의 시각적 분석으로 상관관계 초기 가설 설정
  • Least Squares Regression 방식을 적용하여 실제 값과 예측 값 사이의 Residual 합계를 최소화하는 최적선 도출
  • Residual의 음수 값 상쇄 방지를 위해 오차를 제곱하는 Squared Error 방식 채택
  • 평균값 기반의 Deviation 및 Product 계산을 통한 Slope(m)와 Intercept(b)의 수식적 산출
  • 산출된 선형 방정식(y = mx + b)을 통한 미래 데이터 예측 프레임워크 구축

Impact

  • 커피 1잔 증가당 약 53~56라인의 코드 생산량 증가 확인
  • zero-coffee 상태의 기본 생산량을 약 38~42라인으로 정량화
  • 결정계수 R² 약 0.89의 높은 모델 설명력 확보

Key Takeaway

복잡한 모델 도입 전 단순 선형 회귀를 통해 변수 간의 인과관계를 수치화하여 직관적 가설을 검증하는 데이터 기반 의사결정 프로세스의 중요성


- 도메인 지식을 바탕으로 측정 가능한 독립 변수(X)와 종속 변수(Y) 정의 - 수식 적용 전 Scatter Plot을 통해 데이터의 선형성 및 Outlier 존재 여부 확인 - R² 지표를 통해 도출된 회귀 모델의 신뢰도 및 설명력 검증 - 단순 모델의 예측치와 실제 직관(Gut feeling)을 대조하여 가설 수정

원문 읽기