피드로 돌아가기
From Concept to Code: Building an AI-Based Adverse Drug Reaction Detection System
Dev.toDev.to
AI/ML

TF-IDF 및 Logistic Regression 기반의 경량 ADR 탐지 파이프라인 구축

From Concept to Code: Building an AI-Based Adverse Drug Reaction Detection System

Rishika Chanda2026년 4월 27일6beginner

Context

비정형 텍스트 중심의 의료 데이터 특성으로 인한 수동 분석의 시간적 비용 및 누락 위험 발생. 복잡한 모델 대신 실무 적용 가능성과 확장성에 초점을 맞춘 경량 NLP 분석 체계 필요성 대두.

Technical Solution

  • NLTK를 활용한 Stopwords 제거 및 텍스트 정규화로 데이터 노이즈 최소화
  • TF-IDF Vectorization의 max_features를 5,000개로 제한하여 Feature Space 최적화
  • Logistic Regression 및 Naïve Bayes 기반 분류기로 예측 속도와 모델 경량화 달성
  • Flask API 기반의 Modular Pipeline 설계로 입력, 전처리, 예측, 저장 단계의 독립적 확장성 확보
  • Schema-less 특성의 MongoDB Atlas 도입으로 비정형 의료 텍스트 및 가변적 예측 결과의 효율적 저장

1. 도메인 특화 데이터셋의 경우 복잡한 Deep Learning 모델 도입 전 TF-IDF와 선형 모델로 Baseline 성능을 먼저 검증할 것

2. 비정형 텍스트 데이터 저장 시 스키마 변경 유연성을 위해 MongoDB와 같은 NoSQL 고려

3. ML 모델의 서빙 계층을 Flask 등 경량 프레임워크로 분리하여 모델 업데이트와 API 인터페이스의 의존성 제거

원문 읽기