피드로 돌아가기
Dev.toAI/ML
원문 읽기
TF-IDF 및 Logistic Regression 기반의 경량 ADR 탐지 파이프라인 구축
From Concept to Code: Building an AI-Based Adverse Drug Reaction Detection System
AI 요약
Context
비정형 텍스트 중심의 의료 데이터 특성으로 인한 수동 분석의 시간적 비용 및 누락 위험 발생. 복잡한 모델 대신 실무 적용 가능성과 확장성에 초점을 맞춘 경량 NLP 분석 체계 필요성 대두.
Technical Solution
- NLTK를 활용한 Stopwords 제거 및 텍스트 정규화로 데이터 노이즈 최소화
- TF-IDF Vectorization의 max_features를 5,000개로 제한하여 Feature Space 최적화
- Logistic Regression 및 Naïve Bayes 기반 분류기로 예측 속도와 모델 경량화 달성
- Flask API 기반의 Modular Pipeline 설계로 입력, 전처리, 예측, 저장 단계의 독립적 확장성 확보
- Schema-less 특성의 MongoDB Atlas 도입으로 비정형 의료 텍스트 및 가변적 예측 결과의 효율적 저장
실천 포인트
1. 도메인 특화 데이터셋의 경우 복잡한 Deep Learning 모델 도입 전 TF-IDF와 선형 모델로 Baseline 성능을 먼저 검증할 것
2. 비정형 텍스트 데이터 저장 시 스키마 변경 유연성을 위해 MongoDB와 같은 NoSQL 고려
3. ML 모델의 서빙 계층을 Flask 등 경량 프레임워크로 분리하여 모델 업데이트와 API 인터페이스의 의존성 제거