Dev.ton-gram 매칭에서 Neural-based 평가로의 LLM 정량 측정 패러다임 전환How We Actually Measure Whether an LLM's Output Is Good - BLEU, COMET and BLEURTAI/MLintermediate17 분 소요6일 전