Token Sequence 길이 최적화로 Compute Cost 3배 절감

OlmoEarth v1.1: A more efficient family of models

2026년 5월 19일4분advanced

AI 요약

Context

위성 이미지 분석을 위한 Transformer 기반 모델에서 Token Sequence 길이가 Compute Cost에 Quadratic하게 영향을 미치는 구조적 한계 존재. 기존 OlmoEarth v1은 해상도별로 Token을 분리하여 생성함에 따라 대규모 지역 처리 시 과도한 연산 비용 발생.

Technical Solution

Resolution-based Patching 방식을 통한 Token 생성 구조의 효율화 설계
3가지 해상도(10m, 20m, 60m)별 개별 Token 생성 방식을 단일 Token으로 Collapsing 하여 Sequence Length 3배 단축
Token 병합 시 발생하는 성능 저하를 방지하기 위해 Pre-training Regimen을 수정하여 Cross-band 관계 모델링 능력 유지
모델 크기(Base, Tiny, Nano)를 다양화하여 Compute Budget에 따른 유연한 선택지 제공
동일 데이터셋 학습을 통한 Architecture 및 Methodological 변경 사항의 영향도 정밀 격리 분석

실천 포인트

1. 고차원 텐서 데이터를 Token화할 때 해상도/채널별 분리 전략이 반드시 필요한지 검토

2. Token 병합 시 발생하는 성능 저하를 모델 구조 변경이 아닌 학습 스케줄(Training Regimen) 최적화로 해결 가능한지 분석

3. Compute Cost가 핵심 병목인 경우 Sequence Length를 줄이는 Token Collapsing 전략 적용 고려

태그

#Transformer #Pre-training #Remote Sensing #Compute Efficiency #Tokenization

원문 읽기