표 데이터에서 트리 기반 모델이 딥러닝을 여전히 능가하는 이유는 무엇일까요? (2022)
딥러닝이 텍스트와 이미지 데이터셋에서 엄청난 진보를 이루었지만, 표 데이터에서의 우위는 명확하지 않습니다. 연구진은 XGBoost와 Random Forests 같은 트리 기반 모델과 다양한 딥러닝 방법을 대규모 데이터셋과 하이퍼파라미터 조합에서 벤치마킹했습니다. 결과적으로, 중간 크기의 데이터(약 10K 샘플)에서 트리 기반 모델이 여전히 최고의 성능을 보이며, 이는 그들의 속도 우위를 고려하지 않아도 마찬가지였습니다.