AudioX: 모든 것을 오디오로 변환하는 확산 변환기
오디오와 음악 생성은 다양한 분야에서 점점 중요해지고 있습니다. AudioX는 여러 모달리티를 통합하여 고품질의 오디오와 음악을 생성하는 모델입니다. 자연어를 통해 유연하게 제어할 수 있으며, 텍스트, 비디오, 이미지 등 다양한 입력을 처리합니다. 특히, 멀티모달 마스킹 전략을 통해 강력한 크로스모달 표현을 학습합니다. vggsound-caps와 V2M-caps라는 두 개의 대규모 데이터셋을 활용하여 데이터 부족 문제를 해결했습니다. AudioX는 다양한 입력 모달리티와 생성 작업을 단일 아키텍처에서 처리할 수 있는 뛰어난 유연성을 보여줍니다.