본문 바로가기

인공지능 공부

AI ChoreographerMusic Conditioned 3D Dance Generation with AIST++

https://google.github.io/aichoreographer/

 

AI Choreographer: Music Conditioned 3D Dance Generation with AIST++

Ruilong Li*1,2 Shan Yang*2 David A. Ross2 Angjoo Kanazawa2,3 1University of Southern California      2Google Research      3UC Berkeley

google.github.io

 

@misc{li2021learn, title={AI Choreographer: Music Conditioned 3D Dance Generation with AIST++}, author={Ruilong Li and Shan Yang and David A. Ross and Angjoo Kanazawa}, year={2021}, booktitle={ICCV} }

 

Abstract

 

우리는

 1. AIST++라는 3D 댄스 모션과 음악으로 구성된 멀티모달 데이터셋과

 2. 음악에 맞추어 3D 댄스를 생성해내는 Full-Attension Cross-modal Transformer(FACT) network를 제안한다. 

 

AIST++는 5.2 시간 분량에 달하는 3D 댄스 모션 데이터를 담고 있는데, 여기에는 1408개의 시퀀스, 10개의 장르에 해당하는 댄스가 미리 정해진 카메라 위치에 대해 촬영되었다. 우리는 트랜스포머와 같은 시퀀스 모델을 AIST++에 단순히 적용하여 음악에 맞는 3D 댄스 모션을 생성하는 것은 입력된 음악 크게 어울리지 않는 것을 보여준다. 이 문제를 해결하기 위해 FACT 모델을 제안한다. 이 모델은 아키텍쳐의 디자인과 super vision에 key changes를 도입하는 방식을 취하며, 앞으로의 N개 모션을 예측하기 위해 트레이닝 되는 FACT 모델이다. 우리는 경험적으로 입력 음악에 적합한 사실적인 댄스 모션의 긴 시퀀스를 확보하기 위한 키 팩터로 작용한 것을 확인했다. 우리는 AIST++에 대해 많은 실험과 유저 스터디를 거치면서 우리의 기법이 질적이나 양적으로 모두 기존의 방식보다 우수함을 보였다.