본문 바로가기

인공지능 공부

Transflower: probabilistic autoregressive dance generation with multimodal attention

Valle-Pérez, Guillermo, et al. "Transflower: probabilistic autoregressive dance generation with multimodal attention." ACM Transactions on Graphics (TOG) 40.6 (2021): 1-14.

 

Abstract

 

댄스는 음악의 rhythmic, tonal, timbral 특징을 따르는 복합한 움직임의 수준높은 구성을 요구로 한다. 일반적으로 하나의 음악에 맞추어 댄스를 생성하는 것은 오디오 신호라는 조건에 맞추어서 다차원의 지속적인 모션 시그널을 모델링하는 문제로 표현될 수 있다. 우리는 이 논문에서 해당 문제를 해결하기 위한 두가지 기여할 거리를 가져왔다. 첫번째는 이전의 자세와 음악 컨텍스트로 부터 얻어지는 정규화된 flow condition을 위해서 미래의 자세들의 분포를 모델링하는 확률기반의 autoregressive 아키텍처를 제시한다. 두번째로 우리는 가장 큰 3D 댄스 모션 데이터셋을 제안한다. 이 데이터셋은 다양한 방식의 모션캡쳐 기술을 이용했으며, 프로 댄서와 일반 댄서로부터 데이터를 취득했다. 이 데이터셋을 기반으로 우리는 두개의 베이스라인에 대해 새로운 모델을 만들어서 비교했는데, objective metric과 유저스터디도 진행하여 우리의 기법이 큰 모션 셋과 음악의 컨텍스트에 더 적합한 모션을 생성함을 확인했다.