https://arxiv.org/abs/2112.11454
Abstract
사실적으로 움직이는 디지털 휴먼을 만드는 것은 많은 적용처를 가지고 있으며, 폭넓게 연구된 분야이나 기존의 기법들은 손과 머리의 움직임에는 큰 관심을 주지 않고 신체 주 관절에만 집중했다. 손의 움직임은 그동안 분리된 형태로 연구되어왔지만, 객체를 정적으로 쥐는 자세를 만드는 쪽에 초점을 맞춰왔다. 월드와 상호작용하는 가상 캐릭터를 생성하기 위해서 우리는 풀바디 모션과 사실적인 손 쥠 모션을 동시에 생성해 낼 필요가 있었다. 두 서브 프러블럼 모두 각각의 필드 자체에서 도전적인 과제이고, 두 문제 모두 자세를 기술하는 state space가 굉장히 크고, 손과 전신의 모션의 크기도 서로 다르며, 전신 자세화 손위 쥠 모션이 반드시 물리적 제약을 만족시키면서도 자연스러워야 한다. 덧붙여 머리의 움직임 또한 아바타가 인터랙션하는 객체를 반드시 봐야하기 때문에 해당 내역에 대한 반영이 필요하다. 우선 우리는 임의의 객체를 쥐는 아바타의 전신, 손, 머리의 움직임을 생성하는 문제를 해결해봤다. 따라서 우리의 기법인 GOAL은 입력으로 3D 객체와 그 자세, 그리고 3D 바디포즈와 형상을 입력으로 한다. GOAL은 두개의 네트워크를 이용하여 일련의 전신 자세의 시퀀스를 산출한다.
우선 GNet은 객체와 손의 접촉점, 핸드포즈, 팔 머리 전신의 최종 자세를 생성해낸다. 다음으로 MNet은 시작 자세와 최종 자세 사이의 값을 보간해준다. 두번째 작업 역시 도전적인데, 그 이유는 아바타가 객체에 발동작을 이용하여 걸어가야하고, 머리를 객체에 향해야 하며, 손을 뻣고 그걸 자연스러운 손의 위치와 모션으로 잡아내야 하기 때문이다. 이 과정을 수행하기 위해 MNet은 SMPL-X 바디 파라미터와 3D 정점 오프셋을 결합한 양식을 도입했다. 우리는 GRAB 데이터 셋을 기준으로 우리의 기법인 GOAL을 학습하고 평가하여, 양적인 면과 질적인 면 모두에 대해 검증했다. perceptual 스터디에서는 GOAL이 생성한 모션이 GRAB의 ground truth의 현실성과 유사함을 보여주었다. GOAL은 전신 객체 쥠 모션을 생성하는 하나의 큰 스텝을 이룩했고 모델과 코드는 사이트를 통해서 이용할 수 있다.