본문 바로가기

인공지능 공부

Populating 3D Scenes by Learning Human-Scene Interaction 둘러보기

https://arxiv.org/abs/2012.11581

 

Populating 3D Scenes by Learning Human-Scene Interaction

Humans live within a 3D space and constantly interact with it to perform tasks. Such interactions involve physical contact between surfaces that is semantically meaningful. Our goal is to learn how humans interact with scenes and leverage this to enable vi

arxiv.org

 

Abstract

 

사람은 3차원 공간상에서 끊임없이 인터랙션하며 살아간다. 이런 인터랙션은 시멘틱하게 의미가 있는 표면과의 물리적 접촉을 동한한다. 우리의 목적은 씬에 사람이 어떻게 인터랙션하는지 배우고, 이를 통해 버추얼 캐릭터가 이를 반영할 수 있도록 하는 것이다. 최종적으로 우리는 Human-Scene Interaction(HSI) 모델을 제안한다. 이 모델은 POSA(Pose with prOximitieS and ContActs)로 네이밍 된 proximal relationships를 인코드 한다. 인터랙션의 표현은 몸이 중심이 되며, 이를 새로운 씬에 대해서 일반화 할 수 있다. 특히 POSA는 SMPL-X 모델과 더불어 (a) 접촉 확률과 (b) 시멘틱 씬 라벨을 인코드 한다. 우리는 POSA를 SMPL-X 정점으로 제약된 VAE로 학습하는데, 이 과정에서 PROX 데이터셋을 사용했다. PROX 데이터 셋은 3D 씬과 인터랙션하는 SMPL-X 메시와 PROX-E 데이터셋이 제공해주는 관련된 씬 시멘틱을 포함한다. 우리는 POSA의 가치를 두가지 어플리케이션을 이용해서 검증한다. 

 

첫번째 방식으로 우리는 3D 씬에 3D 스캔된 사람을 자동으로 배치한다. 우리는 SMPL-X를 이용하여 스캔된 사람을 표현했고, 이를 씬 상에 배치했다. POSA는 씬 상에서 affordance를 찾기 위한 효율적인 표현법을 제시했다. 여기서 affordance는 해당 자세와 접촉의 관계를 잘 매치 시킨 것을 의미한다. 우리는 또 퍼셉츄얼 스터디를 통해서 기존의 SOTA 를 앞서는 것을 확인했다. 두번째로 3D 씬에 어울리는 monocular human pose estimation을 지원하는 바디-씬 인터랙션의 표현법을 학습했다. 이 과정에서 역시 기존의 SOTA를 앞서는 결과를 가져왔다. 소스코드는 홈페이지를 통해 확인가능하다.