본문 바로가기

인공지능 공부

VIBE: Video Inference for Human Body Pose and Shape Estimation

https://github.com/mkocabas/VIBE

 

GitHub - mkocabas/VIBE: Official implementation of CVPR2020 paper "VIBE: Video Inference for Human Body Pose and Shape Estimatio

Official implementation of CVPR2020 paper "VIBE: Video Inference for Human Body Pose and Shape Estimation" - GitHub - mkocabas/VIBE: Official implementation of CVPR2020 paper "VIBE: ...

github.com

CVPR 2020 논문

 

Abstract
사람의 모션은 행동을 이해하기 위한 기본정보이다. 하나의 이미지를 가지고 3D 자세와 형상을 예측하는 기술이 지속적으로 발전하고 있지만, 기존의 비디오 기반의 SOTA 기법들은 훈련을 위한 GT 3D 모션 데이터가 부족하기 때문에 정확하고 자연스러운 모션 동작을 생성해내는데 실패한다. 이 문제를 풀기 위해 우리는 비디오 추론 기반의 전신 자세 및 형상 예측(VIBE) 기술을 제안한다. VIBE는 기존의 대규모 모션 캡쳐 데이터셋(AMASS)페어링 되지 않으며, 실환경에서 측정된 2D 키포인트 annotation’과 함께 사용한다.  우리의 핵심 내용은 adversarial learning framework에 있는데, 이 프레임워크는 AMASS가 실제 휴먼 모션과 우리의 temporal pose로 생성되는 모션을 구분할 수 있게 해주는 부분과 shape regression network로 구성된다. 우리는 temporal network 구조를 정의하고 adversarial training이 시퀀스 레벨에서 kinematically 자연스러운 모션 시퀀스를 in-the-wild ground truth 3D label이 없이도 생성할 수 있음을 보준다. 우리는 도전적인 3D pose estimation 데이터 셋 상에서 VIVE의 효과를 검증하고, 모션의 중요도를 분석하는 광범위한 실험을 수행했고, SOTA 퍼포먼스를 얻어냈다.