AGORA: Avatars in Geography Optimized for Regression Analysis 둘러보기
Abstract
이미지로부터 예측해낸 3D 휴먼 포즈의 정확도는 벤치마크 데이터셋에 대해 지속적으로 높아지고 있으나, 여전히 실세계의 시나리오에서는 적용이 어렵다. 이는 분명히 현재의 데이터셋과 사람을 포함하는 일반적인 씬 사이의 차이가 있음을 의미한다. ground truth 3D 포즈를 얻기 위한 현재의 데이터 셋은 의상의 복잡도, 환경 조건, 대상자의 수, 가려짐 등으로 인한 한계를 가지고 있다. 게다가 현재의 데이터셋은 몸의 주요 조인트에 해당하는 지점의, 즉 sparse한 3D joint 지점에 대한 평가만을 수행하고 손이나 얼굴의 형상은 무시한다. 현재의 SOTA를 더 도전적인 이미지에 대해 평가하기 위해, 그리고 새로운 문제를 필드로 이끌어내기 위해 우리는 AGORA라는 사실적이고 정밀한 합성된 데이터 셋을 소개한다. 우리는 4240개의 상업적으로 이용가능한 고퀄리티의 텍스쳐처리된 다양한 자세의, 게다가 옷도 입고 있는 휴먼데이터를 이용했고, 257개의 어린이 대상의 스캔 데이터도 이용했다. 우리는 SMPL-X 바디 모델을 3D 스캔에 피팅하면서 3D pose와 body shapr에 대한 레퍼런스를 만들었다. 이과정에서 의상에 대한 고려도 수행되었다. 우리는 한 모델마다 5~15장의 이미지를 렌더링하는 방식으로 14K, 3K의 훈련 및 테스트 이미지를 생성했다. 이 과정에 라이팅에 대한 변형도 수행되었다. 결과적으로 AGORA는 173k 개의 이미지를 가지고 있다. 우리는 기존 모션 추정 분야의 SOTA 기법을 우리의 데이터셋 상에서 평가해보았고, 대부분 어린이의 이미지에 대해 좋은 결과를 얻지못함을 확인했다. 따라서 우리는 SMPL-X 모델의 어린이의 형상을 더 잘 캡쳐할 수 있도록 확장했다. 추가로 우리는 AGORA를 위한 기법을 더 조절하여 AGORA와 3DPW 두 데이터 상에서 모두 더 잘 작동하도록 했다. 이 과정에 대한 내용 역시 홈페이지를 통해 확인가능하다.