본문 바로가기

인공지능 공부

BOA (Bilevel Online Adaptation) for Out-of-Domain Human Mesh Reconstruction 읽기

https://sites.google.com/view/dynaboa/boa-cvpr-2021

 

Out-of-domain Human Mesh Reconstruction - BOA (CVPR 2021)

Bilevel Online Adaptation for Out-of-Domain Human Mesh Reconstruction Shanyan Guan*, Jingwei Xu*, Yunbo Wang†, Bingbing Ni†, Xiaokang Yang MoE Key Lab of Artificial Intelligence, AI Institute, Shanghai Jiao Tong University, China [Code] [Paper] [Supp.

sites.google.com

 

CVPR 2021에 발표된 논문인 Bilevel Online Adaptation for Out-of-Domain Human Mesh Reconstruction을 읽어보도록 하자. 저자들은 이 기법을 짧게 BOA라고 지칭하고 있다. 

 

 

Abstract

 이 논문은 미리 학습된 human mesh reconstruction 모델을 카테고리가 알려지지 않은 스트리밍 비디오에 적용하기 위한 방법에 대해 고려했다. 기존의 대부분의 기법들은 parametric SMPL 모델에 기반을 두고 있는데, 이 방식은 캐릭터 행동의 종류, 카메라 파라미터, 뼈의 길이, 배경이나, 가려짐을 포함하는 새로운 도메인에 대해 낮은 성능을 보이고 있다. 

우리의 기본적인 아이디어는 테스트 비디오 스트림으로 제공되는 소스 모델을 추가적인 시간적 제약을 부여하는 방식으로 다이나믹하게 파인튜닝하는 것이다. 이런 방식을 통해 개별적인 테스트 프레임의 2D 정보가 오버피팅되지 않고 도메인의 차이를 완화할 수 있게 되는 것을 기대했다. 다음 문제는 어떻게 2D와 시간적 제약 간의 충돌을 피하는 것인가가 된다. 우리는 이 문제를 BOA라고 이름붙인 새로운 학습 알고리즘을 통해 해결하는 것을 제안한다. BOA는 전반적으로 발생하는 다양한 objective들을 weight probe와 weight update로 나누어서 반복적으로 훈련하는 방식을 가진다. 우리는 BOA가 두 사람의 메시 구축하는 벤치마크를 통해 SOTA를 능가함을 검증했다.

 

1. Introduction

 휴먼 메시 리컨스트럭션은 컴퓨터 비전분야에서 핫한 주제로, 현재 범용적으로 적용될 수 있는 기술을 개발하는 것이 주요 연구 주제중 하나이다. 우리는 기존의 다양한 모델들이 학습 데이터셋에 오버핏 되기 쉽다는 것을 관측했고, out-of-domain 테스트 시나리오에 대해 제성능이 발휘되지 않음을 확인했다. 피규어 1과 같이 데이터셋이 바뀌면 대게 카메라 파라미터, 뼈의 길이, 배경, 가려짐 등을 포함하는 도메인 갭이 크게 존재하여 실제로 테스트 데이터셋과 다른 데이터를 스트리밍 데이터로 기존 모델에 적용했을 때 테스트 도메인과 크게 달라진 도메인들로 인해 더 성능이 낮아졌다.  이 작업을 통해 우리는 휴먼 메시 리컨스트럭션 모델을 순차적인 순서로 제공되는 out-of-domain 비디오 프레임에 적용하는 최적의 솔루션을 찾는것에 관심을 가지게 되었다. 

 

 이 과정의 가장 중요한 기술적 도전과제는 3D annotation of test data가 부족하다는 것이었다. 이 문제를 해결하기 위해 몇몇 최적화 기반의 접근법들은 2D 키포인트들의 pose re-projection loss와 같은 frame-wise 로스들을 이용하여 모델을 매 테스트 프레임마다 업데이트하여 학습한다. 그러나 완벽하지 않은 frame-based loss function은 3D evaluation metric으로 부터 기대되는 online learning direction을 매번 생성해내진 못했다. 둘 사이에는 심한 차이가 있다. 피규어 2에서 보여주듯, 이 차이는 깊이 정보의 예측에 있어서 심각한 모호성을 유발하여 메시 리컨스트럭션 퀄리티를 낮춘다. 게다가 동기화되지 않은 스트리밍 데이터의 수신으로 인해 online adapation model은 오버피팅되게 되어, 2D objectives와 3D evaluation metric간의 차이를 증폭시킨다. 

 

 직관적인 해결방법은 2D pose objective를 다루는 학습 과정을 temporal constraints로 규제하는 것이다. 예를 들면 메시 리컨의 smoothness 가 temporal constraints가 될 수 있다. 만약 temporal constraints가 적절하게 사용된다면 깊이 추정의 모호성이 크게 줄어들 수 있다. 그러나 실험을 통해서 확인해보니, 2D Loss들과 temporal constraint의 간단한 조합만으로는 좋지 않은 결과물을 만들어낸다. 그 이유는 다양한 objectives간의 충돌과 incompatibility 인 것으로 보이는데, 2D objectives의 gradient가 temporal 한 것의 training을 방해하는 것 같다. 게다가 이 문제를 푸는 것은 스트리밍 데이터를 이용하는 online adaptation 시나리오에 대해서 긴급히 풀어야한다. 왜냐하면 테스트 도메인에 대한 전역적 지식이 없게 되면 모델이 더 쉽게 서브-옵티멀 솔루션에 빠질 수 있기 때문이다. 

 

 위 두가지 사항은 우리가 새로운 관점에서 out-of-domain 메시 리컨의 도전적인 문제를 접근할 수 있게하는 동기가 되었다. 우리는 BOA라고 명명된 기술을 제안한다. 이 기법은 작업 내의 다양한 objectives를 joint learning하는 방식으로 문제를 풀어낸다. BOA는 스트리밍 테스트 데이터에 bilevel 최적화를 수행하여 temporal consistency를 few-step 온라인 훈련에 통합한다. 특별히 BOA에서는 lower level 최적화 스텝이 단일 프레임의 자세 제약 하에서의 rational model 파라미터를 증명하는 가중치를 제공해준다. 또 ipper level 최적화 스텝은 temporal constraints와 로스 펑션에 대한 전반적인 feasible response를 찾아낸다. 한편으로 우리의 접근법은 2D loss를 upper-level 최적화에 대해 유지하는 방식을 통해 temporal constraint에 대해 오버피팅되는 것을 피한다.  또 다른 한편에서는 upper-level 최적화 단계의 second-order derivatives만을 모델을 업데이트하는 방식으로 2D Loss 오버피팅을 피하게 해준다. 이 방식들을 통해 우리의 방식은 pose와 temporal constraint의 장점들을 효과적으로 결합할 수 있었다. 실험에서 우리는 Human3.6M 데이터를 소스 도메인으로 사용하고 3DPW와 MPI-INF-3DHP를 타겟도메인으로 삼아서 스트리밍 비디오 프레임을 준비했다. 두 벤치마크 모두에 대해 우리의 제안 방식은 domain gaps를 대처하는데 특히 능력을 발휘하여  기존의 접근법들을 뛰어넘는 성능을 발휘했다. 

 

2. 문제 셋업

여기부터는 기호가 많아서... 그냥 논문 보는걸로,...