Metadata
HOnnotate
HOnnotate, A method for 3D Annotation of Hand and Object Poses Shreyas Hampali, Mahdi Rad, Markus Oberweger, and Vincent Lepetit Institute for Computer Graphics and Vision, Graz University of Technology, Austria LIGM, Ecole des Ponts, Univ Gustave Eiffel, CNRS, Marne-la-Valle, France CVPR 2020
Abstract
โ ๊ฐ์ฒด๋ฅผ ์กฐ์ํ๋ ์์ ์ด๋ฏธ์ง์์ ์๊ณผ ๊ฐ์ฒด์ 3D ํฌ์ฆ๋ฅผ ํจ๊ป ์ด๋ ธํ ์ด์ ํ๋ ๋ฐฉ๋ฒ๊ณผ ๊ทธ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์์ฑ๋ ๋ฐ์ดํฐ์ ์ ์ ์ํจ
โ ์์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃฐ ๋, ์ผ๋ฐ์ ์ผ๋ก ์ํธ ๊ฐ๋ฆผ์ผ๋ก ์ธํด 3D ํฌ์ฆ๋ฅผ ์ถ์ ํ๋ ๊ฒ์ด ์ด๋ ต๋ค โ ์ด๋ฌํ ๋ฌธ์ ์์ ์์ฑ๋ ๋ฐ์ดํฐ์ ์ด ๋ง์ง ์๋ค
โ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ RGB-D ์นด๋ฉ๋ผ๋ก ์ํ์ค๋ฅผ ์บก์ณํ๊ณ 3D์ ๋ฐ ๊ฐ์ฒด ํฌ์ฆ๋ฅผ ๋๊ธฐํ ํ์ฌ, ํฐ ์ํธ ๊ฐ๋ฆผ์๋ ์ ํํ๊ฒ ์๋ ์ด๋ ธํ ์ด์ ์ด ๊ฐ๋ฅํ๋ค
โ ์ต์ด๋ก ์๊ณผ ๋ฌผ์ฒด ๋ชจ๋์ ๋ง์ปค๊ฐ ์๋ ์ปฌ๋ฌ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ธํธ HO-3D ๋ฅผ ๋ง๋ค์๊ณ , 77,557๊ฐ์ ํ๋ ์, 68๊ฐ์ ์ํ์ค, 10๋ช ์ ์ฌ๋, 10๋ช ์ ๊ฐ์ฒด๋ก ๊ตฌ์ฑ๋จ
โ ์ ์ํ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ, ๋จ์ผ RGB ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ํธ ๊ฐ๋ฆผ์๋ ๊ฐ์ธํ Hand Pose ์์ธก ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๋ค
1. Introduction
1.1. ๋ฐฐ๊ฒฝ
- ๋จ์ ์ด๋ฏธ์ง์์ ๋ฌผ์ฒด์ ์์ 3D Pose ์ถ์ ๋ฐฉ๋ฒ์ ๋ฅ ๋ฌ๋์ ๊ฐ๋ฐ๊ณผ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ธํธ๋ก ์ธํด ์ต๊ทผ ์๋นํ ๋ฐ์ ์ ์ด๋ฃจ์์ง๋ง, (์ + ๊ฐ์ฒด)์ ์ํธ์์ฉ์ ๋ํ ํน์ ๋ฐ์ดํฐ ์ธํธ๊ฐ ์๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ์ํธ ๊ฐ๋ฆผ์ด ํฐ ๊ฒฝ์ฐ ์ฌ์ ํ ์คํจํ๋ค.
- (์+๊ฐ์ฒด) ์ํธ์์ฉ ๋ฐ์ดํฐ์ ์ ์ด๋ ธํ ์ด์ ํ๊ธฐ ๋งค์ฐ ์ด๋ ต์ง๋ง ์ด ๊ฒ์ ์ฆ๊ฐ ํ์ค ์์ฉ ํ๋ก๊ทธ๋จ์ด๋ ๋ก๋ด ๊ณตํ์์ ๋ชจ๋ฐฉ์ ํตํ ํ์ต์ ๋งค์ฐ ์ ์ฉํ ๊ฒ.
1.2. ์ค์ ์ด๋ฏธ์ง์ ์ด๋ ธํ ์ด์ (Annotating real images)
- 3D Hand Pose ์ถ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์๋ ์ด๋
ธํ
์ด์
ํ ์ ์๋ค.
์ด๋ ๋
ธ์ด์ฆ๊ฐ ๋ง์ง๋ง ์ผ๋ฐ์ ์ผ๋ก ๋น์ฐํ๊ฒ ํ๋ จ๊ณผ ํ๊ฐ์ ์ฌ์ฉ๋๋ค.
- ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์์ ๋ถ์ฐฉ๋ ์ผ์๋ฅผ ์ฌ์ฉํ๋ ๊ฒ. ์ด๋ 3D ํฌ์ฆ๋ฅผ ์ง์ ์ ๊ณตํ์ง๋ง, ์ด๋ฏธ์ง์ ์ผ์๊ฐ ๋ณด์ผ ์ ์์ผ๋ฏ๋ก ํ์ต์ ํธํฅ์ํจ๋ค. โ> ๋ง์ปค๋ ์ ๋ชจ์์ ๋ณ๊ฒฝํ๊ธฐ ๋๋ฌธ์ ์ปฌ๋ฌ ์ด๋ฏธ์ง์ 3D ์ ๋ ์ด๋ธ๋ง์ ์ฌ์ฉํ ์ ์๋ค.
1.3. ํฉ์ฑ ์ด๋ฏธ์ง ์์ฑ (Generating synthetic images)
- ํฉ์ฑ ์ด๋ฏธ์ง(์ ๋ชจ๋ธ ๋ ๋๋ง ์ด๋ฏธ์ง ์ธ๋ฏ)๋ 3D ํฌ์ฆ๋ฅผ ์๋ฒฝํ๊ฒ ์๊ณ ์๋ค
- ํฉ์ฑ์ด๋ฏธ์ง๋ฅผ Realistic ๋ ๋๋ง๊ณผ Domain transfer ๋ฅผ ํตํด ํ์ต ์ํฌ ์ ์๋ค (์ฐธ๊ณ )
- ํ์ง๋ง ๋ณต์กํ ์กฐ์์ ์๋ฎฌ๋ ์ด์ ํ๊ธฐ๊ฐ ์ด๋ ต๊ณ ์ค์ ๋ฐ์ดํฐ์ ์ผ๋ฐํ๋ฅผ ์ํด์๋ ์ฌ์ ํ ์ค์ ์ด๋ฏธ์ง - 3D ์ด๋ ธํ ์ด์ ์ ๋ณด๊ฐ ํ์ํ๋ค.
์ ์ (Proposal)
-
์๊ณผ ๋ฌผ์ฒด๊ฐ ์ํธ์์ฉํ๋ ์ค์ ์ด๋ฏธ์ง์ 3D ํฌ์ฆ ์๋ ์ด๋ ธํ ์ด์ ๋ฐฉ๋ฒ์ ์ ์ํจ
-
์ ์ํ ๋ฐฉ๋ฒ์ ๋จ์ผ RGB-D ์นด๋ฉ๋ผ์์ ์๋ํ์ง๋ง, ๋ ๋์ ์ ํ์ฑ์ ์ํด ๊ฐ๋ฅํ ๊ฒฝ์ฐ ๋ ๋ง์ ์นด๋ฉ๋ผ๋ฅผ ํ์ฉํ ์ ์๋ค
-
๋จ์ผ ์นด๋ฉ๋ผ ์ ์ ์ ์ํ์ค์ ๋ฐ๋ผ ๊ทธ๋ฉ ํฌ์ฆ๊ฐ ์กฐ๊ธ์ฉ ๋ค๋ฅด๋ค๋ ๊ฐ์ ํ๊ฒ ์๋ํ๊ณ , ๋ฉํฐ ์นด๋ฉ๋ผ ์ ์ ์ ๋ณต์กํ ์+๊ฐ์ฒด ์ํธ์์ฉ ์๋๋ฆฌ์ค๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ค
-
์ ์ํ ๋ฐฉ๋ฒ์ frame-by-frame ์ผ๋ก ํฌ์ฆ๋ฅผ ์ถ์ ํ๋ ๊ฒ์ด ์๋, ์ํ์ค์ ๊ฑธ์ณ ์๊ณผ ๋ฌผ์ฒด์ ๋ชจ๋ 3D ํฌ์ฆ๋ฅผ ์ต์ ํ ํ๋ค
-
MANO ํธ๋ ๋ชจ๋ธ ๊ณผ ๋ฌผ์ฒด์ 3D ๋ชจ๋ธ(YCB-Video ๋ฐ์ดํฐ ์ธํธ)์ ์์กดํจ
-
์ ๊ทธ๋ฆผ์ ์ ์ํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์์ง๋ HO-3D ๋ฐ์ดํฐ์ธํธ์ด๊ณ , ์ด ๊ฒ์ ์ฌ์ฉํด ๋จ์ผ RGB ์ด๋ฏธ์ง์์ ๊ฐ์ฒด๋ฅผ ์กฐ์ํ๋ ์์ 3D ํฌ์ฆ ์์ธก์ ํ์ตํ์๋ค.
-
์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฃผ๋ฉด, ๊ด์ ์ ๋ฐฉํฅ ๋ฒกํฐ์ 2D ํฌ์ธํธ๋ฅผ ์์ธกํ๋๋ก ๋ฅ ๋ฌ๋์ ํ๋ จ์์ผฐ๊ณ , ์์ธก๋ 2D ํฌ์ธํธ์ ๋ฐฉํฅ ๋ฒกํฐ๋ฅผ MANO ๋ชจ๋ธ์ ์ ์ฉ(ํผํ )ํ์ฌ 3D๋ก ๋ฆฌํํ ํจ
-
์ด ๊ฒ์ฆ์ ์ ์ํ ์ด๋ ธํ ์ด์ ๋ฐฉ๋ฒ์ผ๋ก ์ถ์ ๋ 3D ํฌ์ฆ๊ฐ, ์ค์ ๋ก ์ฌ์ฉ๋ ์ ์๋ค๋ ์ฌ์ค์ ๊ฒ์ฆํ๋ค.
-
-
MANO ๋งค๊ฐ ๋ณ์๋ฅผ ๋ค์ด๋ ํธ๋ก ์ถ์ ํ๋ ํธ๋+๊ฐ์ฒด ํฌ์ฆ ์ถ์ ์ ์ํ ๋ฐฉ๋ฒ(ObMan)๊ณผ ๋น๊ตํ์ฌ 2D ํคํฌ์ธํธ๋ฅผ ์์ธกํ๊ณ 3D๋ก ๋ฆฌํํ ํ๋ ๊ฒ์ด ๋ ์ ํํ๊ฒ ์ํ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
2. Related Work
2.1. 3D Object Pose Estimation
- ๋จ์ผ ํ๋ ์์์ ๊ฐ์ฒด์ 3D ํฌ์ฆ๋ฅผ ์ถ์ ํ๋ ๋ฌธ์ .
- ์ผ๋ถ ๋ฐฉ๋ฒ์ ๊ฐ๋ฆผ์ ๊ฐํ์ง๋ง ๋๋ถ๋ถ์ด 3D ๊ฐ์ฒด ๋ชจ๋ธ์ Depth ๋ฐ์ดํฐ์ ํผํ ํ๊ธฐ ์ํด RGB-D ๋ฐ์ดํฐ์ ์์กดํ๋ค.
- ์ด๋ฌํ ๊ฒฝ์ฐ ์์ด ๊ฐ์ฒด๋ฅผ ์ก์ ๋, ์์ด ๋ฌผ์ฒด์ ํ๋ฉด์ผ๋ก ์ค์ธ๋ ์ ์์ด์ ํฌ์ฆ ์ถ์ ์ ์คํจํ ์ ์๋ค.
2.2. 3D Hand Pose Estimation
- ์ฑ๊ธ ์ด๋ฏธ์ง์์ ์์ 3D ํฌ์ฆ๋ฅผ ์ถ์ ํ๋ ๋ฌธ์ .
- Discriminative ๋ฐฉ๋ฒ๊ณผ Generative ๋ฐฉ๋ฒ์ผ๋ก ๋๋ ์ ์๋ค.
- Discriminative ๋ฐฉ๋ฒ์ RGB ๋๋ RGB-D ์ด๋ฏธ์ง์์ ๊ด์ ์์น๋ฅผ ์ง์ ์ฐพ์๋ธ๋ค.
- ๋๋ค ํฌ๋ ์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด๊ธฐ ๋ฐฉ๋ฒ์์๋ถํฐ ํ์ฌ ๋ฅ๋ฌ๋์ ๊ธฐ๋ฐ์ผ๋กํ์ฌ ๋๋ผ์ด ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ์ถ์ธ.
- ๊ทธ๋ฌ๋ Discriminative ๋ฐฉ๋ฒ์ ๋ถ๋ถ ๊ฐ๋ฆผ์ด ์ผ์ด๋ ๋ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค.
- Generative ๋ฐฉ๋ฒ์ ํธ๋ ๋ชจ๋ธ์ ์ด๋ํ์ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ์ฌ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ํธ๋ ํฌ์ฆ ๊ฐ์ค์ ์ด์ ์ ๊ฐ์ง๋ค.
GANerated, ๋ฐฉ๋ฒ2 ๋ 2D ๊ด์ ์์น๋ฅผ ์์ธกํ ํ 3D๋ก ๋ฆฌํํธํจ.
- ์ ์ํ ๋ฐฉ๋ฒ์ Discriminative ๋ฐฉ๋ฒ๊ณผ Generative ๋ฐฉ๋ฒ ๋ชจ๋์ ๊ด๋ จ์๋ค. Generative ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ธ๋ก๋ฒ ์ต์ ํ ํ๋ ์์ํฌ ๋ด์์ ํฌ์ฆ ์ด๋ ธํ ์ด์ ์ ์์ฑํ๋ค. Discriminative ๋ฐฉ๋ฒ์ ์ด ๋ณต์กํ ์ต์ ํ๋ฅผ ์ด๊ธฐํํ๊ธฐ ์ํด ์ฌ์ฉํ๋ค.
2.3. Synthetic Images for 3D Pose Estimation
- ์ค์ ์ด๋ฏธ์ง์ ๋ํ ์ด๋ ธํ ์ด์ ์ ํ๋ํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์, ํฉ์ฑ ๋ฐ์ดํฐ์ ๋ํ Discriminative ๋ฐฉ๋ฒ์ ํ์ตํ ์ ์๋ ๊ฒ์ ๊ฐ์น๊ฐ ์๋ค.
- ์์ ํฉ์ฑ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ค ์ฌ์ค์ ์ผ๋ก(์ค์ ์ฒ๋ผ) ๋ง๋ค๊ธฐ ์ํด GAN ์ ์ฌ์ฉํ GANerated
- ํฉ์ฑ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ๋งค๋ ฅ์ ์ด์ง๋ง ๊ฐ์ ์ฅ๋ฉด(Scene)์ ๋ง๋ค๊ธฐ ์ํด ๋น์ฉ๊ณผ ์๊ฐ์ด ๋ง์ด ๋ ๋ค.
2.4. Joint Hand+Object Pose Estimation
- ๊ณต๋ ์+๊ฐ์ฒด ํฌ์ฆ ์ถ์ ์ ์ํ ์ด๊ธฐ ํฌ์ฆ ์ถ์ ๋ฐฉ๋ฒ์ ์ผ๋ฐ์ ์ผ๋ก ๋ฉํฐ๋ทฐ ์นด๋ฉ๋ผ ์ ์ ๊ณผ ํ๋ ์ ๋ฐ์ด ํ๋ ์ ํธ๋ํน ๋ฐฉ๋ฒ์ ์์กด ํ์ผ๋ฉฐ, ์ด๋ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋ฐ์ํ๋ ๋๋ฆฌํํธ ์ค๋ฅ๋ ์ด๊ธฐํ์ ๋ํด ์ฃผ์๊ฐ ํ์ํ๋ค.
- A ๋ฐฉ๋ฒ์ RGB-D ๊ฐ์ฒด ํ์ ์ค์บ๋์ ์ํด ์๊ฐ๋ฝ ์ ์ด์ ์ ์ถ์ ํ๋ ์์ฑ ๋ฐฉ๋ฒ์ ์ ์ํจ.
- B ๋ฐฉ๋ฒ์ RGB-D ์์ ์๊ณผ ๋ฌผ์ฒด์ ํ๋ ์ ๊ฐ ์ถ์ ์ ์ํด ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์ 3D ๋ ๋๋ฌ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์ ์ํจ.
- C ๋ฐฉ๋ฒ์ RGB-D ์ด๋ฏธ์ง์์ ๋ค์ค ๊ฐ์ฒด ๋ฐ ๋ค์ค ์ ์ถ์ ์ ์ํด Collaborative Tracker์ ์์๋ธ์ ์ฌ์ฉํจ.
- ์ด๋ฌํ ๋ฐฉ๋ฒ์ ์ ํ๋๋ ์ง์ ์ผ๋ก ๋์ ๊ฒ์ผ๋ก ๋ณด์ด์ง๋ง, ์ค์ ํ๊ฒฝ์์ ์ค์ธก ์๋ฃ ์์ง์ด ์ด๋ ค์ด ๊ฒ์ผ๋ก ์๋ ค์ ธ ์๊ธฐ ๋๋ฌธ์ ํฉ์ฑ ๋ฐ์ดํฐ ์ธํธ์ ๋ํด ์ ์๋ ๋ฐฉ๋ฒ์ ํ๊ฐํ๊ฑฐ๋, ํ์
์๋๋ฆฌ์ค ์ค ์ ๋๋ ๋ฌผ์ฒด ์์ธ ์ฐจ์ด์ ํ์ค ํธ์ฐจ๋ฅผ ์ธก์ ํ์ฌ ํ๊ฐํ๋ค.
2.5. Hand+Object Datasets
-
์+๊ฐ์ฒด ์ํธ ์์ฉ์ ์ํ ์ฌ๋ฌ ๋ฐ์ดํฐ ์ธํธ๊ฐ ์ด๋ฏธ ์ ์๋์์ง๋ง, ๋๋ถ๋ถ ๊ทธ๋ฉ๊ณผ ๋์ ๋ ์ด๋ธ๋ง์ ์ด์ ์ ๋๊ณ , 3D ํฌ์ฆ๋ฅผ ์ ๊ณตํ์ง ์๋๋ค.
-
๋ฐฉ๋ฒ 54๋ ํ๋ธ๋ฅผ ์กฐ์ํ๋ ์์ RGB-D ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ ์ํ๋๋ฐ, ์ฌ๊ธฐ์๋ ํ๋ธ์ ํ๊ฑฐํ ์์น์ 3D ํฌ์ฆ ๋ชจ๋์ ๋ํ ์๋ ์ค์ธก ์ ๋ณด๊ฐ ํฌํจ๋์ด ์๋ค.
- ๋ฐฉ๋ฒ 15 ๋ ์ ๊ด์ ๊ณผ ๋ฌผ์ฒด ํฌ์ฆ ๋ชจ๋์ ๋ํ 3D ์ฃผ์์ ๊ฐ์ง ์๊ณผ ๋ฌผ์ฒด ์ํธ ์์ฉ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ ๊ณตํ๋ค. RGB-D ๋น๋์ค ์ํ์ค์์ ์ 3D ํฌ์ฆ ์ฃผ์์ ์ป๊ธฐ ์ํด ์ฌ์ฉ์์ ์๊ณผ ๋ฌผ์ฒด์ ๋ถ์ฐฉ๋ ์๊ธฐ ์ผ์๋ก ๋ง๋ค์ด์ง ๋ชจ์ ์บก์ฒ ์์คํ ์ ์ฌ์ฉํ๋ค. ๊ทธ๋ฌ๋ ์ด๋ ์ปฌ๋ฌ ์ด๋ฏธ์ง์์ ์ผ์์ ์ผ์๋ฅผ ๋ถ์ฐฉํ๋ ํ ์ดํ๊ฐ ๋ณด์ด๋ ๋ฌธ์ ๊ฐ ์๋ค.
-
์ต๊ทผ ObMan, 2019 ์์ด ๋ฌผ์ฒด๋ฅผ ์ก๋ ๋๊ท๋ชจ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ์๊ฐํจ. ๋ฐ์ดํฐ์ธํธ๋ ํฉ์ฑ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋์ด์๊ณ ๋ก๋ด ๊ณตํ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์์ฑ๋จ.
-
FeriHAND, 2019 ๋ ์-๊ฐ์ฒด ์ํธ ์์ฉ์ ํฌํจํ๋ ๋ฉํฐ ๋ทฐ RGB ๋ฐ์ดํฐ์ธํธ๋ฅผ ์ ์ํ์์ผ๋, ์ฃผ์์ ์์ 3D ํฌ์ฆ์ ๋ชจ์๋ง ์๋ค.
-
๋ น์ ํ๋ฉด ๋ฐฐ๊ฒฝ ํ๊ฒฝ์์ ์ฌ๋ฌ RGB ์นด๋ฉ๋ผ๋ก๋ถํฐ ์ฃผ์์ ์ป๊ธฐ ์ํด human-in-the-loop ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
์ ์๋ฐฉ๋ฒ
์ ์ํ ๋ฐฉ๋ฒ์ ์์ ์๋ํ๋ก ์ด๋ ธํ ์ด์ ์ ํ๊ณ , HO-3D ๋ฐ์ดํฐ์ธํธ๋ ์ค์ ์ด๋ฏธ์ง์ ๋ํ 3D ์ ๊ด์ ๊ณผ 3D ๋ฌผ์ฒด ํฌ์ฆ ์ฃผ์์ ๋ชจ๋ ์ ๊ณตํ๋ ์ต์ด์ ๋ง์ปค ์๋ ๋ฐ์ดํฐ์ธํธ์ด๋ค
3. 3D Annotation Method
- (3.1) 3D ์๊ณผ ๋ฌผ์ฒด ํฌ์ฆ๋ฅผ ์ ์
- (3.2) ๋น์ฉํจ์ ์ ์
- (4.1, 4.2) ํฌ์ฆ๋ฅผ ์๋์ผ๋ก ์ด๊ธฐํํ๊ณ ์ฌ๋ฌ ๋จ๊ณ์์ ์ต์ ํํ๋ ๋ฐฉ๋ฒ
3.1. 3D Hand and Object Poses
- ์ํ์ค์ ๋ชจ๋ ์ด๋ฏธ์ง์์ ๊ฐ์ฒด์ ์์ 3D ์์ธ๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ๋ชฉํ๋กํจ
- MANO ํธ๋ ๋ชจ๋ธ์ ์ฑํํ๊ณ YCB-Video dataset ์ ์ฌ์ฉํ๋ค. ํด๋น 3D ๋ชจ๋ธ์ด ์ฌ์ฉ๊ฐ๋ฅํ๊ณ ํ์ง์ด ์ข๊ธฐ ๋๋ฌธ์.
- MANO ํธ๋ ํฌ์ฆ๋ 51 DoF = 45 DoF (15๊ฐ ์๊ฐ๋ฝ ๊ด์ ๋ง๋ค 3 DoF ์ฉ ) + ์๋ชฉ ๊ด์ ์ 6 DoF (ํ์ 3, ์ด๋ 3) ๋ก ๊ตฌ์ฑ๋์ด์๋ค.
- ์๋ชฉ๊ด์ ๊ณผ 15๊ฐ์ ๊ด์ ์ ์๋ชฉ๊ด์ ๋ ธ๋๋ฅผ ์ฒซ ๋ฒ์งธ ๋ถ๋ชจ ๋ ธ๋๋ก ํ๋ ์ด๋ํ์ ํธ๋ฆฌ๋ฅผ ํ์ฑํจ.
- ํฌ์ฆ ํ๋ผ๋ฏธํฐ ์ธ์๋, ํธ๋ ๋ชจ๋ธ์๋ shape ํ๋ผ๋ฏธํฐ ๊ฐ ์๊ณ ๋ฐฉ๋ฒ58๊ณผ ์ ์ฌํ๊ฒ ์ถ์ ํ๋ค.
3.2. Cost Function
- ์ + ๋ฌผ์ฒด ํฌ์ฆ ์ถ์ ์ energy minimization ์ผ๋ก ๊ณต์ํ:
์ด๋, ์ ๋ ๋ฐ์ดํฐ ํญ๊ณผ ์ ์ฝ์กฐ๊ฑด์ ๋ํ๋ธ๋ค.
- ๋จผ์ ๋ฅผ ๋ณด๋ฉด,
- : ์ค๋ฃจ์ฃ ๋ถ์ผ์น ํญ
- : Depth residual ํญ
- : 2D ํธ๋ ์กฐ์ธํธ ์์น ์๋ฌ
- : 3D error ํญ
- ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
- : ๋ถ์์ฐ์ค๋ฌ์ด ํฌ์ฆ๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ์์ ์ฌ์ ํฌ์ฆ
- : ์๊ณผ ๋ฌผ์ฒด๊ฐ ์๋ก ๊ฒน์น์ง ์๋๋ก ํ๋ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ
- : ์๊ฐ์ ์ผ๊ด์ฑ
Silhouette discrepancy term
์ค๋ฃจ์ฃ ๋ถ์ผ์น ํญ (Silhouette discrepancy term)
- (ํ์ฌ ์ถ์ ๋ ํฌ์ฆ๋ก ๋ ๋๋ง๋ ์๊ณผ ๊ฐ์ฒด์ ์ค๋ฃจ์ฃ)๊ณผ ๊ทธ๋ค์(์ธ๊ทธ๋ฉํ
์ด์
๋ง์คํฌ)์ ๋น๊ตํ๋ค.
- ๋ ์นด๋ฉ๋ผ ์์ ๋ ๋๋ง๋ ์๊ณผ ๊ฐ์ฒด์ ์ค๋ฃจ์ฃ
- ์๊ณผ ๋ฌผ์ฒด ๋ชจ๋ธ์ ์์ธ ๋งค๊ฐ ๋ณ์์ ๊ด๋ จ๋ ๋ฐฉ์ ์์ ๋ํจ์๋ฅผ ๊ณ์ฐํ ์ ์๋ ๋ฏธ๋ถ ๋ ๋๋ฌ๋ฅผ ์ฌ์ฉํ์ฌ ์นด๋ฉ๋ผ ํ๋ฉด์์ ๋ ๋๋ง๋๋ค.
- ์ธ๊ทธ๋ฉํ ์ด์ ๋ ์นด๋ฉ๋ผ ์ ์ปฌ๋ฌ ์ด๋ฏธ์ง ์์ ์ป๋๋ค. (YCB ๋ฌผ์ฒด์ ์์ ์ด๋ฏธ์ง๋ฅผ ์ค๋ฒ๋ ์ด, ์ธ๋๋ ์ด ํ์ฌ ํฉ์ฑํ ์ด๋ฏธ์ง๋ก ํ์ต๋ DeepLabv3๋ฅผ ์ด์ฉํจ)
Depth residual term
Depth residual term
- ์๊ณผ ๋ฌผ์ฒด์ Depth Map ๋ ๋๋ง๊ณผ ์นด๋ฉ๋ผ ์์ ์ดฌ์๋ Depth Map์ ๋น๊ตํ๋ค.
- ๋ ํ์ฌ ์ถ์ ๋ ์๊ณผ ๊ฐ์ฒด์ ํฌ์ฆ์ Depth ๋ ๋๋ง
- ๋ ์นด๋ฉ๋ผ ์์ ์ป์ Depth.
- ๋ฏธ๋ถ ๋ ๋๋ฌ๋ฅผ ์ฌ์ฉํ์ฌ Depth Map์ด ๋ ๋๋ง ๋๋ค.
2D Joint error term
2D ํธ๋ ์กฐ์ธํธ ์์น ์๋ฌ (2D Joint error term)
- ==21๊ฐ์ ์ ๊ด์ ์ 15๊ฐ์ ์๊ฐ๋ฝ ๊ด์ , 5๊ฐ์ ์๊ฐ๋ฝ ๋, ์๋ชฉ ๊ด์ ๋ก ๊ตฌ์ฑ๋์ด ์์==
- ๋ ํธ๋ํฌ์ฆ ์ ๋ฒ์งธ 3D ์ ๊ด์ ์์น
- ๋ ๋ฅผ ์นด๋ฉ๋ผ ์ ํฌ์
- ๋ ์์ธก๋ 2D ์์น
- ๋ ์ปจํผ๋์ค
- ํํธ๋งต์์ ๋ ์ต๋ ๊ฐ์ ์์น์ด๊ณ , ์ ์ต๋ ๊ฐ ๊ทธ ์์ฒด.
- ํํธ๋งต์ ์์ธกํ๊ธฐ ์ํด์ CNN ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ํคํ ์ฒ CPM์ ํ์ตํ๋ค.
- ํ์ต ๋ฐ์ดํฐ์
์ ์ฐ๋ฆฌ์ ๋ฐ์๋ ๋ฐฉ๋ฒ์ผ๋ก์์ฑ๋ ์ด๊ธฐ ๋ฐ์ดํฐ์
(๊ฐ ์ํ์ค์ ์ฒซ ๋ฒ์งธ ํ๋ ์์ ๋ํ ๊ทธ๋ฆฝ ํฌ์ฆ์ ๊ฐ์ฒด ํฌ์ฆ๋ฅผ ์๋์ผ๋ก ์ด๊ธฐํ, ๊ทธ ํ ์ต์ ํ)๊ณผ Panoptic Studio Dataset
3D error term
3D ์๋ฌ ํญ (3D error term)
- ํญ์์ ๋ชจ๋ ์นด๋ฉ๋ผ์ ๊น์ด ์ ๋ณด๊ฐ ์ฌ์ฉ๋๋ฏ๋ก ๋ฐ๋์ ํ์ํ์ง๋ ์์ง๋ง, ์ต์๊ฐ ์๋ ด์ ๊ฐ์ํ ํ๋๋ฐ ๋์์ด ๋๋ค.
- RGB-D ์นด๋ฉ๋ผ๋ค์ ๊น์ด ๋งต์ ๊ธฐ์ค ํ๋ ์์ผ๋ก ๋ณํ ํ ์ด๋ฅผ ๋ณํฉํ์ฌ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ฅผ ๊ตฌ์ถํ๋ค.
- ๊ฐ ์นด๋ฉ๋ผ ์ด๋ฏธ์ง์ ์ธ๊ทธ๋ฉํ ์ด์ ๋ง์คํฌ ๋ฅผ ์ด์ฉํด ์์ ๊ฐ์ฒด ํฌ์ธํธ ํด๋ผ์ฐ๋ ์ ํธ๋ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ฅผ ๋ถํ ํ๋ค.
- ์ต์ ํ์ ๊ฐ ๋ฐ๋ณต๊ณผ์ ์์ ํฌ์ธํธ ํด๋ผ์ฐ๋์ mesh ๊ฐ (๊ฐ์ฒด ํฌ์ธํธ - ๊ฐ์ฒด mesh์ vertex), (ํธ๋ ํฌ์ธํธ - ํธ๋ mesh์ vertex) ๊ฐ๊ฐ ๊ฐ์ฅ ๊ฐ๊น์ด ์์ ์ฐพ์ ์๋ก ๋น๊ตํ๋ค.
Joint angle constraint
๊ด์ ๊ฐ๋ ์ ์ฝ (Joint angle constraint)
- ๊ฒฐ๊ณผ ํฌ์ฆ์ ์์ฐ์ค๋ฌ์์ ๋ณด์ฅํ๊ธฐ์ํด ์์ 15๊ฐ ๊ด์ ์ ์ ํ์ ๋๋ค.
- ๊ด์ ์ 3์ฐจ์ ํ์ ์ MANO ๋ชจ๋ธ์์ ์ถ ๊ฐ๋ ํํ์ ์ฌ์ฉํ์ฌ ๋งค๊ฐ๋ณ์ํ ๋์ด 45๊ฐ์ ๊ด์ ๊ฐ๋ ๋งค๊ฐ๋ณ์๊ฐ ์์ฑ๋๋ค.
- ๋ ์์ ๋ฒ์งธ ๊ด์ ๊ฐ๋ ํ๋ผ๋ฏธํฐ
- ๋ lower limit, ๋ upper limit
Physical plausibility
๋ฌผ๋ฆฌ์ ํ๋น์ฑ (Physical plausibility)
- ์ต์ ํ ์ค์ ํธ๋ ๋ชจ๋ธ์ ๊ฐ์ฒด ๋ชจ๋ธ์ ๊ดํตํ ์ ์์ผ๋ฉฐ, ์ด๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ๋ค. ์ด๋ฅผ ํผํ๊ธฐ ์ํด ๋ฌผ์ฒด์ ์์ด ์๋ก ์นจํฌํ ๊ฒฝ์ฐ ์๋ก ๋ฐ์ด๋ด๋ ํญ.
- ๊ฐ ํธ๋ vertex ์ ๋ํด, ๊ดํตํ๋ ์ ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
๋ ํธ๋ vertex์ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฐ์ฒด vertex ๋ vertex์ ๋ ธ๋ฉ ๋ฒกํฐ
- ์ฆ, ์นจํฌ๋์ ์ ๊ผญ์ง์ ๊ณผ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ฌผ์ฒด ๊ผญ์ง์ ์ ์ฐ๊ฒฐํ๋ ๋ฒกํฐ๋ฅผ ๋ฌผ์ฒด ๊ผญ์ง์ ์์น์ ์ ๊ท ๋ฒกํฐ์ ํฌ์ํจ์ผ๋ก์จ ์ถ์ ๋๋ค.
Temporal consistency
์๊ฐ์ ์ผ๊ด์ฑ (Temporal consistency)
- ์ด์ ํญ๋ค์ ๋ชจ๋ ๊ฐ ํ๋ ์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ ์ฉ๋์ง๋ง, ํด๋น ํญ์ ๋ชจ๋ ํ๋ ์์ ๋ํ ํฌ์ฆ๋ฅผ ํจ๊ป ์ ํํ ์ ์๋ค.
4. Optimization
- Eq(1) ์ต์ ํ๋ ์ถ์ ํด์ผ ํ ๋งค๊ฐ ๋ณ์๊ฐ ๋ง์ ๋งค์ฐ ๋น๋ณผ๋ก ๋ฌธ์ ์ด๊ธฐ ๋๋ฌธ์ ์ด๋ ค์ด ์์ ์ด๋ฏ๋ก, ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ฌ๋ฌ ๋จ๊ณ์์ ์ต์ ํ๋ฅผ ์ํํ๋ค.
4.1. Multi-Camera Setup
Initialization
- ๋ฉํฐ์นด๋ฉ๋ผ ํ๊ฒฝ์์, ์ฒซ ๋ฒ์งธ ํ๋ ์()์์ ํธ๋ ํฌ์ฆ์ ๋ํ ์ฒซ ๋ฒ์งธ ์ถ์ ๋ ์์ ์์ ํตํด ์ป๋๋ค.
- Dogleg optimizer ์ฌ์ฉ
- ์ฒซ ๋ฒ์งธ ๊ฐ์ฒด ํฌ์ฆ ์ถ์ ๋ YCB ๋ฌผ์ฒด์ ์์ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋ BB8 ๋ฐฉ๋ฒ์ ํตํด ์ป๋๋ค.
์ฐธ๊ณ
-
https://arxiv.org/abs/1907.01481 (HOnnotate)
-
https://arxiv.org/abs/1810.03707 (Domain Transfer for 3D Pose Estimation from Color Images without Manual Annotations)
-
https://arxiv.org/abs/2201.02610 (Embodied Hands: Modeling and Capturing Hands and Bodies Together, MANO)
-
https://arxiv.org/abs/1904.05767 (Learning joint reconstruction of hands and manipulated objects, ObMan)
-
https://openaccess.thecvf.com/content_cvpr_2018/papers/Mueller_GANerated_Hands_for_CVPR_2018_paper.pdf (GANerated Hands for Real-Time 3D Hand Tracking from Monocular RGB)
-
https://arxiv.org/abs/1712.03866 (Using a single RGB frame for real time 3D hand pose estimation in the wild)
-
https://arxiv.org/abs/1602.00134 (**CPM: ** Convolutional Pose Machines)
-
https://www.cs.toronto.edu/~jtaylor/papers/CVPR2016-FitsLikeAGlove.pdf (Fits Like a Glove: Rapid and Reliable Hand Shape Personalization.)
-
https://arxiv.org/abs/1703.10896 (BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Poses of Challenging Objects without Using Depth)
-
(์ ์ฌ ๋ฐ์ดํฐ์ ) https://arxiv.org/abs/1610.04889 (Real-time Joint Tracking of a Hand Manipulating an Object from RGB-D Input)
-
(์ ์ฌ ๋ฐ์ดํฐ์ ) https://arxiv.org/abs/1704.02463 (First-Person Hand Action Benchmark with RGB-D Videos and 3D Hand Pose Annotations)
-
(์ ์ฌ ๋ฐ์ดํฐ์ ) https://arxiv.org/abs/1909.04349 (FreiHAND: A Dataset for Markerless Capture of Hand Pose and Shape from Single RGB Images)
-
(์ ์ฌ ๋ฐ์ดํฐ์ ) https://grab.is.tue.mpg.de/ (GRAB)
-
(์ฝํ ํธ ๊ด๋ จ1) https://arxiv.org/abs/2208.00874 (S2Contact: Graph-based Network for 3D Hand-Object Contact Estimation with Semi-Supervised Learning, ๊ธฐ์กด์๋ ์ด ์นด๋ฉ๋ผ๊ฐ ์กฐ์๋ ๋ฌผ์ฒด์ ๋จ์ ์๋ ์๋ฅ ์ด์ ๊ด์ฐฐํ๋ ๋ฑ์ ์ ํ๋ ์ค์ ์ผ๋ก ์ ํ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ๋จ์ ์ด๋ฏธ์ง์์ ์ ์ด์ ํ์ตํ ์ ์๋ ์๋ก์ด ์ค์ง๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.)
-
(์ฝํ ํธ ๊ด๋ จ2) https://arxiv.org/abs/2104.03304 (Hand-Object Contact Consistency Reasoning for Human Grasps Generation)
-
(์ฝํ ํธ ๊ด๋ จ3) https://arxiv.org/abs/1904.06830 (ContactDB: Analyzing and Predicting Grasp Contact via Thermal Imaging, ContactDB๋ ์ปจํ ๋งต์ผ๋ก ์ง๊ฐ ์ฒ๋ฆฌ๋ 50๊ฐ์ ๊ฐ์ ์ฉ ๊ฐ์ฒด์ 3750 3D ๋ฉ์์ ๋๊ธฐํ๋ RGB-D+ ์ด ์ด๋ฏธ์ง์ 375K ํ๋ ์์ ํฌํจํ)
-
(์ฝํ ํธ ๊ด๋ จ4) https://arxiv.org/abs/2104.07267 (ContactOpt: Optimizing Contact to Improve Grasps)
-
(์ฝํ ํธ ๊ด๋ จ5) https://arxiv.org/abs/2007.09545 (ContactPose: A Dataset of Grasps with Object Contact and Hand Pose)