RSS

[reiview] Semantic Structure From Motion with Points, Regions, and Objects

27 May

발표 : CVPR 2012

제목 : Semantic Structure From Motion with Points, Regions, and Objects

저자 : Sid Yingze Bao, Mohit Bagra, Yu-Wei Chao and Silvio Savarese

소속 : University of Michigan at Ann Arbor

‘semantic’ 자가 들어가는 논문은 3종류가 있다.  하나는 이 전에 리뷰한 ‘semantic bundle adjustment’, 또 하나는 이 논문 ‘semantic SfM’, 마지막 하나는 ‘semantic SLAM’ 이다. 사실 bundle adjustment와 SfM과의 차이를 잘 모르겠다.  BA는 대부분 SfM에서 쓰이니까 그게 그건가 하고 있다.  그렇다면 이 SSfM은 SBA랑 비슷할 것인가?

이 논문은 Bao 의 CVPR 2011년 논문의 확장판이다.  고려 대상을 region까지 넓힌 걸로 봐서는 2011 버전이 별로 신통치 않아서 그런건 아닐까?  일단 이 논문은 최적화 문제를 풀기위해 simulated annealing(SA)를 쓰고 있다.  아 아무래도 실시간은 가망없어 보이는데… SA의 에너지함수로 아래와 같은 걸 쓰고 있다.  에너지 최대화니까 결국 확률 형태로 바꿔서 최대 확률로 끌고 가겠구만…Clipboard01길기도 길다. 여기서 \mathbb{Q}는 3차원 점들과 시퀀스에서 2차원 점들의 대응관계, \mathbb{O}는 3차원 물체와 시퀀스에서의 2차원 물체와의 대응관계, \mathbb{B}는 3차원 region과 시퀀스에서의 2차원 region과의 대응관계, 마지막으로 \bf{C} 는 카메라 포즈 시퀸스이다.  즉, 가장 최적의 카메라 포즈 시퀀스, 3차원 점들의 위치와 그 들의 2차원 projection 점들의 시퀀스, 3차원 물체들의 위치와 그 들의 2차원 projection 시퀀스, 3차원 region의 위치와 그 들의 2차원 projection 시퀀스는

  • CVPR 2011 버전에서와 같이 각 3차원 점들에 대해 reprojection 에러를 최소화하거나 epipolar line과의 거리를 최소화하는 카메라 포즈들과 3차원 점들의 위치
  • CVPR 2011 버전에서와 같이 각 물체에 대해 projection 에러를 최소화하는 카메라 포즈들과 물체들의 포즈
  • 이건 도저히 모르겠음
    Clipboard06

SA의 과정은 아래 슈도코드와 같고, 각 initial guesses들에 대해서  \{ \bf{C}_{M}, \mathbb{O}^{M}, \mathbb{Q}^{M}, \mathbb{B}^{M} \}이 나오면 이 중에서 가장 maximum energy를 나타내는 것을 최종 solution으로 삼는다.

Clipboard01

여기서 for문 안에서 보면 실제로 sampling하는 대상은 카메라 포즈들이고 나머지는 주어진 카메라에 대해 최대화를 하는 과정에서 구해진다.

암튼 저자가 온갖 비싼 기법들을 다 썼는데, 과연 실제로 그게 가능했을까가 의문이 든다.

Advertisements
 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

 
%d bloggers like this: