本篇文章與個人期中報告同步
動機
以往我們的物件偵測,都是用2D框出來
因此輸入2D的照片,輸出的也是2D資訊。
這有什麼缺點?
這樣我們無法評估一個人能夠和這張圖的環境有什麼互動。
要解決這個問題,就要以3D的方式,表現出偵測到的3D物件。
觀察與發現
通常要表示一個3D世界,就要有一個3D的世界坐標系
而我們發現,房間的牆角剛好是呈現正交(Orthogonal)的
如果我們可以偵測出牆面和地板,或許就可以做出一個三維座標的模型
Lee et. al 提出一個 Room hypothesis ,可以從單張照片中判斷出不同牆面,以及地板。
剛好可以構成3D座標
voxel construction
確立了3D坐標系之後,就可以開始來建Voxel
我們假設整個3D坐標系的每一個點都有成為Voxel的可能
此時,我們來使用Hedal et. al的方法,來判斷一張2D影像中,
圖像可能為物件的可能性
接著,將剛才的3D voxel每個都投影回去2D
看看該2D的pixel的機率值是否大於0.5
如果是,就可以認為,那個voxel是存在的
此時,3D voxel組成的model就建好
但是,人類的家具大多是長方體
因此要進一步近似為長方體
Human workspace
最後,將人的模型也離散化為voxel,放入擺設看看,
如果可以放得進去的 就是適合人的位置
優缺點評析
優點:
1. 一種新穎的3D物件辨認方法
2. 結合了3D物件偵測 以及人類空間
缺點:
1. 每個voxel都要投影回2D,很花時間
2. 因為需要room hypothesis,所以只能在室內做
3. 單張2D能提供的資訊畢竟比3D少,所以還是會出問題
結論:
這篇提供的方法,只要會3D投影到2D,難度不會太難,
然而使用限制太多,是個嚴重的問題,
不過以voxel的概念去建立 human workspace,是很有意思的
參考資料:
Abhinav Gupta, Scott Satkin, Alexei A. Efros and Martial Hebert, From 3D Scene Geometry to Human Workspace, Computer Vision and Pattern Recognition, 2011. (PDF)
留言列表