3D Object Detection based on Monocular Camera¶
Kamera monokular atau single camera atau kamera tunggal merupakan kamera yang biasa kita temui pada smartphone, SLR, kamera digital dll. Perbedaan kamera ini dengan kamera stereo adalah tidak adanya fitur kedalaman (depth feature) yang diperoleh secara langsung, yang mana pada 3D object detection membutuhkan adanya fitur tersebut. Walaupun demikian, penelitian terbaru menggunakan kamera monokular berhasil melakukan task 3D object detection walaupun tanpa fitur depth.
SMOKE¶
Single-Stage Monocular 3D Object Detection via Keypoint Estimation 1 merupakan model deteksi objek 3D berbasis keypoint estimation. Model ini menggunakan CenterNet sebagai basis model deteksinya. Implementasi dari model ini dapat dilihat pada ruhyadi/SMOKE, notebook juga dapat diakses pada Colab.
RTM3D¶
Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving 2 merupakan model deteksi objek 3D yang sama berbasis keypoint. Kelebihan model ini adalah dapat mendeteksi objek secara real-time, sehingga dapat diaplikasikan pada mikrokontroler (Raspberry Pi, Jetson Nano). Model ini juga menggunakan basis CenterNet, hanya saja menggunakan backbone ResNet18 yang lebih ringan. Implementasi dari model dapat dilihat pada ruhyadi/RTM3D-Jetson.
RTYOLO3D¶
Real-time YOLO 3D Object Detection merupakan pengembangan penulis untuk model pendeteksi objek 3D. Model ini menggunakan basis YOLOv5 (You Only Look Once) untuk deteksi objek 2D, dan VGG (untuk saat ini) sebagai pose estimation model. Model ini masih dalam tahap pengembangan, repository dapat diakses pada ruhyadi/YOLO3D_1, notebook dapat diakses pada Colab.
-
Liu, Zechen, Zizhang Wu, and Roland Tóth. "Smoke: Single-stage monocular 3d object detection via keypoint estimation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020. Original Repository: https://github.com/lzccccc/SMOKE ↩
-
Li, Peixuan, et al. "Rtm3d: Real-time monocular 3d detection from object keypoints for autonomous driving." Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part III 16. Springer International Publishing, 2020. Original Repository: https://github.com/Banconxuan/RTM3D ↩