座長:橋本 敦史(OMRON SINIC X Corporation)
9:30-9:50 講演(1) 【タイトル邦題】 カメラと光源の相対位置を固定した多視点照度差ステレオによるニューラル3次元形状復元 | |
山藤 浩明(大阪大学 大学院情報科学研究科マルチメディア工学専攻コンピュータビジョン講座 助教) | |
【原発表の書誌情報】 Hiroaki Santo, Fumio Okura, Yasuyuki Matsushita: "MVCPS-NeuS: Multi-view Constrained Photometric Stereo for Neural Surface Reconstruction,"In Proc. of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (June, 2024). | |
【概要】 多視点照度差ステレオ法は,多視点観測による幾何的制約と,陰影情報による測光学的制約を組み合わせることで高精細な3次元形状復元を目指す手法である.本研究では,光源の絶対位置が未知であるが,カメラと光源間の相対位置が全視点で変化しない,という撮影条件に着目し,事前の光源校正が不要で,少数視点からの撮影で形状を推定する,簡便な手法を提案した. | |
![]() |
【略歴】 2021年3月 大阪大学大学院情報科学研究科 博士後期課程修了.博士(情報科学).同年4月より大阪大学大学院情報科学研究科マルチメディア工学専攻 助教.コンピュータビジョン及び機械学習の研究に従事. |
9:50-10:10 講演(2) 【タイトル邦題】 ラグランジアン粒子最適化を用いたPAC-NeRFに基づく幾何非依存システム同定の改善 | |
金子 卓弘(日本電信電話株式会社 コミュニケーション科学基礎研究所 特別研究員) | |
【原発表の書誌情報】 Kaneko, T.: Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization, Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5470-5480 (2024). | |
【概要】 多視点の動画から物体の幾何形状と物理特性を推定するシステム同定のタスクにおいて、ラグランジアン粒子最適化と呼ぶ新たな最適化手法を提案し、学習データが限られている状況においても精度よくシステム同定を行うことを可能にした。 | |
![]() |
【略歴】 2012年東京大学工学部卒業、2014年同大学院修士課程了。同年日本電信電話株式会社入社。2020年東京大学大学院博士課程了。同年から日本電信電話株式会社コミュニケーション科学基礎研究所特別研究員。画像生成、音声合成・変換を中心としたコンピュータビジョン、信号処理、機械学習の研究に従事。博士(情報理工学)。日本機械学会畠山賞、ICPR Best Student Paper Award、音声研究会研究奨励賞、東京大学大学院研究科長賞、電気通信普及財団テレコムシステム技術賞、日本音響学会粟屋潔学術奨励賞等を各受賞。 |
10:10-10:30 講演(3) 【タイトル邦題】 VSRD: 弱教師付き 3D オブジェクト検出のためのインスタンス認識型ボリューム シルエット レンダリング。 | |
Zihua Liu(東京工業大学 工学院システム制御系奥富田中研究室 学生) | |
【原発表の書誌情報】 Zihua Liu, Sakuma Hiroki,Masatoshi Okutomi, VSRD: Instance-Aware Volumetric Silhouette Rendering for Weakly Supervised 3D Object Detection. IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR2024) | |
【概要】 Monocular 3D object detection poses a significant challenge in 3D scene understanding due to its inherently ill-posed nature in monocular depth estimation. Existing methods heavily rely on supervised learning using abundant 3D labels, typically obtained through expensive and labor-intensive annotation on LiDAR point clouds. To tackle this problem, we propose a novel weakly supervised 3D object detection framework named VSRD (Volumetric Silhouette Rendering for Detection) to train 3D object detectors without any 3D supervision but only weak 2D supervision. VSRD consists of multi-view 3D auto-labeling and subsequent training of monocular 3D object detectors using the pseudo labels generated in the auto-labeling stage. In the auto-labeling stage, we represent the surface of each instance as a signed distance field (SDF) and render its silhouette as an instance mask through our proposed instance-aware volumetric silhouette rendering. To directly optimize the 3D bounding boxes through rendering, we decompose the SDF of each instance into the SDF of a cuboid and the residual distance field (RDF) that represents the residual from the cuboid. This mechanism enables us to optimize the 3D bounding boxes in an end-to-end manner by comparing the rendered instance masks with the ground truth instance masks. The optimized 3D bounding boxes serve as effective training data for 3D object detection. We conduct extensive experiments on the KITTI-360 dataset, demonstrating that our method outperforms the existing weakly supervised 3D object detection methods | |
![]() |
【略歴】 (1) 2020 年 6 月 華南理工大学 工学院 インタラクティブデザイン 卒業 (2) 2020 年 9 月 東京工業大学 工学院 システム制御コース 修士課程 入学 (3) 2023 年 3 月 東京工業大学 工学院 システム制御コース 修士課程 修了 (4) 2023 年 4 月 東京工業大学 工学院 システム制御コース 博士課程 進学、現在に至る |
10:30-10:50 講演(4) 【タイトル邦題】 符号化開口とイベントによる光線空間の高効率撮像 | |
羽渕 柊志(名古屋大学 大学院工学研究科情報・通信工学専攻藤井研究室 修士2年) | |
【原発表の書誌情報】 Habuchi, S., Takahashi, K., Tsutake, C., Fujii, T. and Nagahara, H.: Time-Efficient Light-Field Acquisition Using Coded Aperture and Events, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 24923-24933, (2024). | |
【概要】 符号化開口とイベントカメラを組み合わせた,時間効率の良い光線空間撮像法を提案する.従来の符号化開口法と異なり,提案手法ではフレーム画像の単一の露光時間中に符号化パターンを高速に切り替え,それに伴って発生する視差情報をイベントとして記録する.フレーム画像1枚およびこれと同時に得られたイベントから,高品質な光線空間を復元する. | |
![]() |
【略歴】 2023年名古屋大学工学部電気電子情報工学科卒業,同年名古屋大学大学院工学研究科情報・通信工学専攻博士前期課程に入学,現在在学中.藤井研究室にて,光線空間の撮像法についての研究に従事. |
10:50-11:10 講演(5) 【タイトル邦題】 ジオメトリとマテリアル推定のためのニューラルインシデントストークスフィールド | |
Li Chenhao(大阪大学 大学院情報科学研究科コンピュータサイエンス専攻知能センシング研究室 学生) | |
【原発表の書誌情報】 Li, C., Ono, T., Uemori, T., Mihara, H., Gatto, A., Nagahara, H., Moriuchi, Y. NeISF: Neural Incident Stokes Field for Geometry and Material Estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2024 (pp. 21434-21445). | |
【概要】 本研究の目的は、偏光センサーを用いてオブジェクトのジオメトリとマテリアルを同時に推定することである。既存の研究と比べて、マルチバウンスを考慮したことと微分可能な偏光レンダラーを使用したことにより新規性を持ち、推定精度を大幅に向上させた。 | |
![]() |
【略歴】 2021年、九州大学システム情報科学府にて修士を取得。現在は大阪大学情報科学研究科長原研究室でセンシング、3D コンピュータビジョンについて研究している。 |
11:10-11:30 講演(6) 【タイトル邦題】 局所制御可能な偏光投影を用いた偏光ビジョンアタック | |
Zhuoxiao Li(東京大学 情報理工研究科知能機械情報学 博士学生) | |
【原発表の書誌情報】 Li, Z., Zhong, Z., Nobuhara, S., Nishino, K., Zheng, Y.: Fooling Polarization Vision using Locally Controllable Polarization Projection, Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024 | |
【概要】 偏光は、表面の形状、材質、照明、視点のジオメトリに関する豊富な情報をエンコードする光の基本的な特性です。コンピュータビジョンの分野では、単一チップのモノクロ/カラー偏光センサーの登場により、反射除去、偏光からの形状復元 (SfP)、透明物体のセグメンテーション、色の恒常性など、偏光に基づくビジョンアプリケーションが急成長しています。しかし、偏光ベースのビジョンは敵対的な攻撃に対して脆弱でしょうか? もしそうなら、これらの攻撃を物理的な世界で、人間の目に感知されずに実現することは可能でしょうか? 本稿では、偏光ベースのビジョンの脆弱性について警告します。この脆弱性は、RGBベースのビジョンよりも深刻になる可能性があります。商業用LCDプロジェクターを改造することで、局所的に制御可能な偏光投影を実現し、これを用いて最先端の偏光ベースのビジョンアルゴリズム(ガラスセグメンテーションおよびSfP)を欺くことに成功しました。従来のRGBベースのビジョンに対する物理攻撃は、攻撃効果と目に見えるかどうかのトレードオフに悩まされていましたが、偏光投影に基づく敵対的攻撃者は接触不要で視覚的に知覚できないため、裸眼では偏光光と普通の照明の違いをほとんど認識できません。これにより、偏光ベースのビジョンに前例のないリスクが生じるため、十分な注意が払われ、対策が検討されるべきです。 | |
![]() |
【略歴】 BS course: 2014年~2018年 大連理工大学 2016年~2018年 立命館大学 MS course: 2018年~2021年 大連理工大学 DC course: 2021年~現在 東京大学 |
11:30-11:50 講演(7) 【タイトル邦題】 役割を考慮したテキストからの共同動作生成 | |
田中 幹大(LINEヤフー株式会社 ) | |
【原発表の書誌情報】 Mikihiro, T., Kent, F.: Role-aware Interaction Generation from Textual Description, Proc. of IEEE/CVF Intternational Conference on Computer Vision (ICCV), pp. 15999-16009, (2023) | |
【概要】 この研究では、テキストから2人の共同動作を生成する課題に取り組んでいる。2人の共同動作では、例えば「押す」と「押される」のように役割によって動作は大きく異なる。そこで、本研究では主体・受け手の動作に対してそれぞれ能動態・受動態を対応づけることで、役割を考慮した共同動作生成手法を提案する。ここで一般に高コストな主体と受け手のアノテーションコストを軽減するために、音源分離で用いられるPermutation Invariant Trainingと呼ばれる手法を導入し、モデルが自動的に主体と受け手を分離して生成できる手法も提案した。実験では、提案手法が言語に忠実かつ一貫性のある2人の共同動作を生成していることを示す。 | |
![]() |
【略歴】 2020年東京大学大学院情報理工学系研究科修士課程修了。2022年にLINE株式会社に入社し、合併により現在はLINEヤフー株式会社に所属。コンピュータビジョンに関する研究開発を行っている。 |