トップコンファレンス4-1 パターン認識・メディア理解
2024/9/5 9:30-12:00
第4イベント会場

座長:住吉 信一(デンソーアイティーラボラトリ)

9:30-9:50 講演(1) 【タイトル邦題】 一人称視点3次元手姿勢推定のための単一視点から二視点画像への適応
大川 武彦(東京大学 大学院情報理工学系研究科 博士課程学生)
【原発表の書誌情報】 Liu, R., Ohkawa, T., Zhang, M., Sato Y.: Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose Estimation, Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 667-686 (2024).
【概要】 本研究では,既存の単一の一人称視点からの3次元手姿勢推定手法に対し,複数カメラ視点の制約を利用した適応手法S2DHandを提案する.S2DHandは複数視点のアノテーションを必要とせず,未知のカメラパラメータでも対応可能になるように設計し,評価の結果,既存手法を上回る性能を示すことが確認された.
【略歴】 大川武彦は東京大学大学院情報理工学系研究科の博士課程に在籍している.彼はチューリッヒ工科大学(2023年)とカーネギーメロン大学(2021年)での研究滞在経験があり,Meta Reality Labs(2022/24年)とオムロンサイニックエックス(2020/23年)での産業インターンも行なった.2020年から2023年までJST ACT-Xプロジェクトの研究を実施し,2022年から2024年までJSPS特別研究員(DC1)として活動した.また,Microsoft Research AsiaとETH Zurich Leading House Asiaからの助成金も受けた.
9:50-10:10 講演(2) 【タイトル邦題】 画像生成AIが将来のモデルにおける社会的なバイアスを増強するか?
Chen Tianwei(大阪大学)
【原発表の書誌情報】 Chen, T., Hirota Y., Otani, M., Garcia N., Nakashima, Y.: Would Deep Generative Models Amplify Bias in Future Models?, Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.10833-10843 (2024).
【概要】 近年、画像生成AIによって生成された画像がインターネット上で大量に共有されている一方で、最近の画像生成AIには強いバイアスがあること(ここでは特定の人種や性別が多くなったり、特定の属性を持つ人に関して性能が落ちるような偏りを指します)が多くの研究で示されており、インターネットに社会的なバイアスを増幅させる恐れがあります。本研究では、Stable Diffusionのような画像生成AIが、将来のモデルにおける社会的なバイアスにどのような影響を及ぼすかを分析しています。
【略歴】 Tianwei Chen received his B.S. degree from the University of Electronic Science and Technology of China in 2017, and his M.S. in informatics from Kyoto University in 2020. He is currently a Ph.D. student at Osaka University. His research interests include vision-and-language tasks, artwork analysis, and emotion analysis.
10:10-10:30 講演(3) 【タイトル邦題】 検索拡張型トランスフォーマーを用いたコンテンツを考慮したレイアウト生成
堀田 大地(東京大学 大学院情報理工学系研究科電子情報学専攻相澤研究室 博士課程)
【原発表の書誌情報】 Daichi Horita, Naoto Inoue, Kotaro Kikuchi, Kota Yamaguchi, Kiyoharu Aizawa, Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation. The IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR), 2024.
【概要】 検索補強レイアウト変換器(RALF)と名付けられた我々のモデルは、入力画像に基づいて最近傍レイアウト例を検索し、これらの結果を自己回帰生成器に与える。我々の広範な実験により、RALFはベースラインを大幅に上回ることが示された。
【略歴】 2022年東京大学大学院情報理工学系研究科修士課程修了. 同年より同大学院博士課程に在学。2022年より日本学術振興会特別研究員DC1。未踏スーパークリエータ。現在はコンピュータビジョン&グラフィクス分野に関する研究に従事。
10:30-10:50 講演(4) 【タイトル邦題】 生成データは将来収集するデータセットを汚染するか?
幡谷 龍一郎(理化学研究所革新知能統合研究センター 高次元因果解析チーム 特別研究員)
【原発表の書誌情報】 Ryuichiro Hataya, Han Bao, Hiromi Arai, "Will Large-scale Generative Models Corrupt Future Datasets?"ICCV 2023.
【概要】 高性能な生成モデルの生成した精緻なデータがインターネット上でも観察されるようになっている。そのため、将来インターネットから収集しデータセットを構築した場合には、データセットが生成データによって「汚染」されると考えられる。本研究ではこのような汚染が起こす深層モデルの性能への影響を、特にコンピュータビジョンについて実験的に調査した。
【略歴】 2023年11月より現職。
2022年9月に東京大学大学院情報理工学系研究科より博士(情報理工学)を取得。
10:50-11:10 講演(5) 【タイトル邦題】 Source-freeドメイン適応の理論側面からの解釈と理論に基づく改良手法
三鼓 悠(日本電信電話株式会社 / 京都大学 コミュニケーション科学基礎研究所 メディア情報研究部 メディア認識研究グループ / 大学院情報学研究科知能情報学コース鹿島研究室 研究員 / 博士後期課程学生)
【原発表の書誌情報】 Mitsuzumi, Y., Kimura, A., Kashima, H.: Understanding and Improving Source-free Domain Adaptation from a Theoretical Perspective, Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024.
【概要】 本研究では、学習済みのモデルと教師なしターゲットドメインのデータのみからターゲットドメインに適応したモデルを訓練する問題であるSource-freeドメイン適応について、Expansion Assumptionに基づくSelf-Trainingの理論を用いて、既存の適応手法がなぜうまく機能しているのかについての解釈を与えるとともに、理論的な知見に基づいた、既存手法を改善可能な新たな適応手法を提案した。
【略歴】 2019年京都大学大学院情報学研究科修士課程修了。同年、日本電信電話株式会社に入社、ドメイン適応に関する研究に従事。2023年京都大学情報学研究科博士課程進学。
11:10-11:30 講演(6) 【タイトル邦題】 Motion Patchesを用いた3D Human Motion-Language ModelsにおけるVision Transformersの探求
Yu Qing(LINEヤフー Virtual Human Lab リサーチサイエンティスト)
【原発表の書誌情報】 Yu, Q., Tanaka, M., Fujiwara, K.: Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches, Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.937-946 (2024).
【概要】 3Dヒューマンモーションと言語間のクロスモーダルな潜在空間を構築するためには、大規模で高品質なヒューマンモーションデータの取得が重要である。しかし、画像データの豊富さとは対照的に、モーションデータの不足は既存のMotion-Language Modelの性能を制限している。これに対処するため、新たなモーションシーケンス表現である「Motion Patches」を導入し、Vision Transformer (ViT)を転移学習を通じてMotion Encoderとして使用することを提案する。これにより、画像領域からの知識をモーション領域に適用することで、様々なデータセットやタスクにおいて高い性能を達成した。
【略歴】 2023年に東京大学大学院情報理工学系研究科博士後期課程修了。博士(情報理工学)。在学中、日本学術振興会特別研究員DC1として活動し、2023年にLINEヤフー株式会社入社。 Virtual Human Labにて、コンピュータビジョン関連の研究開発に従事。
11:30-11:50 講演(7) 【タイトル邦題】 見落としに着目した物体検出向け能動ドメイン適応
中村 譲(パナソニック ホールディングス株式会社 テクノロジー本部 主任技師)
【原発表の書誌情報】 Nakamura, Y., Ishii, Y., Yamashita, T.: Active Domain Adaptation with False Negative Prediction for Object Detection, Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 28782-28792 (2024).
【概要】 物体の検出不能性を定量化する物体検出向け能動ドメイン適応を提案する.不確実性と検出不能性の双方の指標から学習に効果的なデータを選定する能動学習戦略により,数%のラベル付け比率で完全教師有り学習時と同等に近い性能を達成した.
【略歴】 2012年同志社大学大学院工学研究科情報工学専攻修士課程修了.同年,パナソニック株式会社に入社し,住宅設備機器の設計開発に従事.2019年より深層学習を用いた画像認識の研究開発に従事し,2022年よりパナソニック ホールディングス株式会社所属となる.画像認識技術の実用化加速,適用範囲拡大を目的とした知識転移,ドメイン適応に関する研究開発に幅広く取り組む.