FIT2023 第22回情報科学技術フォーラム

トップコンファレンス7-3 コンピュータビジョンとパターン認識2

2023/9/8 13:10-15:40
第6イベント会場

13:10-13:30 講演(1) 【タイトル邦題】暗黙的なニューラル表現を用いた可変長な人間動作の生成
Pablo　Cervantes（東京工業大学）
【原発表の書誌情報】 Cervantes, P., Sekikawa Y., Sato, I., Shinoda, K. "Implicit neural representations for variable length human motion generation." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.
【概要】 We propose an action-conditional human motion generation method using variational implicit neural representations (INR). The variational formalism enables action-conditional distributions of INRs, from which one can easily sample representations to generate novel human motion sequences. Our method offers variable-length sequence generation by construction because a part of INR is optimized for a whole sequence of arbitrary length with temporal embeddings. In contrast, previous works reported difficulties with modeling variable-length sequences. We confirm that our method with a Transformer decoder outperforms all relevant methods on HumanAct12, NTU-RGBD, and UESTC datasets in terms of realism and diversity of generated motions. Surprisingly, even our method with an MLP decoder consistently outperforms the state-of-the-art Transformer-based auto-encoder. In particular, we show that variable-length motions generated by our method are better than fixed-length motions generated by the state-of-the-art method in terms of realism and diversity.
	【略歴】 2018 ~ now Phd. Tokyo Institute of Technology, Tokyo, Japan 2015 - 2018 M.Sc. (joint) RWTH Aachen University, Aachen, Germany 2016 - 2018 M.Sc. (joint) Keio University, Tokyo, Japan
13:30-13:50 講演(2) 【タイトル邦題】傾きと魚眼歪み補正のための深層単画像カメラ校正用の一般カメラモデルの再考
若井　信彦（パナソニックホールディングス株式会社プラットフォーム本部シニアエンジニア）
【原発表の書誌情報】 Wakai, N., Sato, S., Ishii, Y., Yamashita, T.: Rethinking Generic Camera Models for Deep Single Image Camera Calibration to Recover Rotation and Fisheye Distortion, Proc. European Conference on Computer Vision (ECCV), vol. 13678, pp. 679–698 (2022). Springer.
【概要】深層単画像カメラ校正において，実魚眼カメラの複雑な歪みにより性能が低下する．この課題に対して，学習ベースのカメラ校正に適するカメラモデルを提案する．さらに，外部パラメータと内部パラメータのロスの大きさの偏りを低減する損失関数を提案する．実カメラと大規模データセットで，提案法が従来法を上回る性能であることを検証した．
	【略歴】 2014年東京大学大学院新領域創成科学研究科博士（科学）取得。同年、パナソニック株式会社に入社し、2022年よりパナソニックホールディングス株式会社所属となる．深層学習を用いた画像認識・画像処理・データ分析の研究開発に従事。数学的な理論に基づく画像処理やデータ分析に関して幅広く取り組む．東京大学大学院新領域創成科学研究科長賞（博士）受賞．
13:50-14:10 講演(3) 【タイトル邦題】 Rawgment: センサノイズを考慮したRAW画像Augmentationによる幅広い環境下での画像認識の実現
吉村　仁和（ソニーグループ株式会社 Visual Recognition Sec. 2, Foundation AI Lab, AI Technology Division, Technology Infrastructure Center 研究員）
【原発表の書誌情報】 Yoshimura, Masakazu and Otsuka, Junji and Irie, Atsushi and Ohashi, Takeshi: Rawgment: Noise-Accounted RAW Augmentation Enables Recognition in a Wide Variety of Environments, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.14007-14017 (2023)
【概要】暗所やボケ存在下などの困難な環境でも動作する画像認識器を実現するためのAugmentation手法を提案する。具体的には、sRGB画像の画素値が出来るまでの工程や物理的な画素値の意味を考慮し、RAW画像に対してAugmentationをかけ、そのAugmentationに応じてノイズ量を補正することで認識性能を大きく向上させられることを示した。
	【略歴】 2021年東京大学大学院工学系研究科機械工学専攻修士課程修了。同年、ソニーグループ株式会社 R&Dセンター Tokyo Laboratory19（現Technology Infrastructure Center, AI Technology Division, Foundation AI Lab, Visual Recognition Sec. 2）に入社。大学においては手術支援ロボット位置決め精度向上のための単眼内視鏡画像からの術具3次元位置姿勢推定に取り組み、現在は画像認識、信号処理技術の研究開発に従事。第1回JSCAS AI Challengeにて最優秀賞受賞。
14:10-14:30 講演(4) 【タイトル邦題】 Transformerを用いたグループ特徴量生成によるソーシャルグループ行動認識手法
田村　雅人（Hitachi America, Ltd. Big Data Analytics Solutions Lab ）
【原発表の書誌情報】 Masato Tamura, Rahul Vishwakarma, Ravigopal Vennelakanti; Hunting Group Clues with Transformers for Social Group Activity Recognition Proc. European Conference on Computer Vision (2022)
【概要】本研究では動画像における複数のグループのグループ構成員とその行動を認識するソーシャルグループ行動認識手法を開発した。従来は構成員の領域特徴量を活用していたが、本研究ではTransformerを用いてグループ毎の特徴量を生成する手法を提案した。
	【略歴】 2016年に東京大学大学院工学系研究科電気系工学専攻修士課程を修了後、日立製作所研究開発グループに入社。画像認識を用いたパブリックセーフティ向けソリューションの開発に従事。2021年より日立製作所のアメリカ支社であるHitachi America, Ltd.に所属し、画像認識の研究開発を継続。また、2023年から筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻の博士後期課程に在学。
14:30-14:50 講演(5) 【タイトル邦題】 (i) LayoutDM: 離散拡散モデルを用いた制御性の高いレイアウト生成 (ii) 柔軟なマルチモーダル文書処理モデルに向けて
井上　直人（サイバーエージェント AI Lab リサーチサイエンティスト）
【原発表の書誌情報】 (i) Naoto Inoue, Kotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, and Kota Yamaguchi, “LayoutDM: Discrete Diffusion Model for Controllable Layout Generation”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10167-10176, 2023. (ii) Naoto Inoue, Kotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, and Kota Yamaguchi, “Towards Flexible Multi-modal Document Models”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14287-14296, 2023.
【概要】 (依頼時に2本分を1本の時間で紹介ということで合意しましたので，2本分の情報を各欄で記述しています，よろしくお願いします。) (i) 本研究では、様々なユーザー指示を入力とするレイアウト生成を単一モデルで実現することを提案する。提案手法は、離散拡散モデルと、その逐次生成過程で指示を予測の補正項として反映する手法からなり、様々なデータセットと指示において高い性能を達成した。 (ii) 本研究では、グラフィックデザインの編集案を提示する機械学習モデルを提案する。様々な編集をマルチモーダルなデータ上での穴埋め問題とみなすことで、同一フレームワークで表現する。実験では、webやバナーといったデータセットでの有効性を示した。
	【略歴】 2021年3月に東京大学大学院情報理工学系研究科電子情報学専攻で博士後期課程を修了し、博士（情報理工学）を取得。同年に株式会社サイバーエージェントに入社し、AI Labに所属。リサーチサイエンティストとして研究に従事。デザイン支援と理解を対象としたコンピュータビジョンの研究が現在の主な専門。
14:50-15:10 講演(6) 【タイトル邦題】 LiDAR反射強度を利用した教師なし固有画像分解
佐藤　将吾（NTT人間情報研究所サイバー世界研究プロジェクト）
【原発表の書誌情報】 Sato, S., Yao, Y., Yoshida, T., Kaneko, T., Ando, S., & Shimamura, J. (2023). Unsupervised Intrinsic Image Decomposition with LiDAR Intensity. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 13466-13475).
【概要】教師なし固有画像分解の高精度化を目指してUnsupervised Intrinsic Image Decomposition with LiDAR Intensity (IID-LI)と呼ぶ新たな深層生成モデルを提案する。IID-LIでは生成画像とLiDAR反射強度で画像を比較することにより，cast-shadowを除去しやすいという特徴を持つ。自然画像とLiDAR反射強度を兼ね備えるデータセットにより有効性を検証する。
	【略歴】 2019年早稲田大学先進理工学部卒業。2021年早稲田大学先進理工学研究科修士課程修了。同年、日本電信電話株式会社に入社。画像生成、フォトメトリ処理を対象としたコンピュータビジョンや深層学習の研究に従事。

参加する >