トップコンファレンス4-2 データベースとデータサイエンス
2024/9/5 9:30-12:00
第5イベント会場

座長:北山 大輔(工学院大学)

9:30-9:50 講演(1) 【タイトル邦題】 GuP: ガード枝刈りによる高速サブグラフマッチング
新井 淳也(日本電信電話株式会社 サービスイノベーション総合研究所 コンピュータ&データサイエンス研究所 主任研究員)
【原発表の書誌情報】 Junya Arai, Yasuhiro Fujiwara, and Makoto Onizuka. 2023. GuP: Fast Subgraph Matching by Guard-based Pruning. Proc. ACM Manag. Data 1, 2, Article 167 (June 2023), 26 pages. https://doi.org/10.1145/3589312
【概要】 クエリと同型なサブグラフの検索はグラフデータに対する最も基本的な問合せのひとつである.本研究では,解に至らない中間探索状態を表すパターン(ガード)の生成を通じた効率的なサブグラフ検索手法を提案する.
【略歴】 日本電信電話株式会社 (NTT) コンピュータ&データサイエンス研究所の主任研究員.2011 年に東京大学理学部情報科学科を卒業し,2013 年に東京大学情報理工学系研究科コンピュータ科学専攻修士課程を修了.2013 年に NTT 入社後,2019 年に大阪大学情報科学研究科マルチメディア工学専攻博士後期課程を修了.博士(情報科学).研究分野は並列分散計算とグラフアルゴリズム.ACM および日本データベース学会会員.
9:50-10:10 講演(2) 【タイトル邦題】 クロスサイロ連合学習における安全なシャープレー値
鄭 舒元(大阪大学 大学院情報科学研究科鬼塚研究室 特任助教)
【原発表の書誌情報】 Shuyuan Zheng, Yang Cao, and Masatoshi Yoshikawa. Secure Shapley Value for Cross-Silo Federated Learning. PVLDB, 16(7): 1657 - 1670, 2023.
【概要】 The Shapley value (SV) is a fair and principled metric for contribution evaluation in cross-silo federated learning (cross-silo FL), wherein organizations, i.e., clients, collaboratively train prediction models with the coordination of a parameter server. However, existing SV calculation methods for FL assume that the server can access the raw FL models and public test data. This may not be a valid assumption in practice considering the emerging privacy attacks on FL models and the fact that test data might be clients' private assets. Hence, we investigate the problem of secure SV calculation for cross-silo FL. We first propose HESV, a one-server solution based solely on homomorphic encryption (HE) for privacy protection, which has limitations in efficiency. To overcome these limitations, we propose SecSV, an efficient two-server protocol with the following novel features. First, SecSV utilizes a hybrid privacy protection scheme to avoid ciphertext--ciphertext multiplications between test data and models, which are extremely expensive under HE. Second, an efficient secure matrix multiplication method is proposed for SecSV. Third, SecSV strategically identifies and skips some test samples without significantly affecting the evaluation accuracy. Our experiments demonstrate that SecSV is 7.2-36.6 times as fast as HESV, with a limited loss in the accuracy of calculated SVs.
【略歴】 博士(情報学)。日本学術振興会特別研究員(DC1)を経て、2023年9月京都大学大学院情報学研究科博士後期課程修了。2023年10月より大阪大学情報科学研究科特任助教。データ経済と信頼されるAIに関する研究に従事.
10:10-10:30 講演(3) 【タイトル邦題】 グラフベース近似最近傍検索の確率的ルーティング
Lu Kejing(名古屋大学 情報科学研究科知能システム専攻石川研究室 特任助教)
【原発表の書誌情報】 Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa: Probabilistic Routing for Graph-Based Approximate Nearest Neighbor Search. International Conference on Machine Learning (ICML), 2024.
【概要】 Approximate nearest neighbor search (ANNS) in high-dimensional spaces is a pivotal challenge in the field of machine learning. In recent years, graph-based methods have emerged as the superior approach to ANNS, establishing a new state of the art. Although various optimizations for graph-based ANNS have been introduced, they predominantly rely on heuristic methods that lack formal theoretical backing. This paper aims to enhance routing within graph-based ANNS by introducing a method that offers a probabilistic guarantee when exploring a node’s neighbors in the graph. We formulate the problem as probabilistic routing and develop two baseline strategies by incorporating locality-sensitive techniques. Subsequently, we introduce PEOs, a novel approach that efficiently identifies which neighbors in the graph should be considered for exact distance computation, thus significantly improving efficiency in practice.
【略歴】 2018/4 北海道大学情報学博士後期課程入学
2021/3 博士卒業
2021/4-現在 名古屋大学データベース研究室の特任助教を務める
10:30-10:50 講演(4) 【タイトル邦題】 Deep-join: 言語モデルを用いて結合可能なテーブル検索
董 于洋(NEC データサイエンス研究所 主任研究員)
【原発表の書誌情報】 Yuyang Dong, Chuan Xiao, Takuma Nozawa, Masafumi Enomoto, Masafumi Oyamada: DeepJoin: Joinable Table Discovery with Pre-trained Language Models. Proc. VLDB Endow. 16(10): 2458-2470 (2023)
【概要】 データレークにおける結合可能テーブルの検索は,データ統合,データ増強,データ解析,およびデータ市場のような多くのアプリケーションにおける重要手順である。本研究では、言語モデルのembedding based retriever 技術を活用して、テーブルを埋め込みベクトルに変換することで、ベクトル検索技術を用いて効率かつ高性能のテーブル検索手段を提案した。
【略歴】 2019年筑波大学システム情報研究科博士課程修了。2019年よりNECデータサイエンス研究所入社。データ検索、大規模言語モデルに関する研究に従事。
10:50-11:10 講演(5) 【タイトル邦題】 マルチコア環境における高効用アイテムセットマイニングの高効率な並列化手法
木村 元紀(東京大学 大学院情報理工学系研究科電子情報学専攻合田研究室 博士課程二年)
【原発表の書誌情報】 G. Kimura, Y. Hayamizu, R. U. Kiran, M. Kitsuregawa and K. Goda, "Efficient Parallel Mining of High-utility Itemsets on Multicore Processors,"2023 IEEE 39th International Conference on Data Engineering (ICDE), Anaheim, CA, USA, 2023, pp. 638-652.
【概要】 高効率アイテムセットマイニングは幅広く応用されている知識発見タスクである。本研究では細粒度タスク分割とNUMAを考慮したタスク割り当てによりハードウェア性能を最大限活用した並列実行方式を提案し、最大で65.2倍の高速化を実現した。
【略歴】 2022年に東京大学大学院情報理工学系研究科電子情報学専攻修士課程修了。現在は同大学情報理工学系研究科電子情報学専攻博士課程に在籍。日本学術振興会特別研究員(DC2)。