電子情報通信学会ソサイエティ大会講演要旨
A-5-6
聴覚数理モデルに着目した複数話者音声分離向けラダーネットワークの実装
○関口 浩・成末義哲・森川博之(東大)
議事自動生成システムなどにおいては,重畳音声の個別音声分離と再構成とが必要である.霊長類や哺乳類には,同時に発声する外部音源を聴覚脳神経系で聞き分ける能力がある.聴覚脳神経学によれば,この能力は,聴覚音声特徴量抽出と時間同期性検知クラスタリングとの2つの機能で構成される.前者は,音声を聴覚神経細胞集団が分析し聴覚音声特徴量時間系列を出力する機能である.後者はそれら音声特徴量時間系列の発生開始時間点および終了時間点が類似のものを同一の音源とし,異なるものを他の音源として判断する機能である.時間同期性検知クラスタリングを行うためには,前段の聴覚音声特徴量抽出からの出力が互いに独立であることが望ましい.このような観点から,筆者らは,聴覚音声特徴量抽出の数理モデルには非線形スパースエンコーダデコーダモデルを,時間同期性検知クラスタリングの数理モデルには時間コヒーレントモデルを用いて,ラダーネットワーク上で個別音声分離と再構成とを行うシステムの実装を進めている.