電子情報通信学会総合大会講演要旨
D-13-6
表記揺れ検出の誤検出削減のための辞書自動生成方式
○久野綾子・平尾英司・永田喜嗣・毛塚照純(NEC)
システム開発に関わる仕様書は、その作成に複数の人間が関わることが多いため、表記揺れが発生しやすい。表記揺れは言葉の解釈に混乱を生じさせるため、事前に抽出して統一する必要がある。我々は、文書特有の単語の出現パターンに着目することで、仕様書特有の表記揺れを検出するツールを開発した。本ツールでは、文字列は似ているが、区別して使い分けている語の組を辞書に登録することで、検出結果から除外している。しかし、適用文書を拡張すると、辞書に登録すべき語が異なり、辞書を統一できないという課題があった。そこで、辞書に登録すべき語を文書から自動的に抽出する方式を考案し、実際の仕様書に適用した結果を評価した。