電子情報通信学会総合大会講演要旨
D-5-4
テキストマイニングを用いた新聞メディアの判別への試み
○市川祐太・彌冨 仁(法政大)
本研究ではテキストマイニングを用いて,新聞メディア記事がどのメディアから発信されているかの判別を試みた.
先行研究である著者判別手法を新聞記事に応用し,N-gramを用いて文字列を解析することで,2つの新聞記事群がどれだけ似ていないかを判別する非類似度と呼ばれる式を用いることで数値化を行った.
朝日,毎日,読売,産経新聞の記事を用いて非類似度を求め,比較した結果,同じ新聞社同士の非類似度が標準偏差を考慮しても低いことが分かり,さらに他社との非類似度は全てのケースにおいて自社同士の非類似度と比べて有意差があった.
この結果より,メディアの発信元の特定が行える可能性が示唆された.