電子情報通信学会総合大会講演要旨
A-2-1
既知の文脈自由文法を利用したテキストデータ圧縮法
◎小西竜馬・川端 勉(電通大)
本研究の目的は、既知の文脈自由文法から生成される情報源に対する無歪みデータ圧縮器を出力する方法を与える事である。爆発的に増加するテキストデータの中には、特定の文法に従うものがある。例えば、Google trendsによるとデータ記述言語のJSONの需要は5年前の約3倍になっている。 これまで研究されてきた圧縮手法は、たとえ情報源の文法が既知であったとしそれを利用してこなかった。本研究では、所与の文法に対して字句解析器や構文解析器を作成し、それに基づくデータ圧縮器を出力する。このデータ圧縮法の圧縮性能をJSONの場合について評価する。