NICT公開の意見(評価表現)抽出ツールをMacで動かす

情報通信研究機構NICT)が開発した意見(評価表現)抽出ツールオープンソースとして公開されました。このツールは、テキスト中に意見や評判・評価が表現されているかどうかを判定して、評価表現抽出、評価タイプ分類、評価極性判定、評価保持者抽出を行います。テキストの解析にはJUMANやKNP、評価表現や評価保持者の抽出、評価極性分類にCRF、評価保持者の判定や評価タイプの分類にSVMといった機械学習手法が使われています。配布物の中にはタグ付けに関する詳細な説明資料なども含まれていて、とても参考になります。

なお、ツールに付属しているモデルや辞書のデータはお試し用の小さなサンプルですが、高度言語情報融合フォーラム(ALAGIN)を通じて大規模なモデルデータが入手できます。このデータを入手するにはALAGINに入会して利用許諾契約に締結する必要がありますが、データ自体は無料で商用利用も可能です。

配布物の説明には、実行環境がLinuxとありますが、Macでも動作します。依存するプログラムとして、CRF++やnkfgawk、JUMAN、KNPなど色々とありますが、MacPortsを使えば簡単に導入できます。extractopinionというportを作成したので、次のようにしてサンプルモデルでの動作確認ができます:

$ sudo port selfupdate
$ sudo port install extractopinion
$ cat /opt/local/share/extractopinion-1.0/sample.txt
ほうれん草はビタミンが豊富だ。
京都は日本にある。
商品Aは良くない。
太郎は学校に行くべきだ。
道州制は国の一律の規制が解かれ地域経済の活性化が図られるので、商機が拡大すると考えられる。
$ extractopinion.sh /opt/local/share/extractopinion-1.0/sample.txt
/opt/local/share/extractopinion-1.0/sample.txt 1 [著者] メリット+ ビタミンが豊富だ。
/opt/local/share/extractopinion-1.0/sample.txt 2
/opt/local/share/extractopinion-1.0/sample.txt 3 [著者] 批評− 良くない。
/opt/local/share/extractopinion-1.0/sample.txt 4 [著者] 当為 学校に行くべきだ。
/opt/local/share/extractopinion-1.0/sample.txt 5 [著者] メリット+ 地域経済の活性化が図られるので、
/opt/local/share/extractopinion-1.0/sample.txt 5 [著者] メリット+ 商機が拡大すると考えられる。