日本語係り受け解析器のCaboCha v0.65と係ろっとv0.2

日本語係り受け解析器CaboChaの最新版0.65が公開されました。学習の素性が追加されて精度が向上していたり、KNBCが学習データに入っていたり、と強化されているようです:
Taku Kudo on Twitter: "cabocha 0.65 を公開しました。最近の素性を入れることでかなり精度が向上しました。またトーナメントモデルもサポートしました。(デフォルトはSRです) http://t.co/l51qZIkR"
元々使いやすくて機能も豊富でしたが、係り受け学習が高速化されて、再学習ができるようになるなど、さらに進化しています。

一方、「係ろっと(kakarot)」は、全域木探索を行う実験的な日本語係り受け解析システムです。精度はCaboChaに及ばないようですが、作者のブログを見ると、構想から調査、設計、実装、公開までがとても短期間にされていて、精力的に改善されている様子です。最新版はv0.2ですが、係り受け解析の前処理にCaboChaのモジュールを使っていて、CaboCha v0.64のソースへのパッチと追加ファイルの形で実装されています。

最新版のcabochaとkakarotのMacPortsを登録しました。係ろっとをビルドするとcabochaコマンドが生成されますが、このままだと通常のCaboChaと共存できないので、バイナリやライブラリ、必要なファイルのパスの名称を変更してあります。Macの場合、install_name_toolコマンドを使って参照するライブラリを指定できるので利用しました:

install_name_tool -change /opt/local/lib/libcabocha.4.dylib /opt/local/lib/libkakarot.dylib /opt/local/bin/kakarot

cabochaとkakarotは次のようにして試すことができます:

$ sudo port selfupdate
$ sudo port install cabocha kakarot
$ cabocha
太郎は花子が読んでいる本を次郎に渡した (+改行 +CTL-D)
太郎は---------D
花子が-D |
読んでいる-D |
本を---D
次郎に-D
渡した
EOS
$ kakarot
options: EDBG 0 CMP_CABOCHA 0 REGR_MODE 0 CMPONLY 0
太郎は花子が読んでいる本を次郎に渡した (+改行 +CTL-D)
太郎は---------D
花子が-D |
読んでいる-D |
本を---D
次郎に-D
渡した
EOS
$ cabocha -v
cabocha of 0.65
$ kakarot -v
cabocha of 0.64