述語項構造をsynchaで解析する

synchaは、CaboChaで求まる文の係り受け関係に基づいて、述語を中心とした文の構成要素の構造を解析します。同じ述語でも、構成要素の種類が変わると意味が異なる場合があります。逆に、構成要素の構造が同じであれば、異なる述語同士であっても同じような意味をとる場合があります。格フレームは、述語の意味ごとに規定されて構成要素をスロットとする構造体ですが、文の格フレームが解析できると、述語の意味や構成要素がどのような役割をもつのかが分かります。また、文脈に埋もれて記述に省略がある場合でも、何があるべきかが推定できます。なお、KNPも、Webテキストから構築した大規模格フレームに基づいた述語項構造の解析が可能です。

オリジナルのsynchaはEUC-JPベースですが、MacPortsでは、UTF-8ベースのCaboCha-0.60を利用して、データもUTF-8に変換することで、入出力をUTF-8化しました。

ところで、最新版0.61のCaboChaはCRF++のバージョン0.55以降が必要となっていますが、少なくともMac OS Xの場合、あいにくCRF++0.55に対してはCaboChaのビルドに失敗し、最新版のCRF++0.56ではCRF++コマンドやライブラリ自体のビルドができません。

そこで、CRF++のportをとりあえず次のように2つに分けました:

  • crfpp:Version 0.54
  • crfpp-devel:Version 0.55

CaboChaのportはcrfppに依存しています。