マルチスレッド対応のCRF++最新版

CRF(Conditional Random Fields)のC++実装であるCRF++は、シンプルで使いやすく人気があると思いますが、最新版の0.55がgooglecodeからリリースされています。MeCabの最新版と同様に、こちらもマルチスレッド対応しています。学習時にコア数に応じたスレッド処理が走るようになっていて、高速化が体感できます。また、Windows版では学習用コマンドcrf_learnが落ちるという不具合が一つ前のバージョンにありましたが、これも解消されたようです。

サンプルとして固有名詞や句の取り出し、単語分割などが日本語または英語で試せるようにデータとテンプレートが用意されていて、すぐに動作を試すことができます。MacPortsの場合、CRF++のインストールと日本語固有名抽出のデモは次のようにして行います:

$ sudo port selfupdate
$ sudo port install crfpp
$ /opt/local/share/crfpp/example/JapaneseNE/exec.sh

なお、サンプルの日本語データはインストール時に文字コードEUC-JPからUTF-8に変換されているので、表示が文字化けしないようになっています。