2011-06-05から1日間の記事一覧
HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときの…
HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときの…