2011-06-01から1ヶ月間の記事一覧

Solritas(Solr+Velocityデモ)の日本語化

Solrの配布物に同梱されているVelocityベースのサンプルクライアントは、Solritasという名前になっています。Solritasは、設定ファイルに手を入れることで簡単に動作を変更することができます。Solrのサンプルの設定ファイルは、apache-solr-3.2.0/example/s…

Solr+lucene-gosenで日本語検索

最新版のSolr/Luceneで日本語を扱う場合には、文字列を2文字ずつ切り出すCJKAnalyzerもありますが、MeCab相当の機能を持つlucene-gosenを使うことができます。 http://code.google.com/p/lucene-gosen/LuceneでMeCabの機能を使う場合、Senが有名でしたが、残…

Solr+Velocityの多機能検索デモ

Solr(ソーラー)はLuceneをベースにした驚くほど多機能かつ高性能な検索システムです。SolrはJavaで実装されていますが、HTTP/XMLベースのAPIが用意されていて、Java以外の言語でもクライアントを作りやすくなっています。 Apache Solr -現時点の最新版は3.2…

日本語の単語分割

日本語の単語分割処理は、一般に、単語辞書と単語間連接の規則や学習データに基づいて行われます。オープンソースとして有名なものがいくつもあります。 KAKASI - 漢字→かな(ローマ字)変換プログラム JUMAN - KUROHASHI-KAWAHARA LAB chasen legacy -- an ol…

MeCabで日本語WordCount on Hadoop

HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときの…

Apache Mahout 0.5 Released

Mahoutのバージョン0.5がリリースされました。 Apache MahoutMacPortsのパージョンも更新される予定です。