MacPortsでMahoutを動かす

Hadoop同様、MahoutもMacPortsに登録されたので、最新版に更新すると利用できます。このとき、Hadoopのportも同時にインストールされます。

Mahoutの利用例は次のサイトで参照できますが、以下ではHadoopを使ったNaive-Bayes分類の例を行ってみます。
Log In - Apache Software Foundation
Log In - Apache Software Foundation

Mahoutコマンドの実行には、mahout-binを利用します。ここでは、訓練データを対象に分類テストを行ってみます。

$ curl -O http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz
$ tar zxf 20news-bydate.tar.gz
$ mahout-bin org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups \
-a org.apache.mahout.vectorizer.DefaultAnalyzer \
-c UTF-8 -o /tmp/20news-input -p 20news-bydate-train
$ hadoop-bin start-all.sh
$ hadoop-bin hadoop fs -put /tmp/20news-input 20news-input
$ mahout-bin trainclassifier -i 20news-input -o newsmodel
$ mahout-bin testclassifier -d 20news-input -m newsmodel -method mapreduce

処理中の状況は次のURLで参照できます。
http://localhost:50030/jobtracker.jsp