Hadoop + Maven + Mahout で大規模機械学習

大規模データの機械学習処理に、Hadoop上で動作するMahoutを利用することができます。
Apache Mahout

Macへのインストールは次の記事が参考になります。
機械学習/MacでMahoutを使う - とうごろうぃき

Mahoutの最新リリース版0.4は、Apache Hadoop 0.20.2で動作します。なお、現在Hadoopの最新版は0.21.0ですが、これではMahoutが動かないようです。
Apache Hadoop

MahoutはJavaのライブラリで、ビルドするときにMavenが必要ですが、Mac OS X 10.6ではMaven3が用意されています。

MavenMacPortsでもインストールできて、そのとき同時にmaven_selectパッケージがインストールされ、異なるバージョンのMavenを切り替えて利用することができるようになります。複数のRuby処理系を共存させることのできるRVM(Ruby Version Manager)がありますが、maven_selectはこれと同様のshellツールのようです。
https://rvm.beginrescueend.com/

MacPortsの*_selectツールは汎用的に使えるようで、Mavenの他にpython_selectもあります。いまはまだありませんが、他にもたとえばCaboChaの0.53と0.60pre4の切り替えに適用する、なんてこともできそうです。

さて、Hadoopの処理ですが、デフォルトの設定では日本語が化けてしまうため、JavaエンコーディングUTF-8に指定する必要があります。conf/hadoop-env.shにJAVA_OPTS="-Dfile.encoding=UTF-8"を追加するとよいでしょう。

Hadoopは様々な設定パラメータがあって使いこなすまで慣れがいりますが、まず導入にあたってはMacPortsなどで簡単にインストールできてサンプルの動作確認ができると、現状そうなっていないですが、いいですよね。