hadoop

Java分散計算基盤HadoopのMac用ネイティブライブラリ

分散計算プラットフォームのHadoopは基本的にJavaで実装されていますが、外部のC/C++で実装されているモジュールと連携するためにネイティブのライブラリが提供されています。具体的には、zlibやsnappyを利用したファイル圧縮機能があります。snappyはGoogle…

MeCabで日本語WordCount on Hadoop

HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときの…

Apache Mahout 0.5 Released

Mahoutのバージョン0.5がリリースされました。 Apache MahoutMacPortsのパージョンも更新される予定です。

MacPortsでMahoutを動かす

Hadoop同様、MahoutもMacPortsに登録されたので、最新版に更新すると利用できます。このとき、Hadoopのportも同時にインストールされます。Mahoutの利用例は次のサイトで参照できますが、以下ではHadoopを使ったNaive-Bayes分類の例を行ってみます。 Log In …

MacPortsでHadoopを動かす

HadoopのMacPortsが登録されたので、次のように、最新の状態に更新すると利用できます。 $ sudo port selfupdate ... $ sudo port install hadoop ---> Fetching hadoop ---> Verifying checksum(s) for hadoop ---> Extracting hadoop ---> Applying patche…

Hadoop安定版0.20.203.0

Hadoopの安定版0.20.203.0が5月11日にリリースされたと公式ホームページにお知らせがあります。 http://hadoop.apache.org/common/releases.htmlところがダウンロードサイトには現時点でRC1版しか置いてありません。これはなぜなのか分かりませんが、何か不…

Hadoop + Maven + Mahout で大規模機械学習

大規模データの機械学習処理に、Hadoop上で動作するMahoutを利用することができます。 Apache MahoutMacへのインストールは次の記事が参考になります。 機械学習/MacでMahoutを使う - とうごろうぃきMahoutの最新リリース版0.4は、Apache Hadoop 0.20.2で動…