2011-01-01から1年間の記事一覧

マルチスレッドまわりが強化されたMeCab 0.99

日本語形態素解析エンジンのデファクトといえばMeCabだと思いますが、12月24日に最新版の0.99がリリースされています。まるで、クリスマスプレゼントのようですね! 最新版では、マルチスレッド環境でのユーザビリティが向上して、複数スレッドが同一辞書を…

NTCIR-9ワークショップRITEテキスト推論タスクと自然言語理解

nlp

NTCIRは、日本語などのアジア言語を中心とした情報検索・アクセス技術に対する評価型ワークショップです。国立情報学研究所の主催でおよそ1年半おきに開催されており、先頃第9回のワークショップ成果報告会がありました。今回初めて、テキスト推論認識のRITE…

ChaSenのバッファオーバーフロー脆弱性

ChaSenは人気があって広く使われている日本語形態素解析器だと思いますが、残念なことに最新版の2.4系にバッファオーバーフローの脆弱性が見つかったようです: JVN#16901583: 茶筌 (ChaSen) におけるバッファオーバーフローの脆弱性 ChaSenの利用をやめるか…

PFI+NTTの大規模データリアルタイム分析基盤JubatusをMacで動かす

NTTとPFIから、大規模データ分析基盤のJubatusがオープンソースとして公開されました。 http://preferred.jp/2011/10/jubatus.htmlホームページのチュートリアルには、動作環境としてLinux2.6以降とありますが、Macでも動きましたので、MacPortsとしてまとめ…

NAIST-jdicをChaSenとMeCabで利用する

日本語形態素解析器ChaSenとMeCabのMacPorts (chasen, mecab) が、解析器本体 (chasen-base, mecab-base) と辞書データおよび全体の3つのportに分かれました。 MeCabの全体のportがエンコーディングごとに用意されています。MacPortsでは依存関係を指定する…

SeekAnserでクイズに答える

窓の森で紹介されていましたが、SeekAnserという日本語のクイズに答えるJavaプログラムが公開されています。 【レビュー】形態素解析とWeb検索を組み合わせて日本語のクイズを解くプログラム「SeekAnser」 - 窓の杜 Project Web of SeekAnser -日本語クイズ…

MacPortのBuildbotでContinuous Integration

Continuous Integration (CI; 継続的インテグレーション)は、開発しているソフトウェアのテストやビルドなどの作業を自動化するプロセスで、コードの品質を高める上で非常に効果的です。Buildbotはチェックアウト、ビルド、テストというサイクルの自動化を支…

更新MacPortsメモ

MacPortsのportで更新した内容に関わるメモです。 音声関連 (audio) 音声対話エージェントのMMDAgentは、32ビットのCarbonアプリとしてLionでも動作します。ただし、USBのヘッドセットを使った場合は普通でしたが、MacBook Airの内蔵スピーカでしゃべらせる…

重いMacPortsを軽くする

MacPortsはOS標準のライブラリに頼らず独自にソフトをインストールしようとする傾向にあります。そのためちょっとしたアプリケーションを入れようとしただけで、依存関係にあるソフトを芋づる式にインストールし始めて、思わぬ時間がかかることがあります。…

Mac OS X Lionの無償便利アプリ

app

CPU負荷やメモリ使用量などをメニューバーに常時表示するアプリとして、以前は無償のiStat2を使っていましたが、Lionでは使えないようなので、代わりにatMonitorを使っています。新着メールやネット接続などをポップアップでお知らせしてくれるGrowlは一度使…

NICT公開の意見(評価表現)抽出ツールをMacで動かす

情報通信研究機構(NICT)が開発した意見(評価表現)抽出ツールがオープンソースとして公開されました。このツールは、テキスト中に意見や評判・評価が表現されているかどうかを判定して、評価表現抽出、評価タイプ分類、評価極性判定、評価保持者抽出を行…

MMDAgent-1.1をOS X Lionで動かすMacPorts

MMDAgentは、音声認識エンジンJuliusや音声合成システムOpen JTalkを利用したオープンソースの音声インタラクションシステム構築ツールキットです。MMD (MikuMikuDance) のモデルやモーションのデータを利用した3D描画やリップシンクが実現されていて、リア…

MacPorts最新版&コミッタ

OS X LionことMac OS X v10.7がリリースされ、MacPortsもバージョンアップしています。現時点の最新版は2.0.1です: The MacPorts Project -- Download & Installation手元のマシンにOSからクリーンインストールした上で、XcodeとJRE、MacPortsをインストー…

Kindleの交換手続き

昨年Kindleを購入してから、Webで公開されている文書をmobiファイル化して読むなどして愛用していました。ところが最近2ヶ月ほど放置していたもので、バッテリ持ちの良さが売りのKindleもさすがに完全放電してしまいました。そこで電源につなげて立ち上げよ…

テキスト含意認識システムRITE-SDK

nlp

RITEはテキスト間の含意(推論)などを認識するテキスト理解システムのためのベンチマークタスクで、国立情報学研究所が主催する第9回NTCIR評価ワークショップのタスクになっています。RITEは、Recognizing Inference in TExtを表していますが、こちらの元と…

能動学習システムDUALISTを日本語テキストに適用する

機械学習手法に基づくテキスト分類は十分な学習データがあれば高い精度が期待できますが、分類ラベルを人手でつける作業に手間がかかります。そこで、効率的に分類器を学習させる手法として、効果的な分類対象を優先的にラベル付けさせる能動学習(active lea…

Solritas(Solr+Velocityデモ)の日本語化

Solrの配布物に同梱されているVelocityベースのサンプルクライアントは、Solritasという名前になっています。Solritasは、設定ファイルに手を入れることで簡単に動作を変更することができます。Solrのサンプルの設定ファイルは、apache-solr-3.2.0/example/s…

Solr+lucene-gosenで日本語検索

最新版のSolr/Luceneで日本語を扱う場合には、文字列を2文字ずつ切り出すCJKAnalyzerもありますが、MeCab相当の機能を持つlucene-gosenを使うことができます。 http://code.google.com/p/lucene-gosen/LuceneでMeCabの機能を使う場合、Senが有名でしたが、残…

Solr+Velocityの多機能検索デモ

Solr(ソーラー)はLuceneをベースにした驚くほど多機能かつ高性能な検索システムです。SolrはJavaで実装されていますが、HTTP/XMLベースのAPIが用意されていて、Java以外の言語でもクライアントを作りやすくなっています。 Apache Solr -現時点の最新版は3.2…

日本語の単語分割

日本語の単語分割処理は、一般に、単語辞書と単語間連接の規則や学習データに基づいて行われます。オープンソースとして有名なものがいくつもあります。 KAKASI - 漢字→かな(ローマ字)変換プログラム JUMAN - KUROHASHI-KAWAHARA LAB chasen legacy -- an ol…

MeCabで日本語WordCount on Hadoop

HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときの…

Apache Mahout 0.5 Released

Mahoutのバージョン0.5がリリースされました。 Apache MahoutMacPortsのパージョンも更新される予定です。

MacPortsでMahoutを動かす

Hadoop同様、MahoutもMacPortsに登録されたので、最新版に更新すると利用できます。このとき、Hadoopのportも同時にインストールされます。Mahoutの利用例は次のサイトで参照できますが、以下ではHadoopを使ったNaive-Bayes分類の例を行ってみます。 Log In …

MacPortsでHadoopを動かす

HadoopのMacPortsが登録されたので、次のように、最新の状態に更新すると利用できます。 $ sudo port selfupdate ... $ sudo port install hadoop ---> Fetching hadoop ---> Verifying checksum(s) for hadoop ---> Extracting hadoop ---> Applying patche…

Hadoop安定版0.20.203.0

Hadoopの安定版0.20.203.0が5月11日にリリースされたと公式ホームページにお知らせがあります。 http://hadoop.apache.org/common/releases.htmlところがダウンロードサイトには現時点でRC1版しか置いてありません。これはなぜなのか分かりませんが、何か不…

日本語構文解析システムKNPのMacPorts

KNPのMacPortsを登録しました。 http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.htmlMacPortsを登録するにあたっては、universal buildへの対応が一つポイントかと思います。KNPの場合、デフォルトでTinyCDBを利用しますが、tinycdbのportがuniversal build…

Open JTalkの合成音声をJuliusで音声認識

MacPortsでインストールしたOpen JTalkの合成音声を、Juliusで音声認識させてみます。マイクのないMacでJuliusをテストするという想定です。まず、MacPortsでopen_jtalk, julius, ssrcをインストールします。 $ sudo port install open_jtalk julius ssrc 次…

Julius-4.2のMacPortsで日本語音声認識

JuliusのバージョンアップにあわせてMacPortsを更新しました。実は前回登録したportでは正しくインストールできなくて、いくつか修正しています。MacPortsでは最終的なインストールの前に仮のインストール先にファイルをコピーするdestroot処理を行うのです…

MMDAgent 安定版 version 1.0公開

音声対話システムMMDAgentの安定版version 1.0が5月1日に公開されました。これに伴い、音声合成システムOpen JTalkと音声合成エンジンJuliusも更新されています。mmdagent.jp Open JTalk GitHub - julius-speech/julius: Open-Source Large Vocabulary Conti…

Hadoop + Maven + Mahout で大規模機械学習

大規模データの機械学習処理に、Hadoop上で動作するMahoutを利用することができます。 Apache MahoutMacへのインストールは次の記事が参考になります。 機械学習/MacでMahoutを使う - とうごろうぃきMahoutの最新リリース版0.4は、Apache Hadoop 0.20.2で動…