2011-01-01から1年間の記事一覧
日本語形態素解析エンジンのデファクトといえばMeCabだと思いますが、12月24日に最新版の0.99がリリースされています。まるで、クリスマスプレゼントのようですね! 最新版では、マルチスレッド環境でのユーザビリティが向上して、複数スレッドが同一辞書を…
NTCIRは、日本語などのアジア言語を中心とした情報検索・アクセス技術に対する評価型ワークショップです。国立情報学研究所の主催でおよそ1年半おきに開催されており、先頃第9回のワークショップ成果報告会がありました。今回初めて、テキスト推論認識のRITE…
ChaSenは人気があって広く使われている日本語形態素解析器だと思いますが、残念なことに最新版の2.4系にバッファオーバーフローの脆弱性が見つかったようです: JVN#16901583: 茶筌 (ChaSen) におけるバッファオーバーフローの脆弱性 ChaSenの利用をやめるか…
NTTとPFIから、大規模データ分析基盤のJubatusがオープンソースとして公開されました。 http://preferred.jp/2011/10/jubatus.htmlホームページのチュートリアルには、動作環境としてLinux2.6以降とありますが、Macでも動きましたので、MacPortsとしてまとめ…
日本語形態素解析器ChaSenとMeCabのMacPorts (chasen, mecab) が、解析器本体 (chasen-base, mecab-base) と辞書データおよび全体の3つのportに分かれました。 MeCabの全体のportがエンコーディングごとに用意されています。MacPortsでは依存関係を指定する…
窓の森で紹介されていましたが、SeekAnserという日本語のクイズに答えるJavaプログラムが公開されています。 【レビュー】形態素解析とWeb検索を組み合わせて日本語のクイズを解くプログラム「SeekAnser」 - 窓の杜 Project Web of SeekAnser -日本語クイズ…
Continuous Integration (CI; 継続的インテグレーション)は、開発しているソフトウェアのテストやビルドなどの作業を自動化するプロセスで、コードの品質を高める上で非常に効果的です。Buildbotはチェックアウト、ビルド、テストというサイクルの自動化を支…
MacPortsのportで更新した内容に関わるメモです。 音声関連 (audio) 音声対話エージェントのMMDAgentは、32ビットのCarbonアプリとしてLionでも動作します。ただし、USBのヘッドセットを使った場合は普通でしたが、MacBook Airの内蔵スピーカでしゃべらせる…
MacPortsはOS標準のライブラリに頼らず独自にソフトをインストールしようとする傾向にあります。そのためちょっとしたアプリケーションを入れようとしただけで、依存関係にあるソフトを芋づる式にインストールし始めて、思わぬ時間がかかることがあります。…
CPU負荷やメモリ使用量などをメニューバーに常時表示するアプリとして、以前は無償のiStat2を使っていましたが、Lionでは使えないようなので、代わりにatMonitorを使っています。新着メールやネット接続などをポップアップでお知らせしてくれるGrowlは一度使…
情報通信研究機構(NICT)が開発した意見(評価表現)抽出ツールがオープンソースとして公開されました。このツールは、テキスト中に意見や評判・評価が表現されているかどうかを判定して、評価表現抽出、評価タイプ分類、評価極性判定、評価保持者抽出を行…
MMDAgentは、音声認識エンジンJuliusや音声合成システムOpen JTalkを利用したオープンソースの音声インタラクションシステム構築ツールキットです。MMD (MikuMikuDance) のモデルやモーションのデータを利用した3D描画やリップシンクが実現されていて、リア…
OS X LionことMac OS X v10.7がリリースされ、MacPortsもバージョンアップしています。現時点の最新版は2.0.1です: The MacPorts Project -- Download & Installation手元のマシンにOSからクリーンインストールした上で、XcodeとJRE、MacPortsをインストー…
昨年Kindleを購入してから、Webで公開されている文書をmobiファイル化して読むなどして愛用していました。ところが最近2ヶ月ほど放置していたもので、バッテリ持ちの良さが売りのKindleもさすがに完全放電してしまいました。そこで電源につなげて立ち上げよ…
RITEはテキスト間の含意(推論)などを認識するテキスト理解システムのためのベンチマークタスクで、国立情報学研究所が主催する第9回NTCIR評価ワークショップのタスクになっています。RITEは、Recognizing Inference in TExtを表していますが、こちらの元と…
機械学習手法に基づくテキスト分類は十分な学習データがあれば高い精度が期待できますが、分類ラベルを人手でつける作業に手間がかかります。そこで、効率的に分類器を学習させる手法として、効果的な分類対象を優先的にラベル付けさせる能動学習(active lea…
Solrの配布物に同梱されているVelocityベースのサンプルクライアントは、Solritasという名前になっています。Solritasは、設定ファイルに手を入れることで簡単に動作を変更することができます。Solrのサンプルの設定ファイルは、apache-solr-3.2.0/example/s…
最新版のSolr/Luceneで日本語を扱う場合には、文字列を2文字ずつ切り出すCJKAnalyzerもありますが、MeCab相当の機能を持つlucene-gosenを使うことができます。 http://code.google.com/p/lucene-gosen/LuceneでMeCabの機能を使う場合、Senが有名でしたが、残…
Solr(ソーラー)はLuceneをベースにした驚くほど多機能かつ高性能な検索システムです。SolrはJavaで実装されていますが、HTTP/XMLベースのAPIが用意されていて、Java以外の言語でもクライアントを作りやすくなっています。 Apache Solr -現時点の最新版は3.2…
日本語の単語分割処理は、一般に、単語辞書と単語間連接の規則や学習データに基づいて行われます。オープンソースとして有名なものがいくつもあります。 KAKASI - 漢字→かな(ローマ字)変換プログラム JUMAN - KUROHASHI-KAWAHARA LAB chasen legacy -- an ol…
HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときの…
Mahoutのバージョン0.5がリリースされました。 Apache MahoutMacPortsのパージョンも更新される予定です。
Hadoop同様、MahoutもMacPortsに登録されたので、最新版に更新すると利用できます。このとき、Hadoopのportも同時にインストールされます。Mahoutの利用例は次のサイトで参照できますが、以下ではHadoopを使ったNaive-Bayes分類の例を行ってみます。 Log In …
HadoopのMacPortsが登録されたので、次のように、最新の状態に更新すると利用できます。 $ sudo port selfupdate ... $ sudo port install hadoop ---> Fetching hadoop ---> Verifying checksum(s) for hadoop ---> Extracting hadoop ---> Applying patche…
Hadoopの安定版0.20.203.0が5月11日にリリースされたと公式ホームページにお知らせがあります。 http://hadoop.apache.org/common/releases.htmlところがダウンロードサイトには現時点でRC1版しか置いてありません。これはなぜなのか分かりませんが、何か不…
KNPのMacPortsを登録しました。 http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.htmlMacPortsを登録するにあたっては、universal buildへの対応が一つポイントかと思います。KNPの場合、デフォルトでTinyCDBを利用しますが、tinycdbのportがuniversal build…
MacPortsでインストールしたOpen JTalkの合成音声を、Juliusで音声認識させてみます。マイクのないMacでJuliusをテストするという想定です。まず、MacPortsでopen_jtalk, julius, ssrcをインストールします。 $ sudo port install open_jtalk julius ssrc 次…
JuliusのバージョンアップにあわせてMacPortsを更新しました。実は前回登録したportでは正しくインストールできなくて、いくつか修正しています。MacPortsでは最終的なインストールの前に仮のインストール先にファイルをコピーするdestroot処理を行うのです…
音声対話システムMMDAgentの安定版version 1.0が5月1日に公開されました。これに伴い、音声合成システムOpen JTalkと音声合成エンジンJuliusも更新されています。mmdagent.jp Open JTalk GitHub - julius-speech/julius: Open-Source Large Vocabulary Conti…
大規模データの機械学習処理に、Hadoop上で動作するMahoutを利用することができます。 Apache MahoutMacへのインストールは次の記事が参考になります。 機械学習/MacでMahoutを使う - とうごろうぃきMahoutの最新リリース版0.4は、Apache Hadoop 0.20.2で動…