Julia言語の最新版v0.5.0が公開されて、メジャーバージョンv1.0に向けて着実に進化しています。さっそくこちらのブログに変更点が日本語でまとめられています: Julia言語の0.5の変更点 - りんごがでているダウンロードページのディスクイメージでインストー…
Recurrent Neural Networksなどの深層学習に基づく手法が近年の自然言語研究を席巻していて、画像認識のような圧倒的な性能差ではないですが、伝統的な構文解析のタスクでもベンチマーク精度を叩き出していたりします: Recurrent Neural Network Grammars公…
日本語形態素解析エンジンMeCabで標準的に使われているIPA辞書に新語を追加したmecab-ipadic-neologdが公開されました: [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しましたこれまでもWikipediaやはてなキーワードからとりだした単語をMeCabの辞書…
2012年の国際的な画像認識技術評価タスクで、多段の畳み込みニューラルネットワークを使った手法が圧倒的な性能を達成してから、画像認識研究は深層学習中心に一変しました: [1409.0575] ImageNet Large Scale Visual Recognition Challenge自然言語処理研…
Emacsの最新版24.4がリリースされました。素のままのEmacsでは、日本語入力のときにキーに割り当てられた機能を使おうとすると、日本語がわたってしまってうまくいかないことなどがあって不便なので、インラインパッチが欠かせませんでした: http://macemac…
大規模分散計算環境のApache Sparkは、HadoopのMacReduceに比べてメモリ内で効率的に処理を行うことが特長で、機械学習、ストリーム処理、グラフ解析、SQLデータ分析などの機能ライブラリがあります。Spark自体はScala言語で実装されていますが、Scalaの他に…
日本語と中国語(簡体字)に対応した形態素解析エンジンRakuten MAが公開されています。JavaScriptで実装されていてnode.jsでアプリケーションのように使うことも、ブラウザ上で実行することもできます。Apacheライセンスで公開されているので商用利用も可能で…
深層学習手法で用いられる単語のベクトル表現を求めて、構文的もしくは内容的な意味の演算が高い精度でできるword2vecは、実装が公開されて様々なテキストに対して手軽に試せることもあって大変注目を集めています。公開されているコードはLinux用ですが、少…
オンライン機械学習の分散処理フレームワークJubatusの最新バージョン0.6.1は、Mavericksのclangでビルドが可能になっていて、homebrewのFormulaが公開されています。このFormulaを参考にMacPortsのjubatusポートを更新してみました。MacPortsのポートを最新…
brown-clusterは、単語をテキスト中に出現する傾向に基づいて機械的に分類するBrownらが提案したクラスタリングアルゴリズムのC++実装です。Brownの単語クラスタリングの結果を機械学習の素性として利用すると、固有表現抽出や単語分割などのタスクで効果が…
機械的にことばの意味を汲み取って別の言語で表現する機械翻訳は、人工知能や自然言語処理が目指す究極の目標の一つとされて、古くから研究されてきました。近年では、大量の対訳データに基づいて統計的な言語モデルや機械学習アルゴリズムを利用する統計的…
テキストから人名や地名など内容を特定するような箇所を取り出す固有表現抽出や、名詞句や動詞句などのようにかたまった単語の列を求めるチャンキング、単語の品詞を特定する形態素解析など、自然言語処理の様々なタスクでCRF(Conditional Random Fields)の…
brat (brat rapid annotation tool)は固有名・イベント抽出、共参照解析、チャンキング、構文解析などの様々なタスクに利用できるテキストアノテーションを表示・編集するツールです。数多くの機能を備えていて、右の画面のように表示が美しく、操作もマウス…
Mac OSでオープンソースのパッケージを利用するには、XcodeをApp Storeからダウンロードしてコマンドラインツールをインストールする必要があります。MacPortsを使ってパッケージをインストールすると、通常の場合、Buildbotであらかじめ作成されたバイナリ…
RubyベースのWebアプリケーションのフレームワークとしてRuby on Rails | A web-application framework that includes everything needed to create database-backed web applications according to the Model-View-Controller (MVC) pattern.やSinatraがあ…
UniDicは比較的短い単位で語を分割する形態素解析システム用の日本語辞書です。標準的な表記や音声言語処理に適した発音の情報などが付けられていて、例えば「すもも」に対して標準的な表記である「李」、「言う」の発音として「ユウ」ではなく実際の発音に…
日本語係り受け解析器CaboChaの最新版0.65が公開されました。学習の素性が追加されて精度が向上していたり、KNBCが学習データに入っていたり、と強化されているようです: Taku Kudo on Twitter: "cabocha 0.65 を公開しました。最近の素性を入れることでか…
日本語の係り受け解析器といえば、KNPやCaboChaが有名ですが、J.DepPは線形分類器を用いて大規模な対象を非常に高速に、また高精度に解析できることが特長です。2009年末に公開されてから着実にバージョンアップされていますが、ビルドの方法が簡単になって…
分散計算プラットフォームのHadoopは基本的にJavaで実装されていますが、外部のC/C++で実装されているモジュールと連携するためにネイティブのライブラリが提供されています。具体的には、zlibやsnappyを利用したファイル圧縮機能があります。snappyはGoogle…
MacPortsにはアプリケーション版Emacsのパッケージemacs-appがありますが、最新版の24.1だと、画面共有などのVNCを通してEmacsを使おうとしてもコントロールキーが認識されないという問題がチケットとして上げられていました。Emacsのtrunkには、この問題に…
Ruby on Railsが世に出た頃、紹介ビデオで使われていたテキストエディタのTextMateですが、GNUライセンスのフリーソフトとして公開されていました。Railsのscaffoldやconvention over configurationの設計思想と、TextMateの優れた入力補完機能、Mac OS Xの…
window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createElement(s); js.id = id; js.src = "https://platform.twitter.com/widgets.js"; fjs.paren…
昨年米国で開催されたTAC 2011 RTE-7では、NECのシステムが第一位を獲得したそうです: NECのテキスト含意認識技術がNIST主催の評価タスクで第一位を獲得(2012年4月13日): プレスリリース | NEC IKOMA at TAC2011: A Method for Recognizing Textual Entailm…
Façadeは、人工知能の技術を応用したドラマ仕立てのゲームです。画面上で自然な会話を繰り広げる二人のキャラクターに対して、ユーザがことばをキー入力すると、それが解釈されてシナリオが進んでいきます。ゲームがフリーウェアとして公開されているので、…
アナウンスは特にないようですが、MacPortsでLion(Mac OS X 10.7)のbuildbotが動き始めました。これまでSnow Leopard(10.6)のbuildbotは動いていて、ビルド済みのバイナリパッケージを直接ダウンロードすることでインストール時間が大幅に短縮されましたが、…
MacPortsの場合、利用できるオープンソースのportがそれぞれの管理者やボランティアによって都度更新されています。更新分を手元に反映させる場合、次のようにportコマンドを実行することになります: $ sudo port selfupdate $ sudo port -u upgrade outdat…
synchaは、CaboChaで求まる文の係り受け関係に基づいて、述語を中心とした文の構成要素の構造を解析します。同じ述語でも、構成要素の種類が変わると意味が異なる場合があります。逆に、構成要素の構造が同じであれば、異なる述語同士であっても同じような意…
NICTから公開されている意見(評価表現)抽出ツールは、JUMANとKNPを利用しますが、最新版の一つ前のバージョンが必要です。最新版のJUMANやKNPはUTF-8化されていて辞書も拡充されているので、それまでのバージョンに比べて出力結果が異なります。そこで、Ma…
コンパイラなどの開発ツールが含まれているXcodeは、LionになってからMac App Storeを通して無償で提供されるようになりました。Xcodeの最新版の4.3は、これまでと違ってアプリ形式になっていて、それまでのMacPortsで不具合がありましたが、バージョン2.0.4…
CRF(Conditional Random Fields)のC++実装であるCRF++は、シンプルで使いやすく人気があると思いますが、最新版の0.55がgooglecodeからリリースされています。MeCabの最新版と同様に、こちらもマルチスレッド対応しています。学習時にコア数に応じたスレッド…