2012-01-01から1年間の記事一覧

BSD/LGPL/GPLのトリプルライセンスで公開された日本語形態素解析用辞書UniDic

UniDicは比較的短い単位で語を分割する形態素解析システム用の日本語辞書です。標準的な表記や音声言語処理に適した発音の情報などが付けられていて、例えば「すもも」に対して標準的な表記である「李」、「言う」の発音として「ユウ」ではなく実際の発音に…

日本語係り受け解析器のCaboCha v0.65と係ろっとv0.2

日本語係り受け解析器CaboChaの最新版0.65が公開されました。学習の素性が追加されて精度が向上していたり、KNBCが学習データに入っていたり、と強化されているようです: Taku Kudo on Twitter: "cabocha 0.65 を公開しました。最近の素性を入れることでか…

驚異的な解析速度を誇る日本語係り受け解析器J.DepP

日本語の係り受け解析器といえば、KNPやCaboChaが有名ですが、J.DepPは線形分類器を用いて大規模な対象を非常に高速に、また高精度に解析できることが特長です。2009年末に公開されてから着実にバージョンアップされていますが、ビルドの方法が簡単になって…

Java分散計算基盤HadoopのMac用ネイティブライブラリ

分散計算プラットフォームのHadoopは基本的にJavaで実装されていますが、外部のC/C++で実装されているモジュールと連携するためにネイティブのライブラリが提供されています。具体的には、zlibやsnappyを利用したファイル圧縮機能があります。snappyはGoogle…

MacPortsのemacs-app@24.1にパッチを当てました

MacPortsにはアプリケーション版Emacsのパッケージemacs-appがありますが、最新版の24.1だと、画面共有などのVNCを通してEmacsを使おうとしてもコントロールキーが認識されないという問題がチケットとして上げられていました。Emacsのtrunkには、この問題に…

フリーのプログラミング用テキストエディタTextMate2

Ruby on Railsが世に出た頃、紹介ビデオで使われていたテキストエディタのTextMateですが、GNUライセンスのフリーソフトとして公開されていました。Railsのscaffoldやconvention over configurationの設計思想と、TextMateの優れた入力補完機能、Mac OS Xの…

2012年08月02日のツイート

window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createElement(s); js.id = id; js.src = "https://platform.twitter.com/widgets.js"; fjs.paren…

多目的かつ高速軽量な自然言語処理ツールSENNA

nlp

昨年米国で開催されたTAC 2011 RTE-7では、NECのシステムが第一位を獲得したそうです: NECのテキスト含意認識技術がNIST主催の評価タスクで第一位を獲得(2012年4月13日): プレスリリース | NEC IKOMA at TAC2011: A Method for Recognizing Textual Entailm…

自然言語を使った対話型ゲームFaçade

Façadeは、人工知能の技術を応用したドラマ仕立てのゲームです。画面上で自然な会話を繰り広げる二人のキャラクターに対して、ユーザがことばをキー入力すると、それが解釈されてシナリオが進んでいきます。ゲームがフリーウェアとして公開されているので、…

MacPortsでLionのbuildbotが稼働開始

アナウンスは特にないようですが、MacPortsでLion(Mac OS X 10.7)のbuildbotが動き始めました。これまでSnow Leopard(10.6)のbuildbotは動いていて、ビルド済みのバイナリパッケージを直接ダウンロードすることでインストール時間が大幅に短縮されましたが、…

オープンソースのバージョン更新情報を検知する

MacPortsの場合、利用できるオープンソースのportがそれぞれの管理者やボランティアによって都度更新されています。更新分を手元に反映させる場合、次のようにportコマンドを実行することになります: $ sudo port selfupdate $ sudo port -u upgrade outdat…

述語項構造をsynchaで解析する

synchaは、CaboChaで求まる文の係り受け関係に基づいて、述語を中心とした文の構成要素の構造を解析します。同じ述語でも、構成要素の種類が変わると意味が異なる場合があります。逆に、構成要素の構造が同じであれば、異なる述語同士であっても同じような意…

意見(評価表現)抽出ツールとJUMAN・KNPのバージョン依存関係

NICTから公開されている意見(評価表現)抽出ツールは、JUMANとKNPを利用しますが、最新版の一つ前のバージョンが必要です。最新版のJUMANやKNPはUTF-8化されていて辞書も拡充されているので、それまでのバージョンに比べて出力結果が異なります。そこで、Ma…

Xcode-4.3に対応したMacPorts-2.0.4

コンパイラなどの開発ツールが含まれているXcodeは、LionになってからMac App Storeを通して無償で提供されるようになりました。Xcodeの最新版の4.3は、これまでと違ってアプリ形式になっていて、それまでのMacPortsで不具合がありましたが、バージョン2.0.4…

マルチスレッド対応のCRF++最新版

CRF(Conditional Random Fields)のC++実装であるCRF++は、シンプルで使いやすく人気があると思いますが、最新版の0.55がgooglecodeからリリースされています。MeCabの最新版と同様に、こちらもマルチスレッド対応しています。学習時にコア数に応じたスレッド…

自然言語処理向けの非常に効率的なオンライン学習器opal

opalは、自然言語処理に適したオンライン学習器で、二値の素性に特化して大規模な学習を非常に効率的に行います。線形または多項式カーネルが利用できて、ホームページに性能比較表が載っていますが、どちらの方式でも驚くほど高速かつ省メモリで学習とテス…

ソースコードのカラー印刷

ソースコードを印刷するときに、a2psコマンドを使ってテキストをPostScriptに変換する方法がありました。近頃はあまりソースコードを印刷することもなくなりましたが、最近のコラムで、GNU enscriptを使ってソースコードのキーワードに色付けして印刷する方…