多目的かつ高速軽量な自然言語処理ツールSENNA

昨年米国で開催されたTAC 2011 RTE-7では、NECのシステムが第一位を獲得したそうです:
NECのテキスト含意認識技術がNIST主催の評価タスクで第一位を獲得(2012年4月13日): プレスリリース | NEC
IKOMA at TAC2011: A Method for Recognizing Textual Entailment using Lexical-level and Sentence Structure-level features

このシステムのテキスト解析にはSENNA (Semantic/syntactic Extraction using a Neural Network Architecture) というツールが利用されています。SENNAは、多層ニューラルネットに基づいて、品詞タグ付け、チャンキング、固有名抽出、意味役割ラベリング、構文解析といった様々な機能を実現しています。特徴的なのは、タスクに特化した素性設計などをしていない点で、その代わり大量のラベルなしテキストデータの言語モデルを利用して各タスクを統合的に学習することで、ベンチマークに匹敵する性能を達成しているそうです。また、解析速度や使用メモリは他のシステムよりも高速軽量とのことです:
Natural Language Processing (Almost) from Scratch

プログラムをダウンロードして試すことが出来ますが、大変手軽に意味役割解析結果まで出力されるので驚きです。

ちなみに、RTEに触発されてNTCIRで始まったテキスト含意認識タスクRITE第2回目の参加募集が始まっていますね:
wiki:メインページ [NTCIR-10 RITE2]