nlp

新語が追加されたmecab-ipadic-neologd辞書

日本語形態素解析エンジンMeCabで標準的に使われているIPA辞書に新語を追加したmecab-ipadic-neologdが公開されました: [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しましたこれまでもWikipediaやはてなキーワードからとりだした単語をMeCabの辞書…

JavaScriptで実装された日中形態素解析エンジンRakuten MA

nlp

日本語と中国語(簡体字)に対応した形態素解析エンジンRakuten MAが公開されています。JavaScriptで実装されていてnode.jsでアプリケーションのように使うことも、ブラウザ上で実行することもできます。Apacheライセンスで公開されているので商用利用も可能で…

MacPortsでword2vec:マルチスレッド改善のC実装+Python3対応のgensim

深層学習手法で用いられる単語のベクトル表現を求めて、構文的もしくは内容的な意味の演算が高い精度でできるword2vecは、実装が公開されて様々なテキストに対して手軽に試せることもあって大変注目を集めています。公開されているコードはLinux用ですが、少…

brown-clusterをMavericksで動かす

brown-clusterは、単語をテキスト中に出現する傾向に基づいて機械的に分類するBrownらが提案したクラスタリングアルゴリズムのC++実装です。Brownの単語クラスタリングの結果を機械学習の素性として利用すると、固有表現抽出や単語分割などのタスクで効果が…

統計的機械翻訳ツールキットcicada

機械的にことばの意味を汲み取って別の言語で表現する機械翻訳は、人工知能や自然言語処理が目指す究極の目標の一つとされて、古くから研究されてきました。近年では、大量の対訳データに基づいて統計的な言語モデルや機械学習アルゴリズムを利用する統計的…

高速実装CRFSuiteとベンチマーク

テキストから人名や地名など内容を特定するような箇所を取り出す固有表現抽出や、名詞句や動詞句などのようにかたまった単語の列を求めるチャンキング、単語の品詞を特定する形態素解析など、自然言語処理の様々なタスクでCRF(Conditional Random Fields)の…

多機能で洗練されたテキストアノテーションツールbrat

nlp

brat (brat rapid annotation tool)は固有名・イベント抽出、共参照解析、チャンキング、構文解析などの様々なタスクに利用できるテキストアノテーションを表示・編集するツールです。数多くの機能を備えていて、右の画面のように表示が美しく、操作もマウス…

自然言語処理ツールなどのMacPorts

Mac OSでオープンソースのパッケージを利用するには、XcodeをApp Storeからダウンロードしてコマンドラインツールをインストールする必要があります。MacPortsを使ってパッケージをインストールすると、通常の場合、Buildbotであらかじめ作成されたバイナリ…

BSD/LGPL/GPLのトリプルライセンスで公開された日本語形態素解析用辞書UniDic

UniDicは比較的短い単位で語を分割する形態素解析システム用の日本語辞書です。標準的な表記や音声言語処理に適した発音の情報などが付けられていて、例えば「すもも」に対して標準的な表記である「李」、「言う」の発音として「ユウ」ではなく実際の発音に…

日本語係り受け解析器のCaboCha v0.65と係ろっとv0.2

日本語係り受け解析器CaboChaの最新版0.65が公開されました。学習の素性が追加されて精度が向上していたり、KNBCが学習データに入っていたり、と強化されているようです: Taku Kudo on Twitter: "cabocha 0.65 を公開しました。最近の素性を入れることでか…

驚異的な解析速度を誇る日本語係り受け解析器J.DepP

日本語の係り受け解析器といえば、KNPやCaboChaが有名ですが、J.DepPは線形分類器を用いて大規模な対象を非常に高速に、また高精度に解析できることが特長です。2009年末に公開されてから着実にバージョンアップされていますが、ビルドの方法が簡単になって…

多目的かつ高速軽量な自然言語処理ツールSENNA

nlp

昨年米国で開催されたTAC 2011 RTE-7では、NECのシステムが第一位を獲得したそうです: NECのテキスト含意認識技術がNIST主催の評価タスクで第一位を獲得(2012年4月13日): プレスリリース | NEC IKOMA at TAC2011: A Method for Recognizing Textual Entailm…

自然言語を使った対話型ゲームFaçade

Façadeは、人工知能の技術を応用したドラマ仕立てのゲームです。画面上で自然な会話を繰り広げる二人のキャラクターに対して、ユーザがことばをキー入力すると、それが解釈されてシナリオが進んでいきます。ゲームがフリーウェアとして公開されているので、…

述語項構造をsynchaで解析する

synchaは、CaboChaで求まる文の係り受け関係に基づいて、述語を中心とした文の構成要素の構造を解析します。同じ述語でも、構成要素の種類が変わると意味が異なる場合があります。逆に、構成要素の構造が同じであれば、異なる述語同士であっても同じような意…

意見(評価表現)抽出ツールとJUMAN・KNPのバージョン依存関係

NICTから公開されている意見(評価表現)抽出ツールは、JUMANとKNPを利用しますが、最新版の一つ前のバージョンが必要です。最新版のJUMANやKNPはUTF-8化されていて辞書も拡充されているので、それまでのバージョンに比べて出力結果が異なります。そこで、Ma…

マルチスレッド対応のCRF++最新版

CRF(Conditional Random Fields)のC++実装であるCRF++は、シンプルで使いやすく人気があると思いますが、最新版の0.55がgooglecodeからリリースされています。MeCabの最新版と同様に、こちらもマルチスレッド対応しています。学習時にコア数に応じたスレッド…

自然言語処理向けの非常に効率的なオンライン学習器opal

opalは、自然言語処理に適したオンライン学習器で、二値の素性に特化して大規模な学習を非常に効率的に行います。線形または多項式カーネルが利用できて、ホームページに性能比較表が載っていますが、どちらの方式でも驚くほど高速かつ省メモリで学習とテス…

マルチスレッドまわりが強化されたMeCab 0.99

日本語形態素解析エンジンのデファクトといえばMeCabだと思いますが、12月24日に最新版の0.99がリリースされています。まるで、クリスマスプレゼントのようですね! 最新版では、マルチスレッド環境でのユーザビリティが向上して、複数スレッドが同一辞書を…

NTCIR-9ワークショップRITEテキスト推論タスクと自然言語理解

nlp

NTCIRは、日本語などのアジア言語を中心とした情報検索・アクセス技術に対する評価型ワークショップです。国立情報学研究所の主催でおよそ1年半おきに開催されており、先頃第9回のワークショップ成果報告会がありました。今回初めて、テキスト推論認識のRITE…

ChaSenのバッファオーバーフロー脆弱性

ChaSenは人気があって広く使われている日本語形態素解析器だと思いますが、残念なことに最新版の2.4系にバッファオーバーフローの脆弱性が見つかったようです: JVN#16901583: 茶筌 (ChaSen) におけるバッファオーバーフローの脆弱性 ChaSenの利用をやめるか…

NAIST-jdicをChaSenとMeCabで利用する

日本語形態素解析器ChaSenとMeCabのMacPorts (chasen, mecab) が、解析器本体 (chasen-base, mecab-base) と辞書データおよび全体の3つのportに分かれました。 MeCabの全体のportがエンコーディングごとに用意されています。MacPortsでは依存関係を指定する…

SeekAnserでクイズに答える

窓の森で紹介されていましたが、SeekAnserという日本語のクイズに答えるJavaプログラムが公開されています。 【レビュー】形態素解析とWeb検索を組み合わせて日本語のクイズを解くプログラム「SeekAnser」 - 窓の杜 Project Web of SeekAnser -日本語クイズ…

NICT公開の意見(評価表現)抽出ツールをMacで動かす

情報通信研究機構(NICT)が開発した意見(評価表現)抽出ツールがオープンソースとして公開されました。このツールは、テキスト中に意見や評判・評価が表現されているかどうかを判定して、評価表現抽出、評価タイプ分類、評価極性判定、評価保持者抽出を行…

テキスト含意認識システムRITE-SDK

nlp

RITEはテキスト間の含意(推論)などを認識するテキスト理解システムのためのベンチマークタスクで、国立情報学研究所が主催する第9回NTCIR評価ワークショップのタスクになっています。RITEは、Recognizing Inference in TExtを表していますが、こちらの元と…

能動学習システムDUALISTを日本語テキストに適用する

機械学習手法に基づくテキスト分類は十分な学習データがあれば高い精度が期待できますが、分類ラベルを人手でつける作業に手間がかかります。そこで、効率的に分類器を学習させる手法として、効果的な分類対象を優先的にラベル付けさせる能動学習(active lea…

日本語の単語分割

日本語の単語分割処理は、一般に、単語辞書と単語間連接の規則や学習データに基づいて行われます。オープンソースとして有名なものがいくつもあります。 KAKASI - 漢字→かな(ローマ字)変換プログラム JUMAN - KUROHASHI-KAWAHARA LAB chasen legacy -- an ol…

MeCabで日本語WordCount on Hadoop

HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときの…

日本語構文解析システムKNPのMacPorts

KNPのMacPortsを登録しました。 http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.htmlMacPortsを登録するにあたっては、universal buildへの対応が一つポイントかと思います。KNPの場合、デフォルトでTinyCDBを利用しますが、tinycdbのportがuniversal build…

Wikipediaテキストを利用した自然言語処理

nlp

Wikipediaは比較的まとまったテキストが手に入る優れた題材として自然言語処理の研究にも利用されています。Wikipediaのテキストデータはダンプサイトからダウンロードできます。"Wikipedia:データベースダウンロード"のページからたどれます。 Wikipedia:デ…

自然言語処理・機械学習ツールのMacPortsを登録

自分用にと思って作っていた自然言語処理・機械学習用のMacPortsですが、せっかくなので本家に登録してみました。TinySVM: Support Vector Machines YamCha: Yet Another Multipurpose CHunk Annotator Google Code Archive - Long-term storage for Google …