本ツールによって作成された別称辞書は、Wikipediaのダンプデータを利用しているため、日々増え続ける固有名詞に対応可能であり、語句の追加も新しいダンプデータを用意するだけと容易です。また、比較的ストリクトなルールによってWikipediaから別称を抽出しているため、高い適合率(約90%)を示しています。
本ツールでは、例えば以下のような正式名称と別称が対応付いた辞書を自動生成可能です。
1. 本ツールのプログラム
以下のリンクより本ツールをダウンロードしてください。
※一部,不具合がありましたので,ツールのzipファイルを修正しました.既にダウンロード頂いた方は恐縮ですが,以下のリンクより再度ご取得ください(Dec. 19, 2015)
http://www.nlp.is.ritsumei.ac.jp/tools/ANDit.zip
プログラムはperl言語によって書かれています。標準的なperlの使用環境が必要となります。
2. Wikiダンプデータ
以下のリンクよりWikiペディアのダンプデータを取得してください。
http://dumps.wikimedia.org/jawiki/
必要ファイルは以下のとおりです。
jawiki-[xxxxx]-pages-articles.xml : wikiの記事データ。圧縮され、複数に分割されてアップロードされている
jawiki-[xxxxx]-redirect.sql : wikiのリダイレクトに関するデータ。
jawiki-[xxxxx]-page.sql : wikiの全ページのタイトル・ページ番号に関するデータ
※[xxxxx]はデータがダンプされた日付を示すタイムスタンプ
※上記3つのファイルは、タイムスタンプが同じ物を使用してください。
ダウンロードしたzipファイル中readmeファイルに従ってください。
ご不明な点等、お問い合わせは