別称辞書自動生成ツール ANDit(Alternative-Names Dictionary tool)

概要

Web上、特にソーシャルネットワークサービスでは、文字数削減などの理由から正式名称以外の別名によって評判情報が記述されることが多くあります。本ツールでは、Wikipediaダンプデータを使用することで、正式名称に対する「略称」「愛称」「別名」にあたる別称の辞書を自動作成します。

 

本ツールによって作成された別称辞書は、Wikipediaのダンプデータを利用しているため、日々増え続ける固有名詞に対応可能であり、語句の追加も新しいダンプデータを用意するだけと容易です。また、比較的ストリクトなルールによってWikipediaから別称を抽出しているため、高い適合率(約90%)を示しています。

本ツールでは、例えば以下のような正式名称と別称が対応付いた辞書を自動生成可能です。

    • 魔法少女まどか☆マギカ > まどマギ
    • ELLEGARDEN > エルレ
    • 個人情報の保護に関する法律 > 個人情報保護法
    • ニコニコ生放送 > ニコ生
    • 青田典子 > バブル青田
    • ももいろクローバーZ > ももクロ
    • 横浜国際総合競技場 > 日産スタジアム
    • 河西智美 > チユウ
    • ユニバーサル・スタジオ・ジャパン > USJ
    • サッカー日本女子代表 > なでしこジャパン
    • ミュージックステーション > Mステ
    • 名古屋テレビ放送 > メ〜テレ
    • 全国高等学校野球選手権大会 > 夏の甲子園

 

使用に際して必要となるプログラム・データ

1. 本ツールのプログラム

以下のリンクより本ツールをダウンロードしてください。

※一部,不具合がありましたので,ツールのzipファイルを修正しました.既にダウンロード頂いた方は恐縮ですが,以下のリンクより再度ご取得ください(Dec. 19, 2015)

http://www.nlp.is.ritsumei.ac.jp/tools/ANDit.zip

 

プログラムはperl言語によって書かれています。標準的なperlの使用環境が必要となります。

 

2. Wikiダンプデータ

以下のリンクよりWikiペディアのダンプデータを取得してください。

http://dumps.wikimedia.org/jawiki/

 

必要ファイルは以下のとおりです。

jawiki-[xxxxx]-pages-articles.xml    : wikiの記事データ。圧縮され、複数に分割されてアップロードされている

jawiki-[xxxxx]-redirect.sql          : wikiのリダイレクトに関するデータ。

jawiki-[xxxxx]-page.sql              : wikiの全ページのタイトル・ページ番号に関するデータ

※[xxxxx]はデータがダンプされた日付を示すタイムスタンプ

※上記3つのファイルは、タイムスタンプが同じ物を使用してください。

 

使用方法

ダウンロードしたzipファイル中readmeファイルに従ってください。

 

参考文献

山西良典、福本淳一:Wikipediaの表記特徴を利用した別称コーパス生成ツールの開発、ARG WI2, No.3, pp. 57-62, 2013. [LINK]

 

Copyright

本ツールはフリーウェアのため無料で使用できます。本ツールを利用した研究を発表する際には、参考文献を参照し、研究代表者(山西良典:ryama@media.ritsumei.ac.jp)までご連絡いただけますと幸いです。

 

連絡先

ご不明な点等、お問い合わせは

山西良典(ryama@media.ritsumei.ac.jp)まで。