日本語Wordnetのデータ構造を理解する

提供: omotenashi-mind
移動先: 案内検索

日本語Wordnetとは、日本語の持つ語彙を体系化した情報を提供しています。
日本語Wordnetのデータはアメリカのプリンストン大学で開発された「Princeton WordNet」の定義に対応する形で作成されています。

活用すれば、日本語シソーラスの実現やキーワードの意味解釈にも役立つはずです。

ここでは、バージョン1.1で展開されている日本語Wordnetのデータ構造について簡単に解説いたします。

はじめに

synsetについて

日本語Wordnetのデータを利用する上で、「synset」の理解が重要です。
「synset」とは、類義する単語をグループ化する概念情報を表します。すべての単語はいずれかの概念に属するようにまとめられています。
また、その概念同士の関係についても体系化され、管理されています。

日本語Wordnetデータについて

日本語Wordnetは目的別にいくつかの形式でデータを提供しています。
ここでは、sqlite3で提供されている日本語と英語のWordnetデータをベースにまとめます。


データ構造

テーブル一覧

(データ用テーブル)

テーブル名 説明
1 word 日本語および英語の単語情報
2 synset 単語の持つ概念をまとめたもの
3 sense 単語と概念の紐付けを管理する
4 synlink synset間の関係性を管理する
5 ancestor synset間の関係性の深さ(世代数)を管理する
6 xlink synsetと上位オントロジーSUMO(※)との関係性を管理する
7 variant 単語の特殊な読み方を管理するためのテーブルと思われる。日本語Wordnetではデータ無し。

※)SUMOとはSuggested Upper Merged Ontologyの略.

(データ定義用テーブル)

テーブル名 説明
1 pos_def 品詞の種類(名詞、動詞等)を定義します。
2 link_def synset間の関係性の種類について定義します。
3 synset_def synsetそのものの定義を表します。
4 synset_ex synsetの拡張的な定義を表します。