[文献情報のデータベースとその利用に関する研究会報告資料 '94/3/8]

古文の用語索引作成に関する基礎的研究

−『源氏物語大成』を用いて−

上田英代 上田裕一 今西祐一郎
樺島忠夫 仲川隆弘 村上征勝 

  1. 用語索引作成の目的
     日本の古典索引の多くは、見出し単語がアイウエオ順に並び、活用語ならばその下に活用語尾を付けた形 や、接頭語や接尾語などが付いた形の単語があり、そこに巻番号やページ番号、行番号などが配列されてい る。見出し単語の下に助詞、助動詞も含めた形まで載せている索引も僅かながらある。
     索引は様々な形で活用されているが、例えば使用頻度の高い単語がどのような文脈の中で使われているの か、その使われ方は一定なのか、どんな特長があるのかを調べようとするとき、従来の形式のものだといち いちその本文のページや行にあたって、前後関係を含めて抜き書きにしなければならない。使用頻度が高け れば高いほどその作業を何度もしなければならず、意味の類似した単語や、正反対の意味の単語なども含め て比較検討しようとすると、この作業はかなり繁雑なものとなる。
     こうした作業を省力化し、見出し単語を引くだけで前後関係も含めた本文が参照できれば非常に便利であ るし、これがコンピュータ上で検索できれば更に高速化もできる。そこで、『源氏物語大成』の品詞情報付 きフルテキストデータベースを利用して、すべての単語に前後5〜6語を付加したデータを作り、その単語 をアイウエオ順に並べて、用語総索引(KWIC)を作成することにした。

  2. 作成の手順と作業(図1)
    1. 『源氏物語大成』の単語一つ一つにページ、行、行毎の出現順の番号を付ける。
    2. この単語一つ一つにフリガナ、他系のページ等をつける。
    3. 単語の前後に5〜6語ずつ付加する。
    4. 次に2. bでできたデータを体言グループと、用言グループに分け、フリガナ部分でソートする。
    5. 索引用に形を整える。

    (図1)

  3. 作成過程での問題点
    1. 『大成』の索引は、見出し単語がひらがなでアイウエオ順に並べられ、その中に漢字表記の単語を 含んでいる。コンピュータで機械的に単語をソートすると漢字混じりの単語や、漢字から始まって いる単語は、同一単語でも後のほうに並んでくるので、同一単語異表記、同音意義語をどうするか が問題となった(表1)。この問題は見出し単語をどういう順序で並べてゆくかの問題とも重なっ てくる。即ち単語の意味を重視して同一単語を一個所にまとめて並べるか、用法を重視して類似し た形の単語のまとまりで並べるかの問題でもある。
    2. 今回は、同一単語は一個所に集め、本文に出現する順に並べることとし、そのために同一単語とそ の複数形には同一フリガナをつけ、フリガナ部分でソートし一個所に集めた。後に、機械的にソー トした単語表と、単語の後ろからソートした逆引き用の単語表を添付するつもりである。

    見出し単語 フリガナ 本文中に出現する形
    おほとの オホトノ おほとの、おほ殿、大との、大殿
    かくもん カクモン かくもむ、御かくもん、御かくもむ
    こころ ココロ こころ、心、御心、御心とも
    みきのおとと ミキノオトト 右のおとと、右大臣
    みきのおほいとの ミキノオホイトノ みきのおほゐとの、みきの大殿、右のおほいとの、
    右のおほい殿、右の大との、右の大殿、右大殿、
    右大との
    みきのおほとの ミキノオホトノ みきの大殿、右のおほとの、右のおほ殿、
    右の大との、右の大殿、右大との
    (表1)


戻る

古典総合研究所ホームページへ