UNIXシステムを使った古文の単語処理

上田裕一(琉球大学工学部)
村上征勝(統計数理研究所)
上田英代(放送大学)   

<あらまし>
 1990年より、池田亀鑑編著の『源氏物語大成』(1)の本文データベースを作成し、その単文分割、品詞分類等を行い、各巻毎の品詞別使用頻度や、語数、文長その他の文法情報を用いて、源氏物語を様々な角度から計量分析しようと試みている。源氏物語には既に総索引が完備されており、『フロッピー版古典対照語い表』(2)によって源氏物語全体の品詞別使用頻度や、同時代他作品との比較等はなされている。しかし、成立過程や複数作家説を検討するためには文体や、特定語の各巻や各節毎の比較検討は必要不可欠なので、そのためにも本文データベースの作成は、急がれた訳である。
 データベース作成にあたっての問題点や、単語分割する際の考慮すべき点を提示し、順次解決を試みたい。

<キーワード>
 源氏物語、本文データベース、UNIXシステム、単語の自動分割、平均文長

  1. はじめに
     『源氏物語大成』は下記のように底本に青表紙本、大島本、池田本を使っているが、データベース化した理由は、諸本の異文が詳しく載せられていること、原文にできるだけ近い体裁をとり平仮名が多く機械読み取りがしやすいこと、語彙索引が完備していることによる。

               桐壷、夢の浮橋、初音、浮舟、    ・・・・・・ 池田本
               花散里、柏木、早蕨             ・・・・・・ 青表紙本
               その他の諸帖                   ・・・・・・ 大島本
      

     OCRによる読み取りの後、原文と対比しての修正は手作業で行った。
     単語分割にはUNIXシステムを使用したが、その際に単文毎の分割が必要となり『日本古典文学体系』(3)を参照して手作業によって、句点をつけた。それ以外にはできるだけコンピュータを利用することを考えている。

  2. データ入力
     データ入力に用いたOCRは、富士電気のXP−50Sである。この機械はB4用紙の印刷文字を50枚まで連続読み取りが可能なので、大成本をコピーして機械にかけた。読み取り速度は、1枚約1分であった。見開き2ページ分をB4版1枚にコピーすると源氏物語54帖で948ページである。各巻毎にファイルを作る作業時間がかかると、多少のトラブルが発生するので、読み取り作業には延べ23時間程かかった。
     読み取った結果は<図1>となる。これによると機械誤読率は、1ページ980文字中4〜5%程度である。主な誤読字は、<図2>のごとくである。このOCRは漢字第一水準までしか対応していないので第二水準の漢字は、ワープロで修正入力した。第二水準にもない漢字は外字を作成することも考えたが、印刷機が対応できないのと、単語分割の際、機械によっては文字として認識できない場合があるので、古典大系本の漢字又は平仮名をあてた。又読み取りの際、行間の認識が不正確な為その修正作業も必要となり、原文に忠実なデータベースにするには、かなりの修正作業が必要であった。


















    <図1>


    <図2>

  3. UNIXシステムを使っての単語分割
    1. 句点による分割
       手作業によって修正されたフルテキストデータベースを様々な形で活用する為には、必要とされる単位で区切らなければならない。最初に行ったのが、句点による分割である。これは古典文学大系を参照にして、手作業で大成本のテキストに句点をつけた。但し古典大系で終止形でも、大成本で終止形でないものは、句点はつけなかった。このデータを、UNIXシステムを使って処理すると、源氏物語各巻の総字数<図3>、平均文長<図4>、分散等が出る。

      <図3>

      <図4>

       <表1>は、各巻の平均文長を用いて、前半の44巻と後半の10巻の平均値に差があるかどうかを調べた結果である。自由度52のt分布の5%点の値は約1.675であるので有意水準5%のt検定では平均文長に差があるとはいえない。

         

      源氏物語・文の長さに関するt検定の結果
      文の数
      平均文長
      総字数
       1〜44巻の平均値   281.73  49.73 13883.73
      45〜54巻の平均値   500.60  52.05 24916.10
      平均値の検定 t値    -2.971  -1.171  -3.065
       自由度     52    52    52
      <表1>

       また<図5>は、各巻における文長の分布の類似性を数量化V類にかけて調べた結果である。「幻」、「匂宮」、「早蕨」の3巻は、他51巻と多少異なった分布となっている。しかし、成立過程論の諸問題を解くためには、文長のデータだけでは不十分であり、武田説の紫上系巻々と玉鬘系巻々、宇治十帖に関し分布に特徴は見られなかった。

      <図5>

    2. 手作業による単語分割から自動分割へ
       1〜8巻までを手作業で単語分割し、その単語を集めて辞書を作る。その辞書を使って1〜8巻までを自動分割し<図6>、手作業による分割との同一性を確認する。その後分割していない巻を自動分割する。<図7>

      <=いつれ-><=の-><=御時-><=に-><=か->。<=女御->更衣<=あまた-><=さふらひ-><=給-><=ける-><=なか-><=に-><=<=いと-><=やむことなき->-><=きは-><=には-><=あら-><=ぬ-><=か-><=すくれ-><=て-><=時めき-><=給-><=あり-><=けり->。<=はしめ-><=より-><=我-><=は-><=と-><=思あかり-><=給へ-><=る-><=御方¥¥めさましき-><=もの-><=に-><=おとしめ-><=そねみ-><=給->。<=おなし-><=ほと-><=それ-><=より-><=下らう-><=の-><=更衣-><=たちは-><=まして-><=やすから-><=す->。<=あさ-><=ゆふ-><=の-><=宮つかへ-><=に-><=つけて-><=も-><=人->の<=心-><=を-><=のみ-><=うこかし-><=うらみ-><=を-><=おふ-><=つもり-><=に-><=や-><=あり-><=けむ-><=いと-><=あつしく-><=なり-><=ゆき-><=もの心ほそけに-><=さと-><=かち-><=なる-><=を-><=い-><=よ->¥¥<=あ-><=かす-><=あはれなる-><=物-><=に-><=おもほし-><=て-><=人-><=の-><=そしり-><=を-><=も-><=え-><=はゝから-><=せ-><=給は-><=す-><=世-><=の-><=ためし-><=に-><=も-><=なり-><=ぬ-><=へき-><=御もてなし-><=也->。<=かんたちめ-><=うへ人-><=なと-><=も-><=あいなくめ-><=を-><=そはめ-><=つ->ゝ<=いとまはゆき-><=人-><=の-><=御おほえ-><=なり->。<=もろこし-><=に-><=も-><=かゝる-><=こと-><=の-><=おこり-><=に-><=こそ-><=世-><=も-><=みたれ-><=あしかり-><=けれ-><=と-><=やう->¥¥<=あめのした-><=に-><=も-><=あちきなう-><=人-><=の-><=もてなやみくさ-><=に-><=なり-><=て-><=楊貴妃-><=の-><=ためし-><=も-><=ひき-><=いて-><=つ-><=へく-><=なり-><=ゆく-><=に-><=いと->
      <図6>

      <=世の中-><=かはり-><=て-><=後-><=よろつ-><=ものうく-><=おほされ-><=御身-><=の-><=やむことな-><=さも-><=そふ-><=に-><=や-><=かる¥¥しき-><=御->じ<=の-><=ひ-><=ありき-><=も-><=つゝましう-><=て-><=こゝ-><=も-><=かしこ-><=も-><=おほつかなさ-><=の-><=なけき-><=を-><=かさね-><=給ふ-><=むくひ-><=に-><=や-><=なを-><=われ-><=に-><=つれなき-><=人->の<=御-><=心を-><=つきせす-><=のみ-><=おほし-><=なけく->。<=今-><=は-><=まして-><=ひまなう-><=たゝ人-><=の-><=やうに-><=て-><=そひ-><=おはします-><=を-><=いま-><=きさき-><=は-><=心やましう-><=おほす-><=に-><=や-><=うちに-><=のみ-><=さふらひ-><=給へ-><=はた-><=ち-><=ならふ-><=人-><=なう-><=心-><=や-><=すけ-><=なり->。
      <=おりふし-><=に-><=したかひ-><=て-><=は-><=御あそひ-><=なと-><=を-><=このましう-><=世-><=の-><=ひ->ゝ<=く-><=はかり-><=せ-><=させ-><=給-><=つゝ-><=今->の<=御-><=ありさま-><=しも-><=めてたし->。
      <=たゝ-><=春宮-><=を-><=そい-><=とこ-><=ひ-><=しう-><=思ひ-><=きこえ-><=給-><=御-><=う->。
      <=しろみ-><=の-><=なき-><=を-><=うしろめたう-><=おもひ-><=きこえ-><=て->大將<=の-><=君-><=に-><=よろつ-><=きこえ-><=つけ-><=給ふ-><=も-><=かたはら-><=いたき-><=ものから-><=うれし-><=と-><=おほす->。
      <図7>

    3. 『フロッピー版古典対照語い表』を利用しての分割
       人間の手作業には、単位認定に不統一が生じやすい為、できる限りの自動化を試みる。
      イ)『フロッピー版古典対照語い表』の辞書より、源氏物語に使われている語のみの辞書を作る。
      ロ)濁音、半濁音を清音になおす。
       イ)によって作られた辞書には、濁音、半濁音があり、大成本には一切、濁音、半濁音がないので、まず辞書の語句をすべて清音になおした。

      <UNIXシステムviエディターを使用>

               vi     gkoten.dat
                  : %s/だ/た/g   ↓     (“だ”を“た”になおす)
                  : 1  ↓                 (ファイルの先頭へ戻る)
                  : w  ↓                 (上書きしてセーブする)
                  : q! ↓                 (終了)
             

      次に、見出し語だけを集めた辞書を作る。

      ハ)辞書による自動分割
      c.でできた見出し語のみの辞書(平仮名・清音のみ)で自動分割を試みる。

             gsplit_s     g1.jxw     sLtgdic.jxw

      これは全文を、辞書に入っている語150語ずつでさがして切ってゆくものである。
      この辞書は、平仮名のみでできているため漢字表記の語は、分割できなかった。<図8>

         

      <=いつれ-><=の->御時<=に-><=か->。女御更衣<=あまた-><=さふらひ->給<=け->る<=なか-><=に-><=いと-><=やむ-><=こと-><=な-><=き-><=きは-><=には-><=あ-><=ら-><=ぬ-><=か-><=すく->れ<=て->時<=め-><=き->給<=ありけ->り。<=はしめ-><=よ->り我<=は-><=と->思<=あかり->給<=へ->る御方¥¥<=めさまし-><=き-><=もの-><=に->お<=とし-><=め-><=そねみ->給。<=おなし-><=ほと-><=それ-><=よ->り下<=らう-><=の->更衣<=たち-><=は-><=まして-><=やす-><=からす->。<=あさゆふ-><=の->宮<=つか-><=へに-><=つけ-><=て-><=も->人<=の->心<=をの-><=みう-><=こか-><=し-><=うらみ-><=を-><=おふ-><=つもり-><=に-><=や-><=ありけ->む<=<=い-><=と->-><=あつし-><=く-><=なり-><=ゆき-><=もの->心<=ほ-><=そ-><=けに-><=さとかち-><=なる-><=を-><=<=い-><=よ->->¥¥<=あかす-><=あはれ-><=なる->物<=に-><=お<=も->-><=ほし-><=て->人<=の-><=そしり-><=を-><=も-><=え-><=は->ゞ<=から-><=せ->給<=はす->世<=の-><=ためし-><=に-><=も-><=なり-><=ぬ-><=へ-><=き->御<=もてなし->也。<=かんたちめ-><=<=う-><=へ->->人<=なと-><=も->あ<=い-><=なく-><=め-><=を-><=そはめ-><=つ->ゝ<=いとま-><=は-><=ゆき->人<=の->御<=おほえ-><=なり->。<=もろこし-><=に-><=も-><=か->ゝる<=ことの-><=おこり-><=に->り<=に-><=こそ->世<=も-><=みたれ-><=あ-><=しか->り<=け->れ<=と-><=やう->¥¥<=<=あ-><=め->-><=の-><=し-><=たに-><=も->あちきなう人<=の-><=もてなやみくさ-><=に->
      <図8>

    4. 辞書の整備
      イ)手作業で分割した、1〜8巻までの辞書と、古典対照語い表の辞書を合成し、その辞書で自動分割する。<図9>

      <=いつれ-><=の-><=御時-><=に-><=か->。<=女御-><=更衣-><=あまた-><=さふらひ-><=給-><=ける-><=なかに-><=いとやむことなき-><=き-><=はに-><=は-><=あら-><=ぬか-><=すくれ-><=て-><=時めき-><=給-><=ありけ-><=り->。<=はしめ-><=より-><=我-><=は-><=と-><=思あかり-><=給へる-><=御方¥¥めさましき-><=もの-><=に-><=おとしめ-><=そねみ-><=給->。<=おなし-><=ほと-><=それ-><=より-><=下らう-><=の-><=更衣-><=たちは-><=まして-><=やすからす->。<=あさゆふ-><=の-><=宮つかへ-><=に-><=つけて-><=も-><=人-><=の-><=心を-><=のみ-><=うこかし-><=うらみ-><=を-><=おふ-><=つもり-><=に-><=や-><=ありけ-><=む-><=いと-><=あつしく-><=なり-><=ゆき-><=もの心ほそけに-><=さとかち-><=なる-><=を-><=いよ¥¥-><=あかす-><=あはれなる-><=物-><=に-><=おもほし-><=て-><=人-><=の-><=そしり-><=を-><=も-><=え-><=は->ゞ<=から-><=せ-><=給はす-><=世-><=の-><=ためし-><=に-><=も-><=なり-><=ぬ-><=へき-><=御もてなし-><=也->。<=かんたちめ-><=うへ人-><=なと-><=も-><=あいなくめ-><=を-><=そはめ-><=つゝ-><=いとまはゆき-><=人-><=の-><=御おほえ-><=なり->。<=もろこし-><=に-><=も-><=かゝる-><=ことの-><=おこり-><=にり-><=にこそ-><=世-><=も-><=みたれ-><=あしかり-><=けれ-><=と-><=やう¥¥-><=あめのした-><=に-><=も-><=あちきなう-><=人-><=の-><=もてなやみくさ-><=に-><=なり-><=て-><=楊貴妃-><=の-><=ためし-><=も-><=ひきいて-><=つ-><=へく->
      <図9>

      ロ)辞書の中に、活用語は語尾をすべて含めて入れる。

    5. d.の辞書を使っての自動分割を試みる。

<参考文献>
(1)池田亀鑑編著              源氏物語大成 (1984) 中央公論社
(2)宮島達夫・中野洋・鈴木泰・石井久雄編  フロッピー版古典対照語い表 (1939) 笠間書院
(3)山岸徳平校注              日本古典文学大系(1958)岩波書店


戻る

古典総合研究所ホームページへ