琉球大学工学部 上田 裕一
統計数理研究所 村上 征勝
上田 英代
[例]「空蝉」の巻の冒頭部分をこの方法で処理したものを以下に示す。
|
入力文章 ねられたまはぬままには我はかく人ににくまれてもならはぬをこよひなむはしめてうしとよをおもひしりぬれははつかしくてなからふましうこそおもひなりぬれとのたまへはなみたを
出力文章
出力文章2 |
UNIXのコマンドと働き
cat ファイルを統合したり、ファイルの内容を表示します。
fold 行を折りたたみを行います。
sort ファイルの内容を行単位に昇順、または降順のソートやマージをおこないます。
uniq ファイルの中の繰り返し行を通知します。
tail ファイル の後半の部分だけを出力します。
egrep 指定された文字列のパターンによるファイル行の検索を行います。
tr 標準入力ファイルから指定された文字列の置換や削除を行って
標準出力します。
sed ストリームエディタ(バッチ形式用のエディタ)です。
lex 字句解析プログラムを生成します。
awk 入力ファイルの中で指定されたパターンの文字列と一致する行を
探して指定の処理を実行します。
wc 文字数、語数、行数をカウントします。
単語分割ファイルから辞書の作成
cat genji1.jxw | tr -d '\012' | tr ' ' '\012' | sort |uniq |
tr ' \012' ',' | fold > gdic1.jxw
genji1.jxw → 単語分割された原文(桐壷の巻)
gdic1.jxw → 桐壷の巻の辞書
(7058語あり誤った分割がすぐに発見できる。)