#100 漢字データベースから始まる、人文学研究の未来

日本に暮らす人々は、昔から多くの漢字に囲まれて生活してきました。例えば現在、中学校卒業までに学習する常用漢字は2,136字あり、パソコンで使うことのできる漢字は数万字にも上っています。また現代ではなじみがないものの、古い文献では広く使われていた漢字もあります。そんな膨大な数の漢字を対象に、その形や意味といった情報を記録する研究を続ける人がいます。文学部研究科教授の池田証壽（いけだ・しょうじゅ）さんです。一体どのような作業を、何を目指して続けているのか。そこには、人文学研究の未来を見据えた挑戦がありました。

【神田いずみ・CoSTEP本科生／文学研究科修士2年】

（取材に応じてくださった池田さん）

約900年前の字書、データベースになる。

池田さんは現在、平安時代や鎌倉時代に書かれた漢字の辞書を対象に研究を進めています。その中から、12世紀の初めに書かれた『類聚名義抄（るいじゅみょうぎしょう）』を見せてもらいました。紙は茶色がかり、ところどころに虫食いの痕が見られます。そこに漢字とその読み方、意味、発音のアクセントが墨で書きつけられています。よく見ると、漢字は同じ偏やつくりを持つものどうしでまとめられ、並べられているようです。このように偏やつくりによって分類、配列した漢字の辞書は「字書」と呼ばれ、平安時代以降、日本で多く作られるようになったことが分かっています。

（写真は天理図書館が所蔵する原本の画像を書籍にした『新天理図書館善本叢書9　類聚名義抄観智院本一仏』（八木書店 2018）の一ページ。
原本は国宝に指定されている）

（こちらは池田研究室所蔵の字書『大広益会玉篇』。1631年に日本で出版された寛永版と呼ばれる増補改訂版だが、
オリジナルは543年に中国で出版された『玉篇』にまでさかのぼる）

この『類聚名義抄』には3万2千もの漢字が収録されています。池田さんの目標は、これらの漢字一つ一つを切り出し、漢字の画像やそれが掲載されているページ、その漢字について説明する文章といった情報を整理、蓄積し、コンピュータ上にデータベースを作ることです。さらに他の研究者や学生も利用できるように検索のシステムを構築することも検討しています。

（10世紀の字書『新撰字鏡』のデータベース。一つの行に一つの漢字の情報がまとめられており、例えばA列に掲載箇所、E列に部首、F列に漢字そのものが記載されている。パソコンで使えない漢字の場合は、記号とパーツを使ってその漢字を表現する。例えば100行目F列は、「冖」の下に「天」が組み合わさった漢字であることを示している）

（開発中の検索システム。説明してくれているのは開発の中心を担っている大学院博士課程の劉冠偉さん）

昔の漢字を「一人前」に

池田さんは20年以上、字書のデータベース化に関わり、日本の字書ではすでに『篆隷万象名義』、『新撰字鏡』のデータベースを公開しています。この二つのデータベースには合計約4万もの漢字が収録されています。なぜこの気の遠くなるような作業を進めているのでしょうか。池田さんは自身の研究を「基礎工事をやっている感じです」と例えます。字書のデータベース化によって、研究者は古い字書に書かれた漢字に手軽にアクセスすることができるようになります。すると、漢字研究は大きく発展します。例えば、データベースを活用して異なる時代に作られた字書どうしを比較し、かつて広く使われていた漢字や、漢字の形の変化を追うことができます。

それだけでも学術的意義のあることですが、池田さんはさらに、昔の漢字がかつて広く使われていたことを証明することで、その漢字をパソコンで使えるようになると考えています。文字をコンピュータ上で表すためには、その文字を示す世界共通あるいは日本共通の番号（コード）を定めなければなりませんが、コードの数は有限です。コードを与えるかどうかを決める際に重要な条件の一つが、広く使われていることなのです。現代社会で広く使われる漢字は真っ先にコードを与えられましたが、かつて広く使われていたものの現在ではあまり使用されない漢字は、未だにコードを与えられていません。しかし研究にもコンピュータが不可欠となった現在、昔の漢字をコンピュータ上で表せるかどうかは、漢字研究者のみならず歴史をはじめとする多くの人文学研究者にとって重要なことです。

（日本で定められた文字のコードであるJIS漢字コードの冊子。登録される字が少しずつ増え、現在は約1万字が登録されている）

池田さんは「今の時代は、コンピュータで入力できなければ文字じゃないっていう感じはありますよね。過去に使われた実績があるのに、一人前扱いされていない」と言います。その言葉には漢字への愛着と、漢字研究をはじめとする人文学研究の基盤を整備しようとする意志がありました。

連携が作り出す字書データベース

人文学研究の基礎として期待される字書データベースは、字書に掲載された漢字を画像として記録する作業と、字書に書かれた文章をテキストデータとしてコンピュータ入力する作業を通して進められます。現在一般に使われているものとは異なる形の文字を読み解き、さらにパソコンで使えない漢字を含むデータをコンピュータ入力していくためには、古い字書や情報処理の深い知識と、読解やデータ入力の妥当性に関する議論が必要です。池田さんは研究室の学生と議論を重ね、一つのチームとして協力ながら少しずつ作業を進めています。

（写真左から張馨方さん、池田さん、鄭門鎬さん、劉冠偉さん。張さんは字体、鄭さんは音韻、劉さんは情報処理に詳しい）

こうした連携は研究室内に留まりません。漢字で書かれた文献のデータベース化は国内のほか中国、韓国でも進められているため、時に海外に赴いて自身のデータベース化の進捗を報告し、他機関の研究に関する情報を得ることは欠かせません。また、人文学における情報技術活用をテーマとした学会にも参加しています。データベース化という手法を用いた研究は、文学や歴史学など人文学研究の様々な分野で行われています。データベース化とその活用を考える研究者どうしでの情報交換は、専門分野が異なるために難しい部分もありますが、とても有益なものです。字書データベースの構築は、一人の研究者による孤独な作業ではなく、国も分野も超えた専門家どうしの繋がりによって成り立っていました。

（2018年11月に、中国人民大学文学院の王貴元教授の招きで、日本古辞書に関する

集中講義を行った時の写真。池田さんの左の男性が王教授、右の女性は池田研出身の李媛さん（現京都大学））

古い字書に収められた膨大な数の漢字を対象に、データベースを構築することは、一見無謀なようにも見えてしまいます。しかし、それを進める池田さんは、地道な作業の先に漢字研究の発展、さらには人文学研究全体の研究環境の整備を見据えていました。未来の研究の礎を築く「基礎工事」は、データベース化に関わる専門家や学生とともに、少しずつ、かつ確実に進んでいきます。

・・・・・・・・・・・・・・・・・・・・・・・・・・・

今回紹介した研究は、以下の書籍にまとめられています。

日本漢字学会編『漢字学ことはじめ』日本漢字能力検定協会（2018）

池田証壽　２章「日本古辞書研究からの提言」