草書体の「くずし字」をスラスラと読める人は、日本人でもそう多くはないだろう。だが、くずし字を現代文字に変換する技術が進み、くずし字の知識のない人でも簡単に資料にアクセスできる技術が生まれている。

*  *  *
 日本には江戸時代以前に書かれた大量の文字資料が現存する。これらは歴史的、文化的価値を有するとともに、過去の地震や洪水などの記録を読み解くことで、現在の防災対策や治水にも役立てられる。しかしほとんどは草書体の「くずし字」で書かれており、多くの日本人は読むことができない。

 この文字文化の歴史的断絶をAIを活用することで乗り越えようとする試みが2017年、立命館大学アート・リサーチセンター(ARC)と凸版印刷の共同研究で始まった。プロジェクトの中心メンバーである赤間亮教授(59)はこう語る。

「我々が開発したシステムを使えば、くずし字解読の知識のない人でも簡単に膨大な過去の資料にアクセスできるようになります」

 凸版印刷はもともと活字をデジタルで読み取るハイレベルのOCR技術を持っており、その発展型として江戸時代以前のくずし字が読めるシステムを開発中だった。一方、立命館ARCは、20万件以上の古典籍(古書)や55万枚以上の浮世絵の巨大データベースを構築しており、システム上に電子テキストを蓄積する仕組みを早い段階から実現していた。プロジェクトは、双方の強みを生かす形でスタートした。

 システムの開発は、国文学研究資料館(東京都立川市)が保有する約60万字分のくずし字の形をAIに読み込ませることから始まった。くずし字で書かれた文章を画像データとして読み込むと、AIが1文字ずつにバラして解析し、読み方が付与されたデータベースと照合する。

 くずし字の形は書き手によって微妙に異なるが、これもディープラーニングと呼ばれるAIの学習によって読み取ることができるようになる。AIが判読できなかった文字は、人間の専門家がチェックして正確な読み方を蓄積している。

 立命館大学文学部では、実際にこのシステムを授業に活用している。また、立命館大学の教職員、学生などの登録利用者は、インターネット上の古典籍・古文書資料を閲覧しているとき、別ウィンドーでくずし字を現代の文字に変換できる。昨年にはケンブリッジ大学とカリフォルニア大学で本システムのワークショップを開催するなど、海外への発信にも力を入れている。

 現在、くずし字を読める日本人はそれほど多くない。赤間教授は、「特定の方向へのプロパガンダを防ぎ、正しい歴史認識を持つためにも、多くの人にくずし字が開かれる必要がある」と主張する。さらに、新たなコンテンツの誕生も期待している。

「古典籍が簡単に読めるようになれば、そこからインスピレーションを得て新たなコンテンツも生まれやすくなる。地方に眠る古文書は、観光資源にもなり得ます。日本文化の発信にも大いに役立つはずです」(赤間教授)

 現在、このシステムで読めるのは江戸・明治時代に出版された版本が中心であるが、手紙などの手書き資料、明治以降のペン書きくずし字の資料も読めるよう改良を検討している。(ライター・大越裕)

※AERA 2020年3月23日号