日本古文書のくずし字、GPU活用したAI技術で自動解析進む

日本古文書のくずし字、GPU活用したAI技術で自動解析進む

NVIDIAは5月20日(米国時間)、「AI Making Ancient Japanese Texts More Accessible|NVIDIA Blog」において、日本の古文書などで使われているくずし字を現代の漢字に転写するため、ディープラーニングを活用したOCRシステムの開発にGPUが活用されていると伝えた。GPUは学習トレーニングおよび推論の双方において不可欠な要素だと説明している。

くずし字は日本の古文書などで広く見られる表記方法の1つ。ただし、現代はくずし字を読める者は専門家の中でも限られていると言われている。記事では、このくずし字をディープラーニングを活用したOCRシステムを用いることで電子データに変換し、より多くのデータに研究者がアクセスできるようにする取り組みを紹介している。

国文学研究資料館が所蔵している17世紀から19世紀の古文書に関して研究者らがディープラーニングモデルのトレーニングを実施。この学習にはNVIDIAのGPUを使って1週間ほどの時間がかかったとされている。ただし、CPUだけを使った学習では学習を完成させることができなかったと説明している。

くずし字には何千もの文字があり、さらにその多くはデータセットではめったに発生しないためディープラーニングモデルでは認識させることが難しいという。それでも平均精度85%を達成し、これまでのモデルよりも優れた認識率を実現したとしている。最新のニューラルネットワークでは2000を超える文字を認識することができ、さらに文字数が300個未満のより簡単な文書であれば認識精度は95%に達するとのことだ。


関連記事

おすすめ情報

マイナビニュースの他の記事もみる
主要なニュースをもっと見る
社会のニュースをもっと見る
経済のニュースをもっと見る
政治のニュースをもっと見る
国際・科学のニュースをもっと見る
エンタメのニュースをもっと見る
スポーツのニュースをもっと見る
トレンドのニュースをもっと見る
生活術のニュースをもっと見る
地域のニュースをもっと見る

経済 アクセスランキング

ランキングの続きを見る

経済 新着ニュース

新着ニュース一覧へ

総合 アクセスランキング

ランキングの続きを見る

東京 新着ニュース

東京の新着ニュースをもっと見る

東京 コラム・街ネタ

東京のコラム・街ネタをもっと見る

特集

特集一覧を見る 動画一覧を見る

記事検索