TOPPAN 中世ギリシャ語対応AI-OCRエンジン開発 4月25日から印刷博物館企画展で成果を公開

TOPPANホールディングス株式会社とグループ会社のTOPPAN株式会社は、中世ギリシャ語の解読が可能なAI-OCRエンジンを開発した。ヴァチカン教皇庁図書館所蔵のギリシャ語写本データで検証を進め、認識精度95%以上を目指す。成果は4月25日から印刷博物館で開催される企画展「名著誕生展 ヴァチカン教皇庁図書館III+」でデモンストレーションする。

AI-OCR技術を用いた中世ギリシャ語から現代ギリシャ語への翻刻デモ

中世ギリシャ語の解読に向けた開発背景

古い文書には、歴史的に貴重な史実や地域文化に関する多様な情報が記録されている一方で、現代人にとって判読が難しい手書き文字で書かれているものが多い。これらの内容を正確に読み解き、文化を継承していくことは、日本に限らずグローバルな社会課題とされる。

TOPPANグループは、印刷博物館の設立準備以来、約30年間にわたりヴァチカン教皇庁図書館と複数のプロジェクトで協力してきた。グーテンベルク42行聖書の高精細デジタルアーカイブやキケロ・プロジェクト、共同展覧会など、古文書の解読や文化の継承に関する取り組みを重ねてきた。

100万字規模のデータを学習したAI-OCRエンジン

中世ギリシャ語は、時代や書き手によって字形が異なるほか、単語の一部が省略される場合や、現代とは異なる綴りが用いられるなど、表記が一定ではない。単語と単語の間に区切りを設けずに文章が書かれていることもあり、専門知識のない現代人には読み取りが困難とされる。

今回のAI-OCRエンジンでは、100万字規模の字形や行のデータベースを学習データとして用意した。さらに、ヴァチカン教皇庁図書館が保有する約5000点のギリシャ語写本のうち、既に付加情報を加えた50点、IIIF画像約400枚と翻刻テキストをAIの学習データとして活用する。専門家による目視確認も組み合わせ、解読精度の向上と品質担保の両立を図る。

また、TOPPANは2015年にAI画像認識技術を活用した「くずし字OCR」の研究開発を開始しており、2021年には古文書解読・利活用サービス「ふみのは(R)」、2023年にはスマホアプリ「古文書カメラ(R)」を展開してきた。これらで培ったAI-OCRの技術や知見が、中世ギリシャ語対応エンジンの開発につながった。

2026年4月25日から印刷博物館でデモンストレーション

この取り組みの成果は、4月25日から印刷博物館で開催される企画展「名著誕生展 ヴァチカン教皇庁図書館III+」で公開される。展覧会では、ヴァチカン教皇庁図書館より借用した資料とともに、ギリシャ語OCRのデモンストレーション映像も展示する。

TOPPANグループは、専門知識なしでは解読困難な中世ギリシャ語写本画像に対し、高精度なAI-OCRエンジンにより翻刻文を提供する環境整備を進める。ギリシャ語研究の活性化や、文化資産の保全と全世界の人々がアクセス可能な環境整備の両立を目指す。

関連記事

最新記事