リコー 生成AIによる図表の読み取り能力・推論能力を評価する独自ベンチマークを無償公開 国内の技術基盤強化やデータ活用高度化に寄与
株式会社リコーは、図表を含む日本語ドキュメント理解のAIの推論(リーズニング)性能を評価する独自ベンチマークツール「JDocQA Reasoning Benchmark」を開発し、5月29日より無償公開している。これは、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する、国内の生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」基盤モデル開発第3期の一環として取り組んでいるもの。同データセットは、図表を含む日本語業務文書に対して、単なる情報抽出にとどまらず、計算・比較・傾向分析など複数段階の推論能力を評価できる点が特徴となっている。
▶ 公開先:https://huggingface.co/datasets/ricoh-ai/JDocQA-Reasoning
図表を含む情報の読み取りとその性能評価ツールを開発
生成AIの技術の進化やそれに伴う社会的な広がりにより、AIが複雑な情報を含む非構造化データをいかに正確に理解し、論理的に推論できるかが重要視されている。一方で、特に日本語ドキュメント特有の図表を含む情報を正確に解析・評価することは依然として難しい課題となっている。
その中でリコーは今回、図表を含む多様なドキュメントを高精度に読み取り推論できるマルチモーダル大規模言語モデルの基本モデル「Qwen3-VL-Ricoh-32B-20260227」および「Qwen3-VL-Ricoh-8B-20260227」を開発。あわせて、その性能を適切に評価するための基盤整備として、同ベンチマークツール「JDocQA Reasoning Benchmark」の開発に取り組んだ。
ベンチマークツール「JDocQA Reasoning Benchmark」の特徴
◆ 図表理解と多段階推論に特化した独自QAを新規付与
視覚とテキストの両方の情報を活用する日本語の質問応答データセットであるJDocQAのテスト画像のうち、棒グラフ・折れ線グラフ・財務諸表・路線図など20種類以上の図表を含むサブセットを対象に、リコーが独自に一問一答形式のQAアノテーションを新規で付与。全1,287問で構成されている。QAは図表に含まれる内容に関する質問に限定し、以下の多様なタスクを設計することで、図表の読み取り能力と推論能力の多角的な評価が可能となっている。
・抽出:図表やフローに示された情報をそのまま取り出す
・計算:抽出値をもとに四則演算・比率・統計的集約などの数値処理を行う
・比較:複数の値や要素を対比し関係性を明らかにする
・補完:欠落データを既存要素から推定・再構成する
◆オープンソースでの公開
同データセットは、評価コードをApache License 2.0、QAアノテーション部分をCC BY-SA 4.0で公開しており、商用・非商用を問わず幅広く利用できる。
AI開発を通じて企業の業務革新の支援を目指す
リコーは1980年代にAI開発を開始し、2015年からは画像認識技術を活かした深層学習AIの開発を進め、外観検査や振動モニタリングなど、製造分野への適用を行ってきた。2021年からは自然言語処理技術を活用し、オフィス内の文書やコールセンターに寄せられた顧客の声(VOC)などを分析することで、業務効率化や顧客対応を支援する「仕事のAI」の提供を開始した。
さらに、2022年からは大規模言語モデル(LLM)の研究・開発にもいち早く着手し、2023年3月にはリコー独自のLLMを発表。その後も、700億パラメータという大規模ながら、オンプレミス環境でも導入可能な日英中3言語対応のLLMを開発するなど、顧客のニーズに応じて提供可能なさまざまなAIの基盤開発を行っている。また、画像認識や自然言語処理に加え、音声認識AIの研究開発も推進し、音声対話機能を備えたAIエージェントの提供も開始している。
同社は、今回の無償公開を通じて、生成AIの推論性能向上と実用化を支援して企業のデータ活用の高度化に貢献することを目指す。また、同社の企業理念「“はたらく”に歓びを」の実現に向けて、業務革新と付加価値創出に取り組むとしている。