
DeepSeek-OCR:視覚情報を「圧縮」してAIに読ませる革新的技術
はじめに
こんにちは、DIVXでAIエンジニアをしている山坂です。
私たちは普段、官公庁やエンタープライズ企業のDXを支援する中で、「紙のまま眠っている資産」をいかにデジタルの世界に引き上げるかという課題に直面し続けています。OCR(光学文字認識)は、もはや単なる文字起こしのツールではありません。LLM(大規模言語モデル)が全盛の今、OCRに求められているのは、人間が見ている「文脈」や「レイアウト」といった構造そのものを、AIが理解可能な形式で抽出する能力です。
今回は、2025年10月に発表された論文『DeepSeek-OCR: Contexts Optical Compression (arXiv:2510.18234)』を取り上げます。この論文が提示した「視覚情報の圧縮」というアプローチは、マルチモーダルAIが抱える計算量の課題に対する鮮やかな回答であり、同時に私たち日本のエンジニアにとって、新たな実務応用の可能性を開くものでした。
計算量の呪縛と、Optical 2D Mappingという解
なぜ、LLMに画像を読ませることはこれほどコストがかかるのでしょうか。その根本原因は、現在の主流であるTransformerアーキテクチャの特性にあります。
Transformerの中核にあるAttention機構は、入力されるシーケンス長($N$)に対し、計算量が2乗($O(N^2)$)で増加するという性質を持っています。画像データはテキストに比べて情報量が圧倒的に多いため、これを素直にトークン化してLLMに渡すと、シーケンス長が爆発的に増大し、メモリ消費と計算時間が指数関数的に跳ね上がってしまいます。これが、高精度なドキュメント理解を社会実装する際の最大のボトルネックでした。
DeepSeek-OCRが革新的なのは、この課題に対し「Optical 2D Mapping」という手法で挑んだ点です。これは、画像をただトークン化するのではなく、視覚情報を「意味のある構造」として保持したまま、より短いシーケンスへと圧縮する技術です。人間が文書をパッと見て「ここは見出し、ここは表」と抽象化して捉えるように、モデルもまた、視覚的なコンテキストを効率的な潜在表現へとマッピングします。これにより、情報の密度を保ちつつ、計算コストの源であるシーケンス長を劇的に削減することに成功しました。
構造維持の堅牢性
圧縮すると聞くと、エンジニアとしては「細かい情報が欠落するのではないか」と疑いたくなります。しかし、この論文ではその懸念を払拭するために、極めて説得力のある例を用いています。そのうちの一つが「化学式(構造式)」の認識です。
化学式は、OCRにとって最も過酷なテストケースの一つです。なぜならば、ベンゼン環の六角形や二重結合、元素記号の立体配置といった情報は、単なる文字の並びではなく、2次元的な「トポロジー(位相構造)」そのものが意味を持つからです。もし圧縮プロセスで位置情報が損なわれれば、化学的な意味は完全に崩壊し、正しい構造式として復元することは不可能です。
論文中の結果において、DeepSeek-OCRは複雑な有機化学の構造式の画像を与え、正確なSMILES記法として再構築できています。これは、Optical 2D Mappingが、画像という高次元情報を圧縮してもなお、その内部にある論理的なつながりを保持できているということです。
化学式という複雑な構造データを扱えるのであれば、その応用範囲は計り知れません。たとえば、複雑に入り組んだ表組みや、段組みが不規則な仕様書、あるいは手書きの注釈が入った図面など、ビジネス現場でありがちな「非定型なレイアウト」の解析も、十分に射程圏内と言えるでしょう。

(出典:arXiv:2510.18234 より引用)
日本語最適化への扉
技術的なブレイクスルーを確認したところで、私たちDIVXが注視しているのは「これをどう実務に使うか」という点です。
DeepSeek-OCRは非常に優秀なモデルですが、ベースモデルのままでは、日本の官公庁で見られる特殊な帳票や、縦書き・横書きが混在する複雑な日本語ドキュメントに対して、100%の性能を発揮できるとは限りません。ここで重要になるのが、特定のドメインに合わせてモデルを再教育する「ファインチューニング」です。
11月初頭に、LLMの高速化ライブラリとして知られる「Unsloth」が、DeepSeek-OCRの推論およびファインチューニングの手順を公式にサポートしています。
DeepSeek-OCR: How to Run and Fine-tune
このドキュメントの公開は、私たちにとって非常に大きな意味を持ちます。Unslothを用いることで、VRAM消費を抑えつつ、私たちが保有する日本語のデータセットを用いてDeepSeek-OCRを効率的に追加学習させることが可能になったからです。
ベースモデルが持つ「Optical 2D Mapping」という強力な構造理解能力(脳)に、私たちDIVXが持つドメイン知識(日本語のクセや業界用語、縦書き特有の文脈など)を教え込む。これにより、単に文字が読めるだけでなく、「日本の帳票として正しく意味を理解する」レベルまで、日本語処理の精度を引き上げることが期待できます。
まとめ
DeepSeek-OCRは、計算量の壁を技術的な工夫で乗り越え、化学式すら読めるほどの構造化能力を示しました。そしてUnslothによるファインチューニング環境が整ったことで、それを日本語環境に最適化する道筋も見えています。
DIVXでは、こうした最先端のアーキテクチャをいち早くキャッチアップし、自社の技術力として取り込むことで、お客様のDXを支援しています。もし、複雑なドキュメントのデータ化や、AIによる業務効率化にお悩みであれば、ぜひ私たちにご相談ください。
参考文献
DeepSeek-OCR: Contexts Optical Compression (arXiv:2510.18234)
DeepSeek-OCR: How to Run and Fine-tune (Unsloth Documentation)


