计算机视觉

浏览器 OCR 与可选 AI 处理

2026-05-06

阅读时长 8 分钟

光学字符识别 (OCR) 已从简单的模板匹配演变为复杂的神经网络。今天，我们可以在注重隐私的本地引擎和高精度的云端 AI 之间做出选择。让我们来对比一下。

1. 本地 OCR：Tesseract.js 与浏览器

在本地模式中，Tesseract.js 会在浏览器 Worker 中执行识别，所选图片不会发送到本站服务器；但首次识别前可能仍需下载语言数据和库资源。

多模态模型可以把视觉识别与基于语言的提取和转换结合起来。本站 AI 模式会通过服务器将图片和所选任务发送给配置的 Gemini 模型，因此不适合必须留在设备端的数据。

AI OCR 可以处理：

在我们的OCR 工具中，我们提供两种模式。用户可以先使用本地引擎完成快速、私密的任务，对于复杂的文档则切换到“AI 增强”。

本地 OCR 应使用清晰、方向正确且对比度足够的图片。当前版本将所选图片交给 Tesseract.js，不宣称自动执行灰度化或二值化预处理。

从将报销收据数字化，到从视频教程中提取代码片段，OCR 是现代工作流中不可或缺的工具。

需要设备端处理时请选择本地模式；只有在可以接受云端处理时才使用 AI 模式。准确度会受到语言、画质、布局、手写体和模型行为影响，重要结果应人工复核。