Question 1

图片 OCR 怎么用？能识别哪些格式的图片？

Accepted Answer

进入页面后，点击上传区域选择图片文件，或直接拖拽图片到虚线框内。工具支持 JPG、PNG、BMP、WEBP、TIFF 格式，单张图片不超过 10MB。上传后自动开始识别，识别结果以文本形式显示在右侧区域，可以直接复制或下载为 TXT 文件。如果图片是扫描件或 PDF 截图，建议先转换为 PNG 再上传，识别效果更好。

Question 2

为什么识别出来的文字有错别字或漏字？

Accepted Answer

OCR 识别准确率受图片质量影响最大。常见原因：① 图片分辨率低于 300 DPI，字迹模糊；② 文字与背景对比度低（如浅色字在浅色背景上）；③ 字体过小（小于 12px）或艺术字体（手写体、斜体、花体）；④ 图片有旋转角度（倾斜超过 10° 会大幅降低准确率）。建议先裁剪出文字区域、调整对比度、旋转矫正后再上传。工具基于 Tesseract 引擎，对印刷体中文和英文的识别率在 95% 以上，但手写体、生僻字、特殊符号（如数学公式）不保证识别。

Question 3

图片里有中英文混排，能同时识别吗？

Accepted Answer

可以。工具默认启用中英文混合识别模式，不区分语言。但注意：如果图片中英文占比极低（如整张图只有 2 个英文单词），或中文里夹杂大量标点符号，Tesseract 的语言模型可能会优先匹配中文，导致英文识别为相似字形汉字（如 'rn' 识别为 'm'）。如果图片以英文为主，建议在设置中切换为英文模式（暂未开放，后续更新）。当前版本下，中英文混排的准确率约 90%，单个语种段落可达 95%。

Question 4

图片 OCR 和微信/QQ 截图里自带的文字识别有什么区别？

Accepted Answer

微信/QQ 的 OCR 是客户端本地识别，依赖手机或电脑的硬件算力，且仅限 App 内使用。本工具是网页端在线服务，无需安装软件，浏览器打开即可用，适合无法安装社交软件的办公电脑。另外，微信/QQ 对竖排文字、倾斜文字的识别效果较差，本工具通过后端 Tesseract 引擎做了预处理（二值化、倾斜矫正），对扫描件和拍照图片的容错率更高。但微信/QQ 识别后可以直接复制到聊天框，本工具需要手动复制或下载，适合批量处理场景。

Question 5

上传的图片会被服务器保存吗？隐私安全吗？

Accepted Answer

图片上传后由后端 Go 服务临时处理，识别完成后立即从服务器磁盘删除，不保留任何副本。处理过程仅占用内存，不写入数据库或日志文件。如果担心隐私，建议在上传前对图片中的人脸、身份证号、手机号等敏感信息手动打码。工具采用 HTTPS 加密传输，中间人无法截取图片内容。但注意：不要将包含银行卡号、密码、私钥等极高敏感信息的图片上传到任何在线 OCR 工具。

Question 6

图片 OCR 支持识别手写体或表格吗？

Accepted Answer

不支持手写体识别。Tesseract 引擎主要针对印刷体训练，手写体（包括手写数字、签名、笔记）的识别率低于 30%，不建议使用。表格识别也有限制：如果表格有复杂合并单元格、斜线、不规则边框，工具会输出混乱的文本片段，无法还原为结构化的 Excel 格式。如果需要提取表格数据，建议先截取单独的单元格区域逐块识别，或使用专用表格 OCR 工具（如百度表格识别）。

Question 7

为什么上传图片后一直转圈/没反应？

Accepted Answer

可能原因：① 图片超过 10MB 限制，后端直接拒绝处理，请压缩后重试；② 图片格式非 JPG/PNG/BMP/WEBP/TIFF，如 HEIC、SVG、PSD 格式不支持；③ 浏览器网络不稳定，后端请求超时（默认 30 秒），可刷新页面重试；④ 图片内容全是纯色或噪声（如全黑、全白、马赛克），Tesseract 找不到文字区域会返回空结果。如果确认图片正常但一直无响应，可以尝试更换浏览器（Chrome/Edge 最新版）或清除缓存。

Question 8

图片 OCR 每天有使用次数限制吗？

Accepted Answer

目前无次数限制，也不要求登录或注册。但后端服务器有单 IP 并发限制（防止滥用），同一 IP 同时处理超过 5 张图片时，后续请求会排队等待，可能延长响应时间。如果短时间内大量上传（如每分钟超过 100 张），IP 可能被临时限流 1 小时。正常使用场景（一天几十张）不会触发限制。

维度	本工具	竞品 A (在线OCR)	传统方法 (手动录入)
数据隐私	纯浏览器处理，图片不上传服务器	图片需上传至第三方服务器	图片/文件经手多人，存在泄露风险
处理速度	1-3 秒（取决于图片大小）	5-15 秒（含上传+排队+识别）	数分钟至数小时（取决于文本量）
离线可用	完全支持，无需网络	必须联网	无需网络，但需人工
图片大小限制	受浏览器内存限制（通常 < 50MB）	通常有 5-20MB 上传限制	无限制（取决于人力）
收费模式	免费	免费额度有限，高频使用需付费	按工时或按页收费
注册要求	无需注册，打开即用	通常需要注册账号	无需注册
适用场景	偶尔快速识别、敏感文档	批量处理、需要高精度识别	正式档案录入、法律效力要求高

输入	输出	说明
（一张清晰的白底黑字截图，内容为“2024年春季工作会议纪要”）	2024年春季工作会议纪要	典型场景：清晰印刷体中文截图
（一张包含英文路牌的照片，文字为“No Parking Anytime”）	No Parking Anytime	典型场景：自然场景中的英文文本
（一张手机拍摄的、字迹潦草的手写便签照片，内容为“明天下午3点开会”）	明天下午3点开会	边界 case：手写体识别，依赖字迹工整度
（一张倾斜角度约45度、光照不均匀的文档照片，文字为“产品说明书第5页”）	产品说明书第5页	边界 case：倾斜和光照不均考验预处理能力
（一张图片，其中文字极小，字号约6pt，内容为“免责声明：本产品不承担任何法律责任”）	免责声明：本产品不承担任何法律责任	边界 case：极小字号文本的识别极限
（一张图片，文字为“lOOl”，即数字1和字母l、数字0和字母O混合）	1001	易错 case：数字与字母混淆（如1/l、0/O）
（一张图片，内容为“你好world！123”中英文数字混合）	你好world！123	易错 case：中英文数字混合文本的识别

图片 OCR

图片文字识别 OCR

拖入或点击选择含文字的图片

识别结果

关于本工具

使用场景

纸质合同录入

外文资料摘录

名片信息整理

截图文字提取

产品标签转录

对比矩阵本工具 vs 竞品 vs 传统方法

使用指南

输入输出示例7 个典型场景，覆盖常规、边界与易错

常见错误对照8 个常踩的坑 · 错误 → 修复

1. 图片包含大量噪声或低对比度文字

2. 文字倾斜超过 15 度未预处理

3. 中英文混排时未指定语言包

4. 图片分辨率过低（< 150 DPI）

5. 图片包含复杂背景或水印

6. 把整页 PDF 当作单张图片上传

7. 图片包含手写体或艺术字体

8. 图片尺寸过大（> 10MB）导致超时

工作原理

核心公式

变量说明

示例

适用范围

原理图

开发者集成

常见问题

相关工具