如何改善 Tesseract 的 OCR 质量

Author： Sky1Wu
发布时间：January 14, 2021
4760views
No comments
1934 words
Categories：笔记

最近想重构我之前写的明日方舟公招计算器的代码，其中一个原因就是之前的方案识别速度太慢了，因为用的百度的 API，图片上传到服务器，提取出 tag，还要再上传到百度识别再返回，这个过程需要几秒的时间，如果遇到网络不好的情况就更慢了，所以我决定还是使用 Tesseract 在本地进行识别。

但是在本地识别还是有两个问题，一是明日方舟游戏内有全屏随机飘散的粒子特效，截图时难免会截到，这会对 OCR 造成干扰。其次是在使用 Tesseract 官方提供的 chi_sim.tessdata 字库的情况下，如果使用 legacy 引擎，速度依然很慢，个人体感和上传到百度的速度差不了多少；如果使用新的 LSTM 引擎，对 tag 的识别结果就是几乎不可用的状态。

图片处理

对于第一个问题，就要对图片进行一些处理，提取出文字部分，去除其它的干扰部分。之前我只对图片做了二值化处理，用百度的 API 识别的话基本是够用了，但是如果要用 Tesseract 在本地识别就有问题了。

首先，要识别的图片是这个样子：

1610526333498349

对这些图片直接进行 OCR 是没有问题的。

但是还有一些是这个样子：

要想办法去除这些点，首先依然是对图片进行二值化处理。

img = cv2.imread(file_name)  # 读取图片
img = cv2.resize(img, (320, 100)) # 强制缩放图片的大小，方便后面处理
grayimg = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # # 转为灰度图
_, bwimg = cv2.threshold(grayimg, 127, 255, cv2.THRESH_BINARY)  # 二值化

cv2.threshold() 这个函数的四个参数分别为灰度图、二值化的阈值、高于或低于阈值后设置的新值、进行二值化的方法。

这个函数有两个返回值，第一个是阈值，这里用不到就直接忽略了，第二个就是二值化之后的图像。

show

现在要去掉图片上多余的点，首先想到的办法是腐蚀操作。

kernel = np.ones((5, 5), np.uint8) # 用于腐蚀的内核，大小为 5x5
erosion = cv2.erode(bwimg1, kernel, iterations=1)

erode() 的三个参数分别为被处理的图像、用于腐蚀的内核和迭代次数。

但是出来的结果并不好，由于点的面积过大，无论怎么调整参数，都无法在保证文字完整的情况下腐蚀掉点。

那就换别的方法。

先找出图中的所有白色色块，并计算面积，因为点的面积一般比较小，所以设置一个阈值，将面积小于阈值的点都填充掉。

contours, _ = cv2.findContours(bwing, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)  # 寻找轮廓

show

这里为了看起来清楚一点我把轮廓绘制在了原图上。

然后筛选出面积过小的区域。

noise = []

for contour in contours:
    area = cv2.contourArea(contour)
    if area <= 40:
        noise.append(contour)

可以看到需要删除的点已经被选中了，然后将其填充为黑色。

cv2.fillPoly(bwimg1, noise, 0)

效果很好，看起来问题已经完美解决了。

但是在使用的过程中，很快问题又出现了。由于有些字的笔画中包含一些面积较小的点，同样会被脚本识别为噪点被处理掉，导致文字不完整的情况出现。阈值设置小了清除不掉噪点，设置大了会误伤文字，那么这个方法也不能用了。

继续寻找其它方法。

思考了一会，我突然想到，虽然没法准确地找到噪点，但是可以找到文字的位置啊！

图片上的文字虽然每个之间都是分开的，但是距离非常近，那么就可以先对图片进行一次膨胀操作。

kernel = np.ones((3, 11), np.uint8)
dilation = cv2.dilate(bwimg1, kernel, iterations=1)  # 膨胀

这样就可以让文字连接为一个整体了。因为文字只有一行，所以设置内核为 3x11 让它更多地横向膨胀。

现在只要找到面积最大的区域，就是文字的位置了。

contours, _ = cv2.findContours(dilation, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)  # 寻找轮廓
text_area = max(contours, key=lambda x: cv2.contourArea(x))

再生成这个轮廓的最小外接矩形，框选出文字。

rect = cv2.minAreaRect(text_area)
box = cv2.boxPoints(rect)
box = np.int0(box)

这样就完美地选出了文字的区域。

最后将这个区域外的部分填充为黑色

stencil = np.zeros(bwimg.shape).astype(bwimg.dtype)
color = [255, 255, 255]
cv2.fillPoly(stencil, [box], color)

result = cv2.bitwise_and(bwimg, stencil)

就得到了一个完美的，没有噪点只有文字的图片。

现在使用 Tesseract 官方的 chi_sim.tessdata 字库对其进行 OCR，已经可以 100% 准确识别了（至少我这里的 700+ 张图片没有出现错误）。

训练字库

因为我这个使用场景 OCR 的内容非常固定，所以针对其训练一个专用的字库能极大地提升识别速度。

我从一百多张游戏截图中提取了 700+ 张图片用于字库的训练，具体的训练方法参考了下面这些内容：

最后训练出的字库文件大小仅有 300 多 KB，相比 chi_sim.tessdata 的 40 多 MB 可以说几乎忽略不计了。而速度提升也是相当明显，在我的 MacBook Pro 对一份有 778 页的 tif 文件，分别采用两个字库进行识别，其它参数不变。chi_sim.tessdata 耗时一分半，而我训练出的字库不到 2 秒，可以说提升巨大。

Last modification：January 15th, 2021 at 10:15 am

If you think my article is useful to you, please feel free to appreciate

如何改善 Tesseract 的 OCR 质量

Sky1Wu • 2021 年 01 月 14 日

图片处理

首先，要识别的图片是这个样子：

1610526333498349

对这些图片直接进行 OCR 是没有问题的。

但是还有一些是这个样子：

要想办法去除这些点，首先依然是对图片进行二值化处理。

img = cv2.imread(file_name)  # 读取图片
img = cv2.resize(img, (320, 100)) # 强制缩放图片的大小，方便后面处理
grayimg = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # # 转为灰度图
_, bwimg = cv2.threshold(grayimg, 127, 255, cv2.THRESH_BINARY)  # 二值化

cv2.threshold() 这个函数的四个参数分别为灰度图、二值化的阈值、高于或低于阈值后设置的新值、进行二值化的方法。

这个函数有两个返回值，第一个是阈值，这里用不到就直接忽略了，第二个就是二值化之后的图像。

show

现在要去掉图片上多余的点，首先想到的办法是腐蚀操作。

kernel = np.ones((5, 5), np.uint8) # 用于腐蚀的内核，大小为 5x5
erosion = cv2.erode(bwimg1, kernel, iterations=1)

erode() 的三个参数分别为被处理的图像、用于腐蚀的内核和迭代次数。

但是出来的结果并不好，由于点的面积过大，无论怎么调整参数，都无法在保证文字完整的情况下腐蚀掉点。

那就换别的方法。

先找出图中的所有白色色块，并计算面积，因为点的面积一般比较小，所以设置一个阈值，将面积小于阈值的点都填充掉。

contours, _ = cv2.findContours(bwing, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)  # 寻找轮廓

show

这里为了看起来清楚一点我把轮廓绘制在了原图上。

然后筛选出面积过小的区域。

noise = []

for contour in contours:
    area = cv2.contourArea(contour)
    if area <= 40:
        noise.append(contour)

可以看到需要删除的点已经被选中了，然后将其填充为黑色。

cv2.fillPoly(bwimg1, noise, 0)

效果很好，看起来问题已经完美解决了。

继续寻找其它方法。

思考了一会，我突然想到，虽然没法准确地找到噪点，但是可以找到文字的位置啊！

图片上的文字虽然每个之间都是分开的，但是距离非常近，那么就可以先对图片进行一次膨胀操作。

kernel = np.ones((3, 11), np.uint8)
dilation = cv2.dilate(bwimg1, kernel, iterations=1)  # 膨胀

这样就可以让文字连接为一个整体了。因为文字只有一行，所以设置内核为 3x11 让它更多地横向膨胀。

现在只要找到面积最大的区域，就是文字的位置了。

contours, _ = cv2.findContours(dilation, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)  # 寻找轮廓
text_area = max(contours, key=lambda x: cv2.contourArea(x))

再生成这个轮廓的最小外接矩形，框选出文字。

rect = cv2.minAreaRect(text_area)
box = cv2.boxPoints(rect)
box = np.int0(box)

这样就完美地选出了文字的区域。

最后将这个区域外的部分填充为黑色

stencil = np.zeros(bwimg.shape).astype(bwimg.dtype)
color = [255, 255, 255]
cv2.fillPoly(stencil, [box], color)

result = cv2.bitwise_and(bwimg, stencil)

就得到了一个完美的，没有噪点只有文字的图片。

现在使用 Tesseract 官方的 chi_sim.tessdata 字库对其进行 OCR，已经可以 100% 准确识别了（至少我这里的 700+ 张图片没有出现错误）。

训练字库

因为我这个使用场景 OCR 的内容非常固定，所以针对其训练一个专用的字库能极大地提升识别速度。

我从一百多张游戏截图中提取了 700+ 张图片用于字库的训练，具体的训练方法参考了下面这些内容：

如何改善 Tesseract 的 OCR 质量

图片处理

训练字库

Leave a Comment Cancel reply

20 元将普通电灯接入 HomeKit

搭建 Telegram 专用代理服务器 MTProxy

我是如何找到校园网的系统漏洞的

VSCode 配置 C/C++ 编译调试环境

蓝桥杯 ALGO-3 K好数（动态规划）

出租屋智能家居改造

Tesseract-OCR 处理简单验证码实现 URP 教务系统自动登录

我是如何找到校园网的系统漏洞的

路由器自动 web 认证校园网

网易云音乐 web 加密参数分析

如何改善 Tesseract 的 OCR 质量

图片处理

训练字库