ICPR-2018-OCR笔记

2023-05-16

2018年第24届国际模式识别大会International Conference on Pattern Recognition (ICPR)
在北京国家会议中心召开,会议从8月20日到24日持续1周时间。

有阿里的读光平台的介绍,周志华的的deep forest,以及业内大佬。还可以与作者面对面交流post,感觉提升很大。

官网:http://www.icpr2018.org/

 

论文(poster):Scene Text Detection via Deep Semantic Feature Fusion and Attention-based Refinement 

改进的EAST,原始的EAST将pool2,pool3,pool4,pool5的特征进行融合。该论文改进后将pool2,pool3,pool4,pool5的特征都和后续的3个特征融合层进行融合。

个人感觉有点生硬的进行长宽维度不统一的特征的融合,论文显示效果有提升,有待实现验证。

 

论文(poster):An Efficient System for Hazy Scene Text Detection using a Deep CNN and Patch-NMS

是个印度的学者,

论文主要是雾中场景文字的检测。

主要贡献在于:

  1. 不是进行文本/背景的二分类,而是文本(Text)/雾(Haze)/文本+雾(Haze+Text)/背景(Background)的四分类。
  2. 基于图片中每个patch做的G-NMS
  3. 自己贡献一个带雾的数据集,Fast text detection from single hazy image using smart device

论文:Focus On Scene Text Using Deep Reinforcement Learning

华南理工金连文老师组的作品,基于强化学习来改进文字检测。

论文:Robust Scene Text Detection with Deep Feature Pyramid Network and CNN based NMS Model

类似于face++ 的IOU net,主要在NMS那块将score map和overlap map组合,通过网络学习出一个NMS分数。

 

论文:Sliding Line Point Regression for Shape Robust Scene Text Detection

文章主要在传统检测框架的基础上,增加了水平7个维度和竖直7个维度的各2个点的回归。最终实现了对曲形文本的检测。感觉思想还是挺novel的。

 

论文:Document Image Classification with Intra-Domain Transfer Learning and Stacked Generalization of Deep Convolutional Neural Networks

基于区域的文档结构学习,通过对文档的上下左右和全局进行集成学习。实现了16类(Letter, Memo,Email, Folder, Form, Handwritten,Invoice,Advertisement,Budget,News,Presentation,Scientific Publication Questionnaire, Resume, Scientific Report,Specification)不同文档的分类。在RVL-CDIP文档数据集上达到92.21%的分数。

 

论文:Multi-scale Fusion with Context-aware Network for Object Detection

尺度和上下文信息对检测起着重要的作用。文章主要在多尺度和上下文信息上进行改进。最终得到75.9% mAP on PASCAL VOC 2007,72.0%mAP on PASCAL VOC 2012 ,23.2% mAP on MS COCO。

论文:Aligning Text and Document Illustrations: towards Visually Explainable Digital Humanities

主要实现文档中图片和文字的对齐操作,就是找到和一幅图片相对应的文字内容。

 

论文:A Fusion Strategy for the Single Shot Text Detector 

主要提出了Text-BBF 方法来代替传统的NMS方法

 

论文(oral):Scene Text Detection with Recurrent Instance Segmentation 

自动化所刘成林老师组的作品。整体感觉像EAST+lstm。

 

论文(post):Scene text rectification using glyph and character alignment properties 

  1. 一行字符串中,大部分字符的顶部点(蓝色)和底部点(绿色)应该在同一个水平线上。
  2. 矫正的字母的宽度应该最小。

论文主要基于字形和字符的上面2点属性对场景文字进行校正。最终使得识别结果有提升。

论文:ThinNet: An Efficient Convolutional Neural Network for Object Detection 

主要提出了一个轻量的物体检测框架ThinNet ,ThinNet 主要包含2给模块Front module 和Tinier module 。Front module主要是减少了卷积层的filter数量,增加了卷积的层数。Tinier module中将普通的卷积换为了pointwise卷积。整体感觉没什么创新。

 

论文:Dense Receptive Field for Object Detection 

Github:https://github.com/yqyao/DRFNet

第一篇看到的icpr中开源程序的论文。论文主要提出了一个新的改进的ssd的one stage检测框架DRFNet 。如上图所示,主要的改进的思想就是多个scale的特征的融合。

 

论文(post):R2CNN: Rotational Region CNN for Arbitrarily-Oriented Scene Text Detection 

北京三星电子研究院的作品。

主要还是改进的faster RCNN。

  1. 修改了不同的anchor,更加适应文字检测。
  2. 修改roi pooling,在原始7*7的基础上,增加了3*11和11*3的featuremap。再将所有的feature map融合进全连接层。
  3. 最后的边界框的回归,采用回归左上角的点x,y和右上角的点x,y和高度h,这样来定位斜框。当然原始faster的回归的坐标对齐的框也保留,进行多任务学习,相互促进。
  4. 由于出来的框是斜框,于是有了Inclined NMS。

整体感觉没有特别创新的东西,感觉这些修改都是针对文字这个特殊检测对象进行的本该这样的修改。

代码:https://github.com/yangxue0827/R2CNN_FPN_Tensorflow

论文:Fused Text Segmentation Networks for Multi-oriented Scene Text Detection 

主要提出feature fusion的思想做特征融合。后续的roi pooling换成了psroipooling(position sensitive roipooling)。

 

论文(poster):CG-DIQA: No-reference Document Image Quality Assessment Based on Character Gradient

上海中安信息科技的论文,主要做文档质量鉴定。对输入的文档图片进行预处理,然后MSER提取文本区域,并计算梯度,根据梯度的大小进行文档质量鉴定,梯度越大,文档质量越好。

个人感觉文字的梯度和文档质量之间貌似没啥联系。可能越清晰的文档,明暗对比越鲜明,噪声越多的文档,明暗对比较差吧。

 

论文(poster):Page Object Detection from PDF Document Images by Deep Structured Prediction and Supervised Clustering

刘成林老师组的论文,感觉这篇思想非常的好。非常推荐读。

整体流程如下,

论文主要实现文档布局分析。

首先基于投影法,分别对文档图片进行水平和竖直的投影,可以得到每一个大块的区域。这里假定了文档图片是没有噪声的黑白的干净的图片。

对于每一个区域内的图片,再进行水平方向的投影,得到行区域。这个行区域可能是只有一行,也可能是好几行合并到一起。然后将该行区域输入到下面的网络中,进行公式,图,表,文字的四分类。注意这里输入的图片大小为32*640。

但是当有好多行被分为一行区域时,该网络得到的结果就会不准确。因此对于高度大于100像素的行区域,使用下面的网络进行进一步矫正。网络输入大小为64*64。

这样就得到了每一个行区域的类别概率。对于相邻的两行是否需要合并,则通过下面的网络进行。感觉有种seglink的味道。

该网络的输入还是32*640,输入为灰度图,但是是将要判断是否需要进行合并的2行,分别将其中一行作为第一个通道,另外一行作为第二个通道,这两行在高度方向concat起来的图作为第三个通道。将这样一个组合的图片作为输入图片,得到输出的2个分类。

然后作者这里还利用了一个基于CRF的图模型。会输出第一行为某类的概率和第二行为某类的概率,以及两者同时满足的概率。然后将一个区域中的所有行都组合起来,形成上面的图,最终要得到满足整个图概率最大化。

 

论文(poster):Watercolor, segmenting images using connected color components

论文主要提出了基于LAB空间,颜色连通域的文档图像分割方法。该方法的优势在于没有任何阈值需要设置。

 

论文:A robust and efficient method for license plate recognition 

论文主要提出一种车牌识别的方法。网络结构为LCR(LocateNet ,CutNet ,RecNet)

LocateNet 负责回归4个坐标值,然后经过仿射变换将输入图片转化为转正的车牌图片。

CutNet 负责回归出6个分割的线

RecNet使用AlexNet对分割出的单个字符进行识别。

 

论文:Staff line Removal using Generative Adversarial Networks 

论文主要使用GAN来去除乐谱的下划线,在ICDAR/GREC 2013 取得了99.14%的F-m score。可以将该方法应用在文本下划线的去除上。

整体结构,

生成器结构,采用U-Net,

判别器结构,

论文:Word Level Font-to-Font Image Translation using Convolutional Recurrent Generative Adversarial Networks 

论文主要提出使用GAN来生成可变长的各种字体风格的字体。

整体框架,

网络结构,

最终效果,

从上图还是可以看出,生成的数据虽然和原始的数据很像,但是还是存在人眼可以辨别出的区别,应该还是没达到可以作为训练数据的程度。

 

论文:Screen-rendered text images recognition using a deep residual network based segmentation-free method

论文提出了对于屏幕渲染的文字的识别方法,本质还是Resnet+lstm+ctc,分别在ORAND-CAR-A dataset, ORAND-CAR-B dataset 取得了91.89%和93.79%的分数。

 

论文:Weighted-Gradient Features for Handwritten Line Segmentation 

论文对手写文档的文本行线的分割提出了一种基于Weighted Gradient Features (WGF) +k-means 的方法。

最终结果,

论文(oral):A Novel Integrated Framework for Learning both Text Detection and Recognition 

阿里巴巴计算平台组的论文。主要提出了一个端到端的文本检测+识别框架。整体来看faster RCNN+CRNN的合体。

检测+识别一起做感觉有个优势就是,如果单独的做,检测不好的框,将会直接影响识别,识别就会因为检测的不好而识别错。但是假如一起做,即使检测的不准确,识别也会得到正确的结果。因为识别的特征是直接在共享卷积层那部分的特征图上提取出来的。前面的共享卷积层已经对框外面的那些像素有过卷积操作,也就是感受野会比框略大。所以也就容易弥补检测的缺陷。

论文:Pyramid Embedded Generative Adversarial Network for Automated Font Generation

阿里巴巴的论文,主要基于Pyramid Embedded Generative Adversarial Network (PEGAN) 来造字。

其中生成器,对U-net进行了改进,在U-net的基础上,将前面部分的特征都进行下采样与后面的部分进行融合,也就是refinement connection操作。

亮点在于训练过程中使用了4个loss。分别为pixel-wise loss,adversarial loss,caregory loss,perceptual loss。

pixel-wise loss:生成器的L1 loss。

adversarial loss:判别器的分类的loss

caregory loss:字的类别的分类的loss

perceptual loss:基于感知的loss,对于vgg-19的每一层featuremap都对输入的2个图做L1 loss。

整体来看,对于U-net的特征融合的改进,还有4个loss的提出,都是比较有创新的。值得学习。

 

论文:Trajectory-based Radical Analysis Network for Online Handwritten Chinese Character Recognition

论文提出了一种基于笔画轨迹的汉字识别方法trajectory-based radical analysis network (TRAN) ,并且在CASIA-OLHWDB database 测试集上取得了60%的准确性。

字体的结构如下,

整体结构,

论文(post):Skip-Connected Deep Convolutional Autoencoder for Restoration of Document Images 

论文提出了SkipConnected Deep Convolutional Autoencoder (SCDCA) 网络进行文档图像的denoising和 deblurring 操作。

网络的创新在于,卷积层之间的shortcut和输入层和输出层之间的shortcut。

论文:Document Images Watermarking for Security Issue using Fully Convolutional Networks

论文主要提出了文档图像中水印的嵌入方法,首先基于FCN找到文字区域,然后再基于文字区域进行水印的嵌入。

FCN结构,

整体流程,

论文(post):An End-to-End Neural Network for Multi-line License Plate Recognition

论文提出了双行车牌的识别方法,主要是对featuremap基于height一分为二,然后在width方向concat起来。最终网络既可以识别单行车牌,也可以识别多行车牌。最终在SYSU-ITS license plate 数据集上取得了98.5%的准确性。

论文:A Hybrid Deep Architecture for Robust Recognition of Text Lines of Degraded Printed Documents

论文主要实现对于打印的文档图片的去背景的操作。主要使用GMM。然后再对修正过的图片进行基于crnn的识别。

不同方法的对比,可以看出GMM方法可以取得更好的效果。

论文:Enhancing OCR Accuracy with Super Resolution

论文主要通过GAN实现的超分来改善文档图片的质量,进而提高识别率。

论文(post):Historical document image binarization using background estimation and energy minimization

基于传统方法的背景去除方法,主要基于背景检测,能力最小化,笔画宽度变换(SWT),基于拉普拉斯能量的分割。最终在DIBCO 和H-DIBCO benchmark数据集上击败了其他传统方法。

处理流程,

几种方法的结果对比,

论文(post):Handwritten Digit String Recognition using Convolutional Neural Network

还是crnn的一套,用在了handwritten digit string recognition (HDSR),基础结构替换为desnet,最终在ORAND-CAR-A和ORAND-CAR-B datasets 分别达到了 92.2% 和94.02% 的识别率。

论文:Exploring Discriminative HMM States for Improved Recognition of Online Handwriting

论文基于隐马尔科夫hidden Markov model (HMM) 对字符的识别结果进行top-2的纠正。感觉类似beam search的思想,要找到整个链的最大的识别率总和。

论文:ICPR2018 Contest on Robust Reading for Multi-Type Web Images 
阿里巴巴和华南理工金连文合作的论文。

 

ICPR MTWI 2018 挑战赛三:网络图像的端到端文本检测和识别:

https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.0.0.6acd33afHUTTzP&raceId=231652

ICPR MTWI 2018 挑战赛二:网络图像的文本检测:

https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.0.0.4b4f33afGVaHU1&raceId=231651

ICPR MTWI 2018 挑战赛一:网络图像的文本识别:

https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.0.0.4b4f33afPSFE3A&raceId=231650

 

数据集为MTWI 数据集,主要包含淘宝的20000张网络图片。主要包含17个类别,类别分布如下图。该数据集可以用于文本检测+识别的训练和测试。

 

The papers:

https://github.com/watersink/icpr2018_ocr_papers.git

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

ICPR-2018-OCR笔记 的相关文章

  • 如何将 Tesseract OCR 库集成到 C++ 程序中

    我正在尝试使用Tesseract OCR 库 https code google com p tesseract ocr 为了创建一个程序来读取电梯楼层号码的图片 我还没有找到任何关于如何将 Tesseract 库包含到 C 文件中的示例
  • 如何减小tesseract生成的PDF的大小?

    我的 网络 应用程序的设置如下 我获取用户上传的 PDF 文件 对它们运行 OCR 并向他们显示 OCRed PDF 由于一切都在线 因此最小化生成的 PDF 文件的大小是减少用户加载和等待时间的关键 我从用户那里收到的文件是sample
  • 字符识别(OCR算法)[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我正在开发一个项目 其中我必须开发 OCR 算法 我必须从图像中读取文本 然后将其转换为不同的语言 所以我的第一个任务是从图像中获取文
  • emgucv:C# 中的 pan 卡不正确的倾斜检测

    我有三个泛卡图像 用于使用 emgucv 和 c 测试图像的倾斜 顶部的第一张图像检测到 180 度工作正常 中间的第二张图像检测到的 90 度应检测为 180 度 第三张图像检测到 180 度应检测为 90 度 我想在这里分享的一个观察结
  • Microsoft Azure 认知服务手写检测边界框参数

    我目前正在使用Microsoft Azure 认知服务手写检测 API https learn microsoft com en in azure cognitive services computer vision quickstarts
  • 使用 OCR 识别上标字符

    我已经开始了一个简单的项目 其中它必须获取包含带有上标的文本的图像 然后通过使用 OCR 目前我使用的是 tesseract 它必须识别上标字符 普通字符 例如 我们有一个化学方程式 例如 Cl 但是当我使用超立方体识别它时 它给出了 Cl
  • tesseract 无法识别该图像中的这个单词,这正常吗?

    我需要从这样的小图像中提取单词 我在命令行中使用带有西班牙语选项的 tesseract 如下所示 tesseract category png l spa psm 7 category txt 我认为该文本一定很容易被 OCR 解析 但该单
  • 提高 Python Tesseract OCR 的准确性

    我在用pytesseract https pypi org project pytesseract 随着openCV https pypi org project opencv python 在 Python 中的简单 django 应用程
  • c# OCR无法识别数字(tesseract 2)

    I m trying to extract digits from the following 它失败了 我得到了 作为回报 我正在使用 google 的 tesseract 2 使用 C 开源 c 包装器 现在我想知道 这个图像是否太糟糕
  • 在Python中从pdf中提取印地语编写的文本[重复]

    这个问题在这里已经有答案了 我想从 pdf 文档中提取印地文输入的文本 我已附上示例页面的图像 https i stack imgur com UkT86 jpg我正在处理 我尝试使用 pdfminer 从中获取文本 但文本是乱码 可能是由
  • OCR 解析获取复选框或单选按钮值

    I need to parse OCR image file and get all texts and checkbox values How to get Checkbox or Radio Button value from OCR
  • 使用 Tesseract OCR 和 python 进行数字识别

    我使用 Tesseract 和 python 读取数字 从能量计 除了数字 1 之外 一切都运行良好 Tesseract 无法读取 1 数字 This is the picture I send to tesseract tesseract
  • TensorFlow:训练时参数不更新

    我正在使用 TensorFlow 实现分类模型 我面临的问题是 当我运行训练步骤时 我的权重和误差没有更新 结果 我的网络不断返回相同的结果 我根据以下内容开发了我的模型MNIST 示例 https www tensorflow org v
  • 如何提取图像中的表格

    我想从图像中提取表格 这个 python 模块https pypi org project ExtractTable https pypi org project ExtractTable 与他们的网站https www extractta
  • 如何在 Ubuntu/Linux 发行版中安装 Tesseract-OCR 3.03?

    我和一个朋友有兴趣为 CV 项目训练 tesseract OCR 引擎 我们尝试使用一些包装器 例如 PyTesser 和 pyocr 但结果目前不如我们需要的那么准确 因此 我们希望尝试训练超立方体以更好地实现我们的目的 即识别食品标签上
  • 来自 Google Vision API OCR 的响应 400,带有指定图像的 base64 字符串

    我读了如何使用 Google Vision API 对 Base64 编码图像进行文本检测 https stackoverflow com questions 43094048 how to use the google vision ap
  • 无法将 Tesseract OCR 模块添加到 Android Studio

    我按照此处找到的分步指南进行操作 https www codeproject com Articles 840623 Android Character Recognition https www codeproject com Artic
  • 从笔记本中提取文本

    我正在尝试从图像中提取手写文本 我使用 python 和 opencv 函数 例如 find contours 当我使用像这样的图像时 一切进展顺利 它工作得很好 因为我有一个简单的背景 但后来我用这张图片测试了它 由于背景中有笔记本的线条
  • 未应用 Tesseract 用户模式

    I want to do OCR on this image This is pre define format ie first five will characters then next four will be digits and
  • Tesseract OCR 培训的替代方案?

    在过去的三个月里我一直在尝试训练 Tesseract通过识别我拥有的图像集合 由于真正的缺乏适当的文档 以及非常高的复杂性 我开始放弃 Tesseract 作为解决方案 我正在寻找一种相对无痛的替代方案对于训练 我不想在这里重新发现轮子 如

随机推荐

  • VC++6.0运行结果界面闪退问题解决方案

    目录 方案一 xff1a 使用 include xff0b system 34 pause 34 方案二 xff1a 加getchar 语句 这类问题之前也遇到过 xff0c 今天总结一下目前可行的解决方案 xff0c 解决方案都是我自己试
  • 浅谈 前缀编码与哈夫曼编码

    目录 关于编码的两个概念 xff1a 1 前缀编码 1 1 前缀编码概念 1 2 前缀编码实例分析 xff08 简洁易懂 xff09 1 3 前缀编码作用 2 哈夫曼编码 2 1 哈夫曼编码概念 2 2 哈夫曼编码的两条性质 2 3 哈夫曼
  • Visual Studio2022创建setup项目

    Visual Studio2022创建setup项目 安装Setup Project方法 xff1a Visual Studio2022 gt 工具 gt 获取工具和功能 T gt 单个组件 xff0c 搜索 Microsoft Visua
  • OpenCV学习笔记二

    图像操作 获取像素值 xff1a 单通道 gray src span class token punctuation span at span class token operator lt span uchar span class to
  • OpenCV学习笔记三

    形态学操作应用 腐蚀 xff1a 跟卷积操作类似 xff0c 结构元素B在图像A上面移动 xff0c B定义其中心为锚点 xff0c 计算B覆盖下A的uida像素值用来替换锚点的像素 膨胀 xff1a 与膨胀过程类似 xff0c 不同的是以
  • OpenCV学习笔记四

    金字塔概念 xff1a 一个图像金字塔是一系列的图像组成 xff0c 最底下一张是图像尺寸最大 xff0c 最上方是图像尺寸最小 高斯金字塔 用来队图像进行降采样从底向上 xff0c 逐层采样得到 xff1b 降采样之后图像大小是原图像MN
  • Android修改SharePreference路径

    ContextImpl里面有一个字段mPreferencesDir xff0c 这个文件目录就是保存了SharePreference路径的 xff0c 只需要修改这个为我们自定义的路径就好了 xff0c 由于ContextImpl是一个隐藏
  • 安卓setContentView

    首先进入activity中找到setContentView方法 xff1a public void setContentView 64 LayoutRes int layoutResID getWindow setContentView l
  • 安卓9.0沉浸式状态栏

    首先我们来了解一下几个设置沉浸式状态栏的基础属性 xff1a 1 View SYSTEM UI FLAG LOW PROFILE xff1a 低调模式 会隐藏不重要的状态栏图标 xff1b 2 View SYSTEM UI FLAG HID
  • 安卓Service生命周期

    官方说明图 startService xff1a 开启一个Service且Service生命周期只与自身有关 xff0c 当调用stopService或者stopSelf时停止 如果多次调用startService xff0c 只有第一次会
  • 阿里2014年校园题目最后一题答案及证明

    该题目来自cdsn的一位网友 xff08 可见http blog csdn net thebestdavid article details 11975809 xff09 xff0c 具体内容如下 xff1a 在黑板上写下50个数字 xff
  • 编程——两种list的翻转方法

    对于题目相信大家都比较熟悉了 xff0c 下面就直接上代码了 xff0c 其中没有给出list的creat函数 xff0c 有兴趣的同学可以自己实现 1 模板node的定义 template lt class T gt class TNod
  • 数组旋转新方法

    题目 xff1a 对一个int数组进行左右任意长度的旋转 xff0c 如 xff1a 原始数组为 1 2 3 4 5 xff0c 左旋两位 xff08 可用 2表示 xff09 得 3 4 5 1 2 xff0c 右旋两位 xff08 可用
  • 常见Linux shell脚本中的“-e -d -f -eq -ne -gt -ge”操作符的含义

    常见shell脚本中的 e d f eq ne gt ge 操作符的含义 xff1a 文件表达式 e filename xff1a 如果filename存在 xff0c 则为真 d filename xff1a 如果filename为目录
  • 基于注解的spring源码解析之总体流程

    基于注解的spring源码解析1 总体流程 总体流程图 Demo代码 span class token keyword public span span class token keyword class span span class t
  • Android ViewBinding 替换 findViewById 的神器

    ViewBinding中文官网 ViewBinding 的出现就是为了替代 findViewById 的 以前我们写完布局后就要在代码中使用 findViewById 方法找到 xml 文件中对应的 view xff0c 这样耗时费力 xf
  • 套接字选项(SO_RCVBUF和SO_SNDBUF)

    有时候我们需要控制套接字的行为 如修改缓冲区的大小 这个时候我们就要学习套接字选项 int getsockopt int sockfd int level int optname void optval socklen t optlen i
  • 欢迎使用CSDN-markdown编辑器

    欢迎使用Markdown编辑器写博客 本Markdown编辑器使用StackEdit修改而来 xff0c 用它写博客 xff0c 将会带来全新的体验哦 xff1a Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传
  • 工作一年,辞职复习半年,考杭电计算机的经验分享

    工作一年 xff0c 辞职复习半年 xff0c 考杭电计算机的经验分享 如果 xff0c 毕业了工作顺利的人大概率是不会去考研的 xff0c 去考研的人 xff0c 大概率是想改变的 题记 2019 4 6 关于我 纠结的人生 为什么考研
  • ICPR-2018-OCR笔记

    2018年第24届国际模式识别大会International Conference on Pattern Recognition ICPR 在北京国家会议中心召开 xff0c 会议从8月20日到24日持续1周时间 有阿里的读光平台的介绍 x