翌学

手写识别技术具有哪些挑战性?

发布人:小翌君 发布时间:2020-01-21 15:19:34
手写识别(HandWriting Recognition)是指将在手写设备上书写时产生的有序轨迹信息化转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程,是人机交互最自然、最方便的手段之一。


随着智能手机、掌上电脑等移动信息工具的普及,手写识别技术也进入了规模应用时代。手写识别能够使用户按照最自然、最方便的输入方式进行文字输入,易学易用,可取代键盘或者鼠标。用于手写输入的设备有许多种,比如电磁感应手写板、压感式手写板、触摸屏、触控板、超声波笔等。手写识别属于文字识别和模式识别范畴,文字识别从识别过程来说分成脱机识别(off-line)和联机识别(on-line)两大类,从识别对象来说又分成手写体识别和印刷体识别两大类,我们常说的手写识别是指联机手写体识别。


“人工智能+大数据”技术


一、手写识别技术具有哪些挑战性?


手写汉字识别是一个极具挑战性的模式识别及机器学习问题,主要表现在:


1)书写方式随意,不规正,无法达到印刷体要求;


2)汉字字符级别比较繁杂,极具变化特点;


3)诸多汉字在外形上相似,容易混淆;


4)要求具备庞大的训练数据,但采集困难,特别是随意性、无约束性手写,对应数据库的构建显得力不从心。


可见,手写汉字识别进步空间较大,需要综合各项技术,增加训练样本数据,提升识别率。


一般而言,传统的手写中文单字识别系统主要包括数据预处理、特征提取和分类识别三部分。然而,近些年来,传统的手写汉字识别框架进展并不明显,原地踏步,急需寻找其它的解决方案。而深度学习正满足了手写汉字识别革新需求。实践证明,在深度学习技术协助下,联机HCCR、脱机HCCR的识别率都大为提升,同原有的识别技术相比进步非常明显。


二、基于深度学习的手写汉字识别


1.基于CNN的端到端的识别方法


2012年,多列CNN模型(MCDNN)由IDSIA实验室推出,同样具有“端-端”特点。MCDNN中,需要对CNN网络进行GPU训练,并平均集成CNN输出;以图像的形式转换联机、脱机手写样本,并通过CNN训练。在训练时,拒绝特征选择、提取,识别结果便是CNN输出结果。MCDNN在脱机及联机中文识别均取得了当时最先进水平的识别结果。


2.结合领域知识的CNN识别方法


虽然以MCDNN为代表的端到端的CNN模型设计简单,也取得了优异的识别性能,但端到端的方法一个不足之处在于其没有很好地利用要手写文字的一些先验领域知识,例如联机时序信息、领域相关的数据生成技术、方向变换特征等,而这些领域信息是无法通过CNN网络自动学习而获取的。下面将介绍近年来传统领域知识和CNN相结合的手写汉字识别方法。


数据生成技术:为了避免在训练过程中出现过拟合以及提升CNN模型的识别性能,除了采用Dropout等一些经典的方法之外,获取充足的训练样本是保障CNN等模型获得高性能的前提。但很多时候我们获得的训练样本是十分有限的,因此,数据增加技术是一种非常重要的提升CNN系统鲁棒性及推广能力的技术。


2)方向变换特征:Graham等人不仅对稀疏CNN模型进行了研究,也对CNN输入层开展了全新的知识路径积分特征分析[5]。经实践,新技术能够提取联机时序信息特征,准确度比较高。在知识路径中,还加入了特征图。为此,同MCDNN 法相比,识别CASIA-OLHWDB数据集的操作显得更为方便,速度更快,准确性更高。


3.其他改进的CNN识别方法


在手写汉字识别领域,为了进一步提升深度学习模型的性能,研究人员除了加大模型深度和宽度及将传统领域知识与深度模型相结合之外,还对深度学习的网络结构和训练方法进行了各种改进。


例如,CNN中常见最大值聚合操作的大小和步长一般都是整数,Graham[6] 对此提出了更一般化的分数最大值聚合方法。除此之外,研究者对深度模型的样本训练方式也做出了改进。Yang等[7]从心理学对人的记忆遗忘规律的研究中受到启发,提出DropSample样本训练技术。另外,文献[8]提出了两种改进的CNN模型用于脱机手写汉字识别: Relaxation CNN(R-CNN)及Alternately training CNN(ART-CNN)。


4.基于其他深度模型的识别方法


拥有多个隐层的全连接神经网络一般可以统称为DNN,例如含有多个隐藏层的多层感知器神经网络,传统的多层神经网络的训练容易过拟合、容易陷入局部最优,而且随着层数加深会出现梯度弥散等问题。2014年,Du等[9]将传统方法和DBN方法结合,使用了三种分类器: 原型距离、DNN和Bottleneck特征分类器。原型分类器由聚类算法构建,使用基于最大样本分离边界的最小分类误差准则进一步改进,是一个小型且高效的分类器。


两个主流的深度神经网络CNN和DBN相比较而言,CNN不需要预训练,则相比于DBN的逐层预训练要省时,同时CNN因为加入卷积操作,能够更好处理图像信息,DBN 则主要处理一维的数据,因此在手写体汉字识别中,CNN比DBN略胜一筹。此外,SAE 等其他深度模型在大类别手写中文文字识别中的成功应用报道尚不多见。


5.基于RNN/LSTM的文本行识别方法


如前文所述,采用深度学习等技术之后,目前手写单字符识别问题已经在某种程度上获得了较好的解决,但相对单字符识别而言,含序列信息的手写文本行识别仍然是此领域还未解决的难点问题之一。针对此问题,一个有极大潜力的解决办法是应用深度学习方法中回归神经网络(RNN)模型,特别是LSTM和BLSTM等模型,由于对序列数据有很好的建模能力,因此它们更适合于解决诸如包含时序先后顺序信息的文字行识别问题。


总体而言,深度学习为解决手写汉字识别提供了新的理念及技术,近几年来也在此领域诸多方面取得了大量的研究成果,但仍然有不少研究问题值得进一步研究。


三、翌学手写识别自动批阅系统


“翌学”是一款基于面向中小学教育的智慧教学Saas平台。紧紧围绕“减负”“增效”核心,以“人工智能+大数据”技术实现“自动批阅”“精准施教”为主要功能出发点,实现小学教育的“教学相长”,翌学致力于成为老师、学生最好的教、学助手。翌学致力于成为老师、学生最好的教、学助手。


深度学习为解决手写汉字识别提供了新的理念及技术,近几年来也在此领域诸多方面取得了大量的研究成果,并且成功应用于“人工智能+大数据”技术,翌学用科技改变教育

“人工智能+大数据”技术