公司企业网站建设教程,餐饮业网络营销方式,微信网站是什么,做网站优化给业务员提成一、背景随着智能手机的广泛普及和移动互联网的迅速发展#xff0c;通过手机等移动终端的摄像头获取、检索和分享资讯已经逐步成为一种生活方式。基于摄像头的(Camera-based)的应用更加强调对拍摄场景的理解。通常#xff0c;在文字和其他物体并存的场景#xff0c;用户往往…一、背景随着智能手机的广泛普及和移动互联网的迅速发展通过手机等移动终端的摄像头获取、检索和分享资讯已经逐步成为一种生活方式。基于摄像头的(Camera-based)的应用更加强调对拍摄场景的理解。通常在文字和其他物体并存的场景用户往往首先更关注场景中的文字信息因而如何能够正确识别场景中的文字对用户拍摄意图会有更深入的理解。一般意义上基于图像的文字识别包括基于扫描文字的光学字符识别(Optical Character Recognition, OCR) 和广泛用于网站注册验证的CAPTCHA (Completely Automated Public Turing Test to Tell Computers and Humans Apart,全自动区分计算机和人类的图灵测试)。相比较而言基于扫描仪的OCR最简单CAPTCHA最难场景文字识别则介于这两者之间如图1所示[1]。图1基于图像的文字识别场景文字与扫描文字的最大区别在于其背景往往比较复杂而且对设备(如移动设备或计算机)来说文字位置是不确定的。其次光照对文字的影响也是非常大的。最后相比传统OCR处理的情况很多场景文字更加多样化具有较大的内类变化。二、两种识别方案一种自然而然的想法是首先检测并定位到文字区域(文字检测)然后再将检测到的文字块送到现有的OCR中进行识别(文字识别)但是上述场景文字存在的难题均对这种方案形成了挑战。从本质上讲这种方案将文字检测和识别完全割裂开严重依赖文字检测和分割性能。近年来一种截然不同的点对点文字定位和识别系统逐渐开始引起学术界和工业界的关注。该系统从物体识别角度出发同时进行文字检测和识别在场景文字识别中取得了较好的效果。本文就以英文识别为例简要介绍一下点对点的文字检测与识别系统。三、点对点场景文字识别系统通常点对点系统通常包括a)字符检测b)同时单词检测和识别。1.字符检测字符识别主要是判断某个图像块(p_w_picpath patch)是否是字符。图像块的选取既可以用滑动窗口(Sliding Window)进行多尺度扫描也可以通过连通域分析(Connected Component Analysis, CCA)得到。基于滑动窗口的方法最经典的应用来自于人脸检测但其最大的问题在于一方面会产生很多的候选区域另一方面容易产生字符间和字符内的混淆。如图2所示[2]。在两个O之间的滑动窗口容易被误认成为X而框了一半的B容易被误认为E.图2字符间和字符内混淆而基于CCA的方法虽然复杂度较低但很容易受到背景的干扰且对模糊图像无能为力。如文献[3]就采用基于极性区域的连通域来形成文字候选区。通常对图像块的特征描述往往采用的Histograms of Oriented Gradients (HOG) ,分类器可以使用支持向量机(Support Vector Machine, SVM)近邻(Nearest Neighbor, NN), Adaboost等。2.单词同时检测和识别由于字符检测一般利用的是bottom-up的信息故而检测得到字符候选区域包含一定的false positive。为此单词同时检测和识别模块往往需要借助top-down信息(如词典信息)[2,3,4]。在文献[2],针对字符检测结果采用了条件随机场(Conditional Random Field, CRF)来模拟字符识别的置信度字符间的关系(位置和语义上)。CRF的能量函数定义如下式所示。其中第一项表达了单个候选区的置信度而第二项则描述了两个候选区之间的关系包括了几何位置上的重叠关系和在词典(Lexicon)中两个字母出现的概率情况。图3 单词同时检测和识别通过CRF图3中的单词就可以准确地被识别成door而非doxr。除了CRFWang等[4]还借用了Pictorial Structures等来完成单词的检测和识别。四、方案效果对比为了对比第二节中两种方案表1给出了上述提及的三种点对点系统和传统OCR系统(商用软件ABBYY, www.abbyy.com)识别效果对比。使用的两个数据集为街景文字文字数据库(Street View Text)[1]和ICDAR数据库(http://algoval.essex.ac.uk/icdar/RobustWord.html)如图4所示。图4 SVT(左)和ICDAR(右)数据库样例显然点对点的系统均优于传统OCR的识别。五、一点思考目前点对点的系统大部分还是针对英文的识别主要是因为英文的类别相对来说还是比较小的(62类26个大小写英文字母和10个数字)而对于类别数目较大的中文一直是我们思考的问题。参考文献[1]. K. Wang and S. Belongie. Word spotting in the wild. In Proc. ECCV, 2010.[2]. A. Mishra and K. Alahari. Top-Down and Bottom-Up Cues for Scene Text Recognition. In Proc. CVPR, 2012.[3]. L. Neumann and J. Matas. Real-Time Scene Location and Recognition. In Proc. CVPR, 2012.[4]. K. Wang, B. Babenko, and S. Belongie. End-to-end scene text recognition. In Proc. ICCV, 2011.By Errui Ding