扫描仪及OCR技术的应用
扫描仪及其工作原理
扫描仪是一种高精度光电结合的高技术产品,它主要由光、机、电三个部分组成。光路部分最主要的是由几千个感光元件构成的CCD(Charged Coupled Device光电耦合器);机械部分是采用步进式的机械传动方式进行扫描;电路部分主要由控制电路和处理器组成。扫描仪的工作原理是通过CCD器件将所扫描的文件读入处理器,经过光电耦合将光信号转换为电子信号,并利用扫描仪接口卡将信号送入计算机中。扫描仪没有问世之前,图形、图像的输入相当困难,扫描仪的问世使这一问题得以解决,同时又促进了图形学及图像处理领域的进一步发展。它广泛运用于图像处理、文字识别、图形识别,是文字、数据录入和信息识别领域不可缺少的办公设备。
扫描仪起步于70年代中期,最初的扫描仪仅能捕捉黑白二值化图像,体积相当大,扫描速度也很慢,且无法输入彩色图像。随着新技术的不断推出与完善,扫描仪经过二值、伪灰度、真灰度等发展历程,到80年代中期,终于诞生了世界第一台彩色扫描仪。从90年代开始,扫描仪的应用领域不断拓展,应用软件不断完善并形成系统,扫描技术已有了迅猛的发展,到目前为止,世界各类型扫描仪的品牌约有一百多种。
按扫描方式的不同,扫描仪可分为台式和手持式两种。其中台式主要有使用最为普遍的平板扫描仪和可用于制作精美图片的鼓形扫描仪。手持式扫描仪主要用于商业及信息管理领域的条形码识别,以及其它各种不适于台式扫描仪工作的环境。
OCR技术与中文OCR应用
扫描仪的广泛使用与OCR技术的突飞猛进是密不可分的。OCR通称为文字识别,它是Optical Character Recognition(光学字符识别)的缩写。它的工作原理为通过扫描仪(或数码相机)等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出文字的标准编码,并按通用格式存储为计算机的文本文件。由此可看出,OCR实际上是让计算机认字,实现文字自动输入,是一种非常快捷、省力的文字输入方法。正是由于它录入速度快、准确性高(识别率可达98.5%以上),操作简便,能大幅度提高工作效率,适应信息时代快节奏的要求,因而具有广泛的发展前景。
中文OCR的研制工作从1986年开始,比国外西文OCR的研制晚几年。1986年,国家863计划信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家单位联合进行中文OCR软件的开发工作。至1989年,清华大学率先推出了国内第一套中文OCR软件——清华文通TH-OCR1.0版,至此中文OCR正式从实验室走向了市场。几年来,除清华文通TH-OCR外,其它如尚书SH-OCR等各具风格的OCR软件也相继问世,中文OCR市场稳步扩大,用户遍布世界各地。清华TH-OCR系列更是以其先进的技术和高质量的产品赢得了国内外广大用户的信赖,其标准版与世界著名的惠普公司扫描仪捆绑发售,年发行量超过10,000套,其总市场占有率高达65%。目前它的最高版本是于1998年11月推出的TH-OCR7.5,是目前国内最好的OCR软件。它既能识别简体汉字、繁体汉字,根据需要输出GB或BIG5内码;还能识别英文、日文,对汉字和英文混排、日文和英文混排可同时识别;又能识别横排、竖排及表格等格式。经测试,对印刷质量较好的材料,其识别正确率超过99.5%,代表了目前印刷汉字识别的最高水平。另外,经过文档管理系统与TH-OCR的有机结合,使得文字从自动录入到录入后的文件管理、编辑成为一个整体,拓展了OCR的概念,为用户提供了更多的便利和更加强大的使用功能。展望未来,中文OCR的发展前景令人十分乐观,以中国计算机行业的发展速度及中国文化在未来世界文化发展中的重要地位,中文OCR的市场潜力将不可估量。