•  最新新闻列表
  •  
 首页 > 清华人物 > 内容

无标题文档

让计算机“识图认字”

——记丁晓青教授和清华智能图文信息处理研究室

●新闻中心学生记者 胡晓白

谁说计算机只知道“0”和“1”,让计算机“识图认字”,对他们来讲,并不是一道不可逾越的鸿沟。在他们的努力下,计算机不仅能够识别汉字和英文,还能够认出在我们看来像“天书”一般的藏文、维吾尔文、阿拉伯文。

 他们就是我校电子工程系丁晓青教授和她带领的团队——智能图文信息处理研究室的研究人员。

在丁晓青教授和她带领的团队十几年从事文字识别研究的努力下,计算机已经可以像天才般将十几个图书馆的百科全书“一目十行”地输入到它的“大脑”中,并且具有书籍的图象、文本、版式的多层次全部信息,极大地方便了建设互联网等信息资源,向用户提供全文检索、查询浏览等服务,使得用户在“知识爆炸”环境中迅速找到所需要的信息。

 不仅如此,他们所研究文字识别的对象包括利用扫描仪传入的印刷体文字、难度最大的手写文档——如手写报表、支票、信封地址等,以及利用手写笔在线输入文字、利用数码相机及摄像机拍摄的文字;所研究识别的语种从简繁体汉字到日文、韩文、英文,并进一步扩展到藏文、维吾尔文、阿拉伯文等多国、多民族文字上。更为重要的是,他们的研究成果能迅速进行产业化转化,自1992年以来,他们推出了TH—OCR系列产品,这是国内市场上文字识别的主流产品,并远销海外。

 然而,他们觉得这一切还不够。他们的目标是:“只要人类能够看清楚的,我们就探索出让计算机来识别的理论、方法及系统。”

这就是丁晓青教授所带领的研究组十几年来所孜孜不倦进行的一项事业。在继1993年和1999年汉字识别的研究成果分别获国家科技进步三等奖、二等奖之后,他们最新的研究成果“高性能东方文字文档智能全信息数字化系统”又获得2003年度的国家科技进步二等奖。

“混沌未开”的计算机

 在丁晓青教授看来,计算机从本质上说就是一种仅仅知道“0”和“1”两个“数字”的机器,它并不懂得其他语言。人类丰富文明的载体——语言文字及文档通过扫描仪输入计算机中,在计算机看来,不过是一堆不知所云的图象点阵罢了。因此,发展信息化事业要求将文字——尤其是博大精深的汉字——的图象经识别自动转化为可机读检索的文字编码,以及自动分析理解文档图象的版式、结构信息。这样,就可以取代繁琐费时的纯手工劳动,解决文档信息自动输入计算机的关键问题。在80年代中后期,响应国家对于汉字识别技术的要求,丁教授和她的研究组从原来的数字图像处理系统转向了文字识别系统研究中。

“读书认字”显“智能”

 智能图文信息处理研究室在进行文字识别技术的研究中,起初被两个问题困扰着,那就是如何让计算机来认字,以及如何保证它不会认错字。传统的文字识别技术总是试图通过把所有可能的字型都存储到计算机中,来使得计算机对这些特定的字型有反应。但是这时候就遇到了巨大的瓶颈:如果字型发生细微的差别,固执的计算机就会翻脸不认“字”。为此,丁教授与研究室全体师生一起展开攻关,终于通过提高机器的鲁棒性(robustness)让这样的缺陷迎刃而解。

 所谓鲁棒性,简单地说,就是适应各种各样的变化的能力。鲁棒性越强,识别的精确度就愈高,文字识别系统的性能就越好。为提高鲁棒性,他们让计算机通过图像来进行“全局性”认字。就和我们认字往往凭借视觉的感知一样,丁教授让计算机也懂得通过对文字整体结构的判断来认字,从而使计算机具有了“智能”。比如在藏文识别系统的开发中,他们通过研究发现,藏文在它复杂结构的背后,最基本的一种特征就是有一条“基线”贯穿始终。这样,通过巧妙的切分和识别算法的研究,他们终于在世界上率先完成了计算机藏文识别系统的研制。

 后来居上的佼佼者

 谈起在东方文字识别研究领域的成果,丁老师的眼里泛着成功的喜悦。

 “日本人比我们早20年开始这个领域的研究,但是国际竞标测试证明,我们的系统性能要比他们的好。因而,我们的中日韩文字识别技术已授权微软公司在其Office XP 亚洲版中使用。”

 十几年来,丁教授的实验室佳音频传,在国内外都享有很高的声誉。美国、德国、芬兰、日本、新加坡、韩国等多个国家的相关企业都曾来参观丁教授的实验室,给予很高评价,并促成多个高水平的国际合作项目,包括与微软、Scansoft、西门子、诺基亚、IBM、摩托罗拉等世界知名大公司的合作。

 科学研究成果不应束之高阁,而应在实际应用中显身手。丁教授研究组推出的TH-OCR系列软件产品,凭借系统的高识别率和高鲁棒性,已经在税务、银行公安数字图书馆及各行业信息化等多个领域运行。特别是在自主版权软件出口、增值税发票防伪识别、电子出版物制作上,发挥着重要的作用,取得很大的经济效益和社会效益。

 就在2003年11月,智能图文信息处理研究室将通过教育部鉴定的“多字体印刷藏文(混排汉英)文档识别系统”正式向外界发布,此后便好评不断。民族出版社的报告中指出,“该系统研制成功是藏族文字信息处理技术的重大进展,对于把我国少数民族的优秀文化送上互联网,让世界了解一个完整的中国,具有重大社会意义。”

会“造血”的团队

 “Everybody does his best.(每个人都尽力做到最好。)”丁教授一直就是这样地要求她的团队的。十几年来,这支队伍始终以一种良性循环运作。目前已发展为约40人的团队。在2004年1月美国加州PARC召开的一次国际学术会议上,丁教授的研究组被会议主持——国际上模式识别资深专家George Nagy 介绍为当今世界学术界中最大的文字识别研究组。

 丁教授说在实验室的初期,他们得到了学校和国家的“输血”。但是很快的,在实验室发展成熟之后,实验室在继续得到学校和国家支持的基础上,主要依靠自己的成果解决了生存和发展的问题。“输血毕竟是暂时的,我们要发展,必须要有造血功能。”丁教授说。

 “我们的研究就是这样的一个过程。先是在实验室设计一套系统,然后放到实践中去检验,接着在原有基础的积累上再向前走一步,再放到实践中去。我希望这样的良性循环可以一直这样走下去。”丁教授说。

 这个团队还特别重视成果的积累,在原有的基础上稳步前进。这次获国家科技进步奖的“高性能东方文字文档智能全信息数字化系统”就是2002年“高性能中日韩文档识别理解重构系统”和1999年“基于识别的原文重现自动电子出版物制作系统”两个鉴定成果的融合。这些成绩是在1999年荣获国家科技进步二等奖的“TH—OCR97 综合集成汉字识别系统”之后又继续取得的。

“视频监测”是方向

 智能图文信息处理研究室现在已经明确了从文字识别到人像识别,再进一步到视频运动目标识别的发展策略。到目前为止,他们已经可以通过摄像机里的人像,或者虹膜检测让计算机“认人”了。

 同时,她表示他们不会放弃文字识别这条主线。今年,他们在这一领域的研究重点将是维吾尔文和阿拉伯文的文字识别系统的开发。

丁教授说:“我们一直以来就清楚自己发展的目标,这是因为我们一直密切关注着国家和社会,把理论的进步,学科的前沿和社会的发展紧密地结合起来。”

 让计算机拥有与人相似的视觉感知功能,丁晓青教授和她带领的团队在已有的突出成果上,又朝着他们的目标一如既往继续地向前开创进取。

(编辑 魏磊)

 

(http://news.tsinghua.edu.cn)
[更新:2004-04-14]
[阅读:人次]
清华大学官方微信 清华大学官方微博 校报《新清华》微信 清华电视台微信
相关新闻
  • 网友评议