自主创新推动智能图文信息处理研究及产业化领先发展

——从国际领先、全面的文字识别到人脸笔迹生物特征认证超越式突破

  信息时代中,利用计算机对浩如烟海的文档、摄像资料实现基于内容的检索,迫切需要文字识别等智能化图文信息处理技术。承载中华民族文化的文档数字化和关系国家安全的身份认证技术必须由中国人自己来完成。在国家“863”计划和国家自然科学基金的长期支持下,经过二十余年的不懈努力,由清华大学电子工程系丁晓青教授带领的研究组在汉字及多文种文字识别、多模式生物特征(人脸、笔迹等)身份认证方面不断取得了多项具有国际领先水平的自主创新研究成果,形成TH-OCR 系列文字识别软件和TH-ID生物特征(人脸、笔迹等)认证软件产品,成功地进行了产业化推广应用。荣获国家科技进步奖二等奖两次(1999年、2003年)、三等奖一次(1993年)。与多家国际知名公司开展了技术授权和研究合作,包括微软、 诺基亚、西门子、三星、IBM、Motorola、HP、Xerox (Scansoft)等。自主创新的重要科技成果包括:

  1. “TH-OCR高性能统一平台上多文种文档识别全信息数字化系统”

  该系统是解决多文种(简繁汉、日、韩/朝、英、藏、维吾尔、哈萨克、柯尔克孜、阿拉伯) 原文重现文档全信息数字化规模化生产,及低质、手写文档和表格识别数据录入的智能信息化工具。整体性能居于国际领先水平,系统主要内容包括:

  1) 具有国际领先水平的高性能中日韩文字识别核心技术,在自主提出模式识别统一熵理论的指导下,不仅提高了印刷及手写汉字识别的鉴别能力和实用适应性,而且识别字符集空前扩大,覆盖了中日韩基本字符集。各种印刷字体的平均识别率在99.5%以上;脱机手写汉字识别率达98%。在国际竞标中夺标,授权给微软公司使用。

  2) 统一平台上中华主要民族文字(混排汉英)文档识别系统创新解决了印刷体藏、维吾尔、哈萨克、柯尔克孜文及国际上极为关注的阿拉伯文的识别难题。在多种分属不同文字体系的民族文字字符识别、字符切分关键技术上取得了突破性的进展;首次解决了常见的民族文字与汉字、英文混排文本的识别问题;蒙古文识别研究也取得初步进展。首次实现了统一平台上多种民族文字的文档识别系统,已在中国西藏信息中心、民族出版社等民族地区单位推广应用,有利于推动多元一体的中华民族文化信息化发展及与世界文化交流,有利于国家西部大开发战略实施。

  3) 在国内外首次提出并研发成功自动文档全信息数字化系统。具有将复杂版面的报纸等文档经版面分析、识别、理解、最后自动精确重构为原式原样的标准格式电子出版物等功能,“作为一个整体居于国际领先水平。”在我国电子出版、数字图书馆工程等信息资源建设中发挥重要作用。

  4) 金税工程增值税发票识别防伪系统在全国推广,极大打击了偷漏说,切实保证金税工程顺利实施;银行单据识别等行业应用解决方案,为这些行业的信息化建设创造了条件。

  产品化成果广泛应用于办公自动化、银行、税务、公安各行业。THOCR2000、名片和身份证识别、邮政分拣等软件,作为自主知识产权的主流软件产品销往海内外。

  2. TH-ID多模生物特征(人脸、笔迹等)身份识别认证系统

  让计算机从“认字”到“认人”,利用人脸图像、手写笔迹等生物特征进行自动身份识别认证,可以代替传统的密码、证件等方式,对于反恐斗争和国家安全具有极其重要的作用。在多文种文字识别领域已有的长期深厚模式识别研究经验积累,为解决生物特征认证难题提供了自主创新、跨越式突破发展的良好基础。在国内外首次推出的TH-ID多模生物特征(人脸笔迹签字虹膜)身份识别认证系统于2005年6月通过教育部组织的鉴定。该系统实现了在复杂背景下的图像和视频人脸自动检测、识别和认证,实现了百万大数据库的人脸查询和主动人脸身份认证、基于单个汉字笔迹的识别和认证、联机手写签字的身份认证、虹膜身份识别和认证、以及基于决策融合的多模生物特征身份识别认证系统。TH-FaceID人脸识别系统在国际高水平人脸认证竞赛(FAT2004)中以全部测试指标均获第一而获得 “全面性能最佳成就奖”,在2004年国家863人脸识别验证评测中各项指标均获第一。鉴定意见认为:“TH-ID多模生物特征身份识别认证系统在人脸、笔迹、签字、虹膜的识别认证技术上取得了重要进展,该系统整体上达到了国际领先水平”。目前TH-ID系统已有若干重大成功应用,最为突出的是TH-FaceID人脸认证系统已应用于深圳罗湖口岸的首次旅客自助通关系统上,自动认证通过率高达97%;笔迹鉴别系统已应用于国家重要安全项目等。

  智能图文信息处理研究及产业化领先发展,不仅具有自主创新的国际领先水平技术,而且在产业化应用推广中与国家信息化建设需求结合,做出重要贡献,取得了可观的经济效益和社会效益。目前,新开辟的研究方向包括摄像文字识别、主动式视频监测身份认证等。(编辑 文清)

2006年01月13日 08:48:47  清华新闻网

更多 ›图说清华

最新更新