•  最新新闻列表
  •  
 首页 > 教学科研 > 内容

无标题文档

全球首款“维哈柯阿印刷文档识别系统”通过鉴定

8月10日,由我校电子系丁晓青教授主持研制,清华大学与新疆大学合作研制的“维哈柯(汉英)阿(英)双向印刷文档识别系统”通过了教育部组织的技术鉴定。该系统是全球首款在统一系统框架中支持维吾尔文、哈萨克文、柯尔克孜文(简称维哈柯文)以及阿拉伯文(简称阿文)的印刷文档识别系统,可以准确、高效地将维哈柯阿文的纸质文档转化为电子文档,不仅促进我国少数民族地区的信息化建设,而且,由于系统还支持全球使用人数超过2亿的阿拉伯文的识别,因此也将对我国与阿拉伯国家的深入合作、交流产生深远影响。

 8月10日,在教育部组织的清华大学举行的鉴定会上,由鉴定委员会倪光南院士领衔的多位信息处理及维哈柯阿语言领域的专家和组成。埃及大使、国家教育部及国家自然科学基金委领导出席了鉴定会。

 专家组对该系统给予了极高的评价。鉴定专家们一致认为:维哈柯(汉英)阿(英)双向印刷文档识别系统在国内外首次解决了实用多字体维哈柯(混排汉英)双向文档的识别问题,提高了阿拉伯(英)双向文档的识别率;该系统的主要技术指标达到了国际领先水平。

 据专家介绍,作为我国新疆地区使用的主要民族文字,维吾尔文、哈萨克文、柯尔克孜文与阿拉伯文非常相近。阿拉伯文字形相对于方块汉字、有很大不同,且连写字符多,相似字多,文本书写方式从右向左,其文字识别工作更为困难。而此次由清华大学与新疆大学联合推出的维哈柯(汉英)阿(英)双向印刷文档识别系统则较好的解决了这一难题。

 与会的埃及驻华大使阿里·侯夫尼在致词中提到:清华大学是中国最著名的高等学校之一。清华大学研制成功阿拉伯文(维吾尔文等)印刷文档识别系统是一件可喜可贺的事情。它既是清华大学的科学研究成就、中国信息化技术发展的反映,也是阿拉伯驻华大使和阿拉伯国家用户的希冀。此系统将加强中国和阿拉伯国家之间的交流和合作。

  在鉴定会上,研制单位清华大学和新疆大学向埃及大使馆、北京外国语大学、新华社、国家民族翻译局、新疆自治区语委会等单位赠送了TH-OCR维哈柯阿文识别系统软件。

   所谓文字识别,即OCR(Optical Character Recognition光学字符识别)技术,是将扫描仪、摄像机等光学输入方式得到的书籍、报刊、文稿、表格等印刷品的文字图像信息转化为可供计算机处理和检索的文本信息。由于可以大大提高工作效率,文字识别技术已经越来越受到人们的关注。特别是在我国,由于信息化建设的全面展开,为文字识别技术提供了广阔的应用舞台,诸如办公自动化、银行、税务、数字图书馆、电子出版、公安、交通运输、邮政分拣等行业均有着广泛应用。

   依靠多年在OCR识别领域的技术积累,清华大学电子工程系目前已经在汉、日、韩、英以及藏民族文字的识别领域取得了显著成果,其多项文字识别技术均位居国际领先水平,其清华TH-OCR汉日韩识别核心技术在国际竞争中夺标,已应用于微软Office2003中。继2003年清华大学推出藏文识别系统之后,此次与新疆大学联合推出的维哈柯(汉英)阿(英)双向印刷文档识别系统则再次将我国的民族文字识别带入了世界领先行列,同时也为中国的OCR技术进一步走向世界做出了贡献。(电子系 彭良瑞供稿)

(编辑 魏磊)

(http://news.tsinghua.edu.cn)
[更新:2004-08-16]
[阅读:人次]
清华大学官方微信 清华大学官方微博 校报《新清华》微信 清华电视台微信
相关新闻
  • 网友评议