•  最新新闻列表
  •  
 首页 > 教学科研 > 内容

中国几个少数民族文字文档可自动识别输入计算机

新华网 2007年01月29日 李江涛

  全球首款在统一平台上支持中国几个少数民族文字文档的识别系统,29日在北京清华大学通过专家鉴定。

  鉴定委员会认为,“多体蒙古文(混排汉英)印刷文档识别暨统一平台少数民族文字识别系统”首次在统一平台上解决了实用的多字体印刷蒙古文文档及其混排汉英的识别问题,完成了在统一平台上蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文和柯尔克孜文(混排汉英)文档识别的综合集成平台和系统,其主要技术指标达到了国际领先水平。

  据介绍,由清华大学丁晓青教授主持研制的这个系统具有良好的扩展能力,可扩展到各少数民族文字和文档的识别自动输入计算机问题,可基本解决少数民族文字文档识别问题。同时该系统还支持阿拉伯文的识别。

  在丁晓青教授的带领下,清华大学、内蒙古大学、内蒙古师范大学、新疆大学、西北民族大学的40多位科研人员参与了这套系统的研制,前后历时八年。项目组成员在多体蒙古文(混排汉英)印刷文档识别系统的基础上,综合集成了在2003年已完成的多字体印刷藏文(混排汉英)文档识别系统等多个文档识别系统。

  项目组最新完成的多体蒙古文(混排汉英)印刷文档识别系统能识别印刷多字体的蒙古文字符和文档,并能识别处理多字体蒙古文字符混排汉英的文档,解决了多字体蒙古文汉英混排文本切分和识别问题。

  对于困难的蒙古文连写文本,提出了利用多种信息得到最优字符切分点等方法,并结合汉字及英文识别技术,实现了蒙古文混排汉英印刷文本识别,文本切分识别率可达96.2%。

(http://news.tsinghua.edu.cn)
[更新:2007-01-30]
[阅读:人次]
清华大学官方微信 清华大学官方微博 校报《新清华》微信 清华电视台微信
相关新闻
  • 网友评议