爱阅读 爱科技 爱生活

——记清华大学第30届“挑战杯”一等奖项目小屏幕设备PDF阅读软件和研发者张艺庆

研通社记者 时雪

  你可喜欢睡前躺在床上用手机看上几页电子书?看书的时候你有没有觉得屏幕过小,缩小了看不清、放大了又需要来回移动显示内容,阅读起来很不方便?清华大学汽车系大二学生张艺庆就遇到了这个问题。

  张艺庆是个电子阅读爱好者,来自理工科院系的他喜欢读杂文、读历史,而正是一次不算愉快的阅读体验让他萌生了做这个软件的念头。朋友送给他一套关于中国历史的电子书,是PDF版本,很多PDF版本的书都是直接扫描原书以图片的方式显示,在手机这样的小屏幕上阅读时需要来回移动图片,很不方便。张艺庆在读这套书的时候就想,怎样才能让文字的显示匹配手机屏幕的宽度以方便阅读呢?于是就有了这个“小屏幕设备PDF阅读的解决方案”。

图1为该软件演示页面。

  图像识别技术是这一研究的核心。张艺庆编写了一个程序根据页面显示中的黑白点对扫描版本的PDF文件进行识别,并可以根据具体需要对文字显示的宽度进行重新排版,将一行文字截成几份,重新排版成多行,这样每一行的宽度减少了,也就为阅读提供了方便。“这个软件是我一个人做的,因为之前有过图像识别这方面研究的基础,所以就运用了已有的知识和技能做出了一个新作品,而且也想学以致用”,张艺庆说。

  设计这个软件花了张艺庆两星期时间,第一星期用来编写程序,实现运行;第二星期则听取老师和同学们的意见,对软件进行改进。他说,在程序出来后有人问我,包括我自己也想了很多问题,如果页面里有图片怎么办,如果是彩色图片呢,原来的文字排版如果版式多样,比如有很多分栏怎么办?针对这些问题,张艺庆又为图片的处理提供了单独的算法,设计了更多的处理方式,对程序进行完善和改进。

  总体上看,这款软件在功能上具有一些优点。比如可以识别分栏,有边注等排版较为复杂的文档;可以自动判定图像是单通道的黑白图像还是三通道的RGB彩色图像,根据通道数的不同对图像分别进行处理;具有较高的转化识别度,切分准确;算法的可移植性高,作为一个通用性的产品,应该适用于处理各种不同的书籍,算法对于不同种类的书籍都应该具有较好的识别效果,经过测试,这款软件可以满足绝大部分书籍的转化;同时,识别速度较快,目前处理一本300页的图书本软件一般在3分钟之内可以处理完毕。“其实真的是一款很简单的软件,但还有很多不成熟的地方,在这个方案里我面对的最大困难就是如何让它更加完善。”谈到项目的优点,张艺庆表现得格外谦虚。

图2

  

图3

 

图4

  图2为需要处理的页面,图3图4为处理后的显示效果。

  对于这一软件的具体应用和未来,张艺庆也有着自己的畅想,现在这个软件还存在一些不足,比如受程序编写所用语言的限制,要实现在所有电脑上的运行有一定难度,运行平台有一定限制;现在还只能在电脑上将文档重新编排好然后再导入手机里阅读。但事实上,相对于成熟的文档阅读和处理软件,这个小软件的可替代性也较强。在具体应用上他更偏向将该软件做成一个APP应用或者是阅读软件的一项插件。

  PDF这种阅读格式不仅美观、格式齐整,而且兼容性高,不管是PPT还是文字、图片都可以显示,此外保密性、安全性也高,一般不可更改。因此,不断提高这种文档格式的阅读体验很有必要。“你还记得哈利波特电影里面的报纸吗?那种展开报纸,图片里的人物就会变成立体的蹦出来向你讲故事的那种?现在技术很可能让这种阅读体验成为现实。比如你看电子书上有一张图片,你点开它,它可能不只一张,而是可以一张一张翻阅的图集;或者文档上有一个相应人物,你点击它,它就会向你介绍相关内容,现在iPad里的一种阅读格式好像就能做到这种地步了。”张艺庆兴致勃勃地谈论自己对现在和未来阅读体验的想法。“也许我会组一个团队,说不定能做出一个像Adobe Reader那样成熟的阅读软件。”

  张艺庆对于科技的喜爱与“挑战杯”有着千丝万缕的联系,他告诉记者,就是在第29届“挑战杯”科技展上,他看见了一件自己很喜欢的作品,作者应用巧妙的程序设计使得演讲者可以通过激光笔操纵鼠标光标,而不再需要走过去接触鼠标来控制光标,从而改进了需要使用幻灯片的演讲方式。当时他觉得这个设计非常神奇并让他看到了程序设计变成真正应用的实例。

  兴趣是最好的老师。张艺庆说这次“挑战杯”带给他很大肯定和鼓舞,也带来给他成就感和满足感,让他更加坚定了自己对计算机领域的钟爱。这个92年生的大男孩爱阅读,爱科技,也爱生活。现在,他已经转去计算机系,打算继续用自己的科技发明为大家创造便利,更希望能利用科技去影响世界、实现自我价值。

编辑:襄桦 实习编辑:冰 冰

 

 

2012年07月13日 14:48:29  清华新闻网

更多 ›图说清华

最新更新