从两亿像素实例起步的可穿戴技术创新

——记全国“挑战杯”特等奖作品作者李诚的“挑战”之路

学通社记者 王泰华 徐迟馨 秦雅琛

  如今,在人工智能中,“可穿戴技术”综合运用于多媒体、传感器和无线通信等高新科技产品中,并将这些技术嵌入到人们可以直接穿在身上的衣着、配饰中,成为可穿戴设备,并由使用者利用手势、眼动等方式进行操作和交互。这类可穿戴设备往往都会配备一个用户佩戴在头顶向前下方进行拍摄的摄像头,称之为第一人称摄像头,通过摄像头进行手部的检测识别,从而实现人机交互。手部检测需通过算法判断不同环境下哪里是手,但由于皮肤所反射的颜色往往随着光照条件改变等环境的变化快速改变,因此手部检测成为可穿戴技术发展中亟待解决的一大难关。

图为李诚在全国“挑战杯”比赛现场介绍展示自己的作品。

  在不久前落幕的第十三届“挑战杯”全国大学生课外学术科技作品竞赛(以下简称“全国‘挑战杯’”)中,清华选送的作品《多光照环境下的第一人称手部检测》荣获特等奖,该作品利用模型推荐系统等手段研究富有挑战的图像识别问题,将利用第一人称摄像头进行手部检测的准确率提高了10%-15%,相关成果也被卡内基梅隆大学、佐治亚理工学院、谷歌公司、夏普美国研究所等高校或研究机构采用。而完成该项目的团队只有一个年轻成员——清华大学物理系2009级本科生李诚。

走错教室入对了行

  李诚的科研之路起步得较早。小学六年级的时候,当同龄人尚在为纸上的数学题烦恼,机缘巧合之下他已经开始在电脑上接触编程,“小学六年级报了一个奥数班,但第一次去上课的时候不小心走错了教室,教室里正好在讲编程课,里面都是些比我大几岁的学生。我听着听着觉得挺有意思,也就这样学下去了。”

  凭借对课外科技的浓厚兴趣和扎实的编程知识,李诚在信息技术上的钻研愈发深入。他初中便开始做机器人,并参加了“乐高”足球机器人比赛,他用乐高编程模块编写的程序控制由积木搭成的小车,在场上与另外三台车对一个球进行角逐。

  2009年,李诚凭借在科技竞赛中的优秀表现被保送进入清华大学,学校里丰富的科研资源让李诚有更多的平台和机会发展自己的兴趣特长。大三暑假,在校团委“本科生暑期海外研修计划”的支持下,李诚前往卡内基梅隆大学进行暑期研修。在那里,李诚认识了一位美籍日裔博士后,这位博士后正在进行可穿戴设备方面的第一人称物品识别研究。巧合的是,早在几年前,尚在读高中的李诚就通过TED网站上一位印度工程师的演讲了解了“可穿戴设备”这个概念并萌生了初步的兴趣,两人一拍即合,在他的建议和鼓励下,李诚开始了第一人称手部检测的探索与研究。

课外学术讨论激发出的创造性思维

  为了解决光照等情况下手部识别的问题,李诚查阅了前人在计算机视觉领域的研究后,仍然感到毫无头绪。“这时我想到了曾经在‘星火班’学术讨论时,听说过的‘模型推荐’的概念。”李诚介绍道,大二时他入选了“科技创新,星火燎原”清华大学学生创新人才培养计划(简称“星火班”),在“星火班”中他找到了许多和他一样对课外学术科技充满探索兴趣的伙伴们,并经常就不同领域的问题进行学术讨论和交流,“‘模型推荐’是数据挖掘领域学者的研究热点,但还没有运用到计算机视觉领域。”抱着试一试的想法,李诚引入了模型推荐系统,并结合特征选择和时空马尔可夫场滤波的方法,最终有效解决了第一人称手部检测的准确率问题。这一创造性的想法,就连计算机视觉三大顶级国际会议中的国际计算机视觉大会(ICCV)的审稿人都啧啧称赞:“用模型推荐系统来解决手部检测问题是非常有趣,新颖而直观的。”

图为对比图。

  对于模型推荐系统的说明,李诚用准备GRE试题的例子类比道:“像准备GRE考试时会有人总结一些‘秘籍’,如在什么情况下最好选什么选项,这样考试就有一定准确率。手部检测也是有训练视频的,训练完之后就知道什么情况下出现的是手了,但是训练视频很长、很麻烦,模型推荐系统就是把视频切开来,每个房间用一个模型,像科目分开学一样,每个情况分开讨论,这样出现一个新的问题大致判断是什么情况下的,就用这个情况下的结果。”

勤奋而快乐的科技探索

  当然,仅仅有创意也是不够的,还需要大量基础性的数据采集工作,李诚首先建立了一个标定过的有两亿多个像素实例、覆盖了各种不同光照环境下的手部照片的室内/室外第一人称手部识别数据集。利用这个数据集以及其他研究者发布的数据集,李诚对较为常用的底层特征进行了测试。他提出了一个基于稀疏特征选择,以及依赖于全局特征的结构化判断方案。对于许多人来说这项工作是枯燥的,对李诚则不然,他具备将工作和快乐画上等号的能力和心态。

  “一张图片就好几万个像素,总共几百张图片的样子吧,我的工作就是一张图过来以后我把它上面的手给涂出来。这一过程看起来很辛苦,但是也可能没有想象中的那么枯燥。李诚笑谈道,“当时我是选了《爱情公寓》这部电视剧作为手部识别数据集的素材,我用三天时间就看完了这部其他人用一个月甚至几个月才看完的电视剧。当然与其他人还有点不同,我看这部电视剧是要把里面的许多场景的许多手都一点点给标记出来,用以收集数据,而不是关注其本身的剧情。”

  有的程序要运行很长时间甚至两三天,李诚也会“忙里偷闲”,上午整理代码,下午让程序在服务器上运行,他可以整个下午出去打球。“我在卡内基梅隆大学的暑假还是很开心的。科研,也可以轻松愉快。”

  由于有时摄像机的移动速度过快,考虑到时间与空间的连续性信息,在之后处理过程,李诚采用了时空马尔科夫场滤波的算法,有效解决了这一问题。这些核心技术的巧妙运用,使得李诚的模型准确率领先于包括乔治亚理工、加州大学欧文分校在内的美国其他大学提出的几种主流模型。

功夫不负有心人

  利用在卡内基梅隆大学的一个寒假和一个暑假,李诚完成了第一人称手部检测的研究工作,他的成果也很快得到了同行专家的认可。李诚以第一作者分别在两个计算机视觉领域的顶尖学术会议CVPR2013(IEEE Conference on Computer Vision and Pattern Recognition)和ICCV2013(IEEE International Conference on Computer Vision)上发表论文2篇。该项目相关代码、数据集也已加入到谷歌公司的手部检测项目中并且即将加入目前应用最广泛的机器视觉开源库OpenCV的最新版本OpenCV3.0中。中国科学院院士张钹对项目予以了充分肯定,并评价道:“具有很高的研究水平和很好的推广前景”。

  这样一个充满创意的作品,却差点与“挑战杯”擦肩而过。在清华校内“挑战杯”上,《多光照环境下的第一人称手部检测》项目仅仅获得了三等奖。“在选拔全国‘挑战杯’参赛作品时,系团委向校团委推荐说,这里还有一件很牛的作品,我就被报上去了。” 李诚笑言。这件作品很快得到了专家们的一致肯定,并代表清华大学参加全国“挑战杯”。最终作品获得“挑战杯”信息技术类特等奖,回忆捧杯的那一瞬间,李诚说:“我的感受就是,功夫不负有心人,辛苦得到了回报。”

    “我会在北京创业,”谈到未来,李诚信心满满,“我已经开始和人洽谈,仍然会从事计算机视觉领域的产品研发。”从科研到创业,对李诚来说,变的是身旁纷繁的世界,不变的是那颗始终渴望挑战、追求卓越的心。

  (清华新闻网11月22日电

  编辑:襄桦 范丽

2013年11月22日 09:00:52  清华新闻网

更多 ›图说清华

最新更新