姓名:赵颖

职称:副研究员

电话:62783505-6

邮件:yingz@tsinghua.edu.cn

教育背景

理学学士 (计算机科学), 北京大学, 中国, 1999;

博士 (计算机科学), 明尼苏达大学, 美国, 2005.

社会兼职

中国计算机学会: 对外联络部委员 (2008-).

研究领域

数据挖掘, 机器学习

自主计算

研究概况

我研究的主要方向,是解决高维数据(例如文本数据、生物数据以及科学数据)的非监督和半监督学习中的核心问题。我的研究兴趣也包括在自主计算中研究和应用全新的数据挖掘算法。例如,在解决系统运行性能监控、预测和诊断系统出错等问题中,应用数据挖掘算法对空间性与时序性建模,能够得到更优的性能。这两方面的研究得到了国家自然科学基金以及国家863项目的支持,我同时也与美国明尼苏达大学以及北卡州立大学展开合作研究。

在高维数据的非监督和半监督学习方向上,我主要取得了两方面的成果:1)首先对用于文本聚类的目标函数做出理论上和实验上的综合比较,提出了目标函数与聚类性能之间的关系,并在分层文本聚类中首创综合聚合和划分的目标函数,取得了较好的聚类结果;2)首创基于主题的文本聚类算法,将专家知识以及对所聚类数据的认知模型进行最优化使用。在自主计算方向上,我的科研成果包括以下两个系统:1)利用空间和时序关联性的分布式系统的性能监控系统,大大消减了监控的开销;2)基于隐马尔科夫模型和隐半马尔科夫模型的硬盘出错预测系统,显著提高了出错预测的准确率。

奖励与荣誉

国家留学基金委: IBM奖研金 (2007).

学术成果

[1] Y. Zhao and G. Karypis. Hierarchical Clustering Algorithms for Document Datasets. Data Mining and Knowledge Discovery, vol.10, no. 2, pp. 141-168, 2005.

[2] Y. Zhao and G. Karypis. Empirical and Theoretical Comparisons of Selected Criterion Functions for Document Clustering. Machine Learning, vol. 55, no. 3, pp. 311-331, 2004.

[3] Y. Zhao, X. Liu, S. Gan and W. Zheng. Predicting Disk Failures with HMM- and HSMM-based Approaches. Proc. Industrial Conf. on Data Mining '10, 2010.

[4] Y. Zhao, Y. Tan, Z. Gong, X. Gu, M. Wamboldt. Self-Correlating Predictive Information Tracking for Large-Scale Production Systems. Proc. 7th Intl. Conf. on Autonomic Computing (ICAC2009), Barcelona, Spain, 2009, pp. 33-p42.

[5] Y. Zhao and G. Karypis. Topic-driven Clustering for Document Datasets. Proc. 2005 SIAM Intl. Conf. on Data Mining (SDM05), pp. 358-369.

[6] Y. Zhao and G. Karypis. Evaluation of Hierarchical Clustering Algorithms for Document Datasets. Proc. 11th ACM Conf. on Information and Knowledge Management (CIKM2002), pp. 515-524.