新加坡国立大学姚志刚团队和清华大学丘成桐团队推出高维数据非传统去噪新方法-清华大学

清华新闻网1月26日电 在过去几十年里，随着数据收集与处理能力的显著提高，各行各业都在面对由海量高维数据带来的机遇与挑战。然而，在处理这些高维数据时，传统的数据分析方法往往过分依赖于特征间的线性相关性。尽管这些线性方法能够简化数据的表示形式，但它们在捕捉数据中的复杂模式方面却显得力不从心。一个典型的例子是，高维数据往往聚集在低维流形附近，而这些特征无法有效地通过低维线性结构来表达。

针对这一问题，流形学习技术成为一种具有前景的解决方案。然而，现有的流形学习方法，如基于流形结构的嵌入和去噪算法，因缺乏深入的几何理解和坚实的理论基础而受到限制。此外，在处理极大规模数据集时，这些技术常面临着计算效率和精度的双重挑战，特别是在生物信息学、金融分析和社会网络数据等应用领域中。

为了深入研究高维数据中的非线性结构，新加坡国立大学统计与数据科学系的研究团队和清华丘成桐数学中心团队提出了一种新算法。该算法基于数据统计分布和隐含几何结构，旨在从高维环境空间中的离散样本点恢复出光滑的低维流形结构。研究人员将高维空间中的观测样本视为未知流形的隐藏信息与环境噪声的混合体。他们通过利用数据中的几何平滑特征及统计收敛性质，估计样本点到流形的距离，并据此给出未知流形的估计及样本点到其上的投影。这种对流形的估计被证明具有给定维数的光滑流形特性，且其估计误差和收敛速度均优于现有方法。此外，为了应对数据维度和数据量的计算挑战，研究人员将此方法与深层生成对抗网络（GANs）结合（如图1(c) 所示），通过循环生成对抗网络学习高低维空间之间的连续映射，来估计隐藏流形的指对数映射，并利用这些映射实现对隐藏流形的初步估计。团队已将该方法应用于欧式空间中的几何模型、卡拉比-丘流形，以及一系列图像数据（图1 (a, d)），并正在尝试处理分析更高维度的前沿实验数据，例如单细胞RNA序列数据。这项工作预计将极大地改变我们处理高维复杂数据集域的效率，并提供潜在的新的视角。

利用该研究中提出的算法拟合潜在流形的示意图。现实世界中的数据通常可被表示为高维向量, 如（a）中的图像数据。通常情况下，这些向量被认为分布在一个低维的未知流形附近（如b中黑色虚线所示）。利用（c）中展示的神经网络框架可以有效地学习这个潜在流形，并得到类似于（b）中红色曲线的估计值。这一方法有助于在高维环境空间内进行如（d）中所示的非线性插值和去噪，从而显著改善数据处理和分析。

该研究中的部分成果近日以“利用循环生成对抗网络进行流形拟合（Manifold Fitting with CycleGAN）”为题，被《美国国家科学院院刊》（Proceedings of the National Academy of Sciences of the United States of America）期刊接收。该研究的完成单位是新加坡国立大学和清华大学丘成桐数学科学中心。该论文的第一作者为新加坡国立大学教授姚志刚，通讯作者为姚志刚与清华丘成桐数学科学中心教授丘成桐，论文作者贡献相当。论文部分研究结果来自于姚志刚在哈佛数学和应用中心访问期间完成的工作。研究得到了新加坡教育部研究基金的支持。

论文链接：https://www.pnas.org/doi/10.1073/pnas.2311436121

供稿：数学科学中心

编辑：李若梦

审核：段颖

2024年01月26日 19:55:25