Nature论文解读：用于改善加权生物网络信噪比的网络增强方法

本期推荐的论文笔记来自 PaperWeekly 社区用户 @xuehansheng。本文是斯坦福大学 Bo Wang 的又一篇大作，即将发表于 Nature Communications。

本文提出一种网络增强（Network Enhancement）方法，即一种用于改善无向加权网络的信噪比的方法。NE 使用双随机矩阵算子来诱导稀疏性，并提供封闭形式的解决方案，增加输入网络的频谱本征。因此，NE 可消除弱边缘，增强实际连接，并带来更好的下游性能。

关于作者：薛寒生，澳大利亚国立大学博士生，研究方向为人工智能与计算生物学。

■ 论文 | Network Enhancement: a general method to denoise weighted biological networks

■ 链接 | https://www.paperweekly.site/papers/2152

■ 作者 | Bo Wang / Armin Pourshafeie / Marinka Zitnik / Junjie Zhu / Carlos D. Bustamante / Serafim Batzoglou / Jure Leskovec

论文动机

这篇文章即将发表于《Nature Communications》，本文主要针对由于测量技术的局限性和固有的自然变化所产生的网络噪声，提出了一种网络增强方法 NE (Network Enhancement)。NE 使用双随机矩阵算子来诱导稀疏性，并提供封闭形式的解决方案，增加输入网络的频谱本征。因此，NE 可消除弱边缘，增强实际连接。

模型介绍-NE

网络增强 Network Enhancement 是对加权生物网络进行去噪的通用方法。该方法改善了无向加权网络的信噪比，从而提高了下游网络分析的性能。 NE 是一种原则性方法，具有收敛性和性能的理论保证。

NE 将嘈杂的，无向的加权网络作为输入，并在同一组节点上输出网络，但具有一组新的边缘权重。NE 的主要关键是观察到通过网络中的强（高边缘权重）路径连接的节点更可能通过高权重边缘链接。NE 使用高阶网络结构来增强给定的加权生物网络。

NE 中的扩散过程基于任何给定的两个节点之间的交互流来修改网络中的边缘权重，如图所示。具体地说，对于任何两个节点，NE 通过对连接这些节点的长度为 3 或更小的所有路径建模来更新其边缘的权重。

下图说明了 NE 的迭代扩散过程。 NE 中的扩散过程生成网络，其中具有强相似性/相互作用的节点与高权重边缘连接，而具有弱相似性/相互作用的节点与低权重边缘连接。

我们用于对加权生物网络进行去噪的算法框架是： a）将加权网络作为输入并形成其相关的邻接矩阵（在下面可视化为热图）。 b）使用 NE 扩散过程迭代地更新网络。NE 中的扩散过程保证收敛。我们为下图所示的会聚扩散过程提供封闭形式的解决方案。

在收敛时，增强网络具有双随机矩阵属性。在数学上，这意味着与输入网络相关联的特征向量被保留，而特征向量增加。

实验结果

人体组织网络

我们将 NE 应用于来自不同人体组织的 22 个基因相互作用网络。该网络捕获特定于人组织和细胞谱系的基因相互作用，范围从 B 淋巴细胞到骨骼肌和整个脑。鉴于增强的组织网络，我们检查了相关组织特异性基因功能在网络中的连接程度。期望功能相关基因倾向于在功能活跃的组织中比在其他非相关组织中更频繁地相互作用。

在 NE 增强的血浆网络中，具有最高边缘密度的功能是血液凝固，纤维蛋白凝块形成和极低密度脂蛋白颗粒重塑的负调节，所有这些功能都特异于血浆（下图，左）。 NE 增强脑网络中连接功能最强的是脑形态发生和前脑区域化，它们都是大脑特有的（下图，右图）。

我们评估了原始网络（RAW）和使用 MU，ND，DSD 和 NE 去噪的网络对组织特异性基因功能预测进行评价。

Hi-C交互网络

我们将 NE 应用于 Hi-C 交互网络。Hi-C 是一种基于 3C 的技术，可以测量细胞群内成对染色质的相互作用频率。Hi-C 读数据可以被认为是基因组区域是节点的网络，并且映射到两个区间的标准化读取计数是加权边缘。

使用 NE 对 Hi-C 网络之前和之后的 Hi-C 接触矩阵进行目标检查，揭示了每个社区内边缘的增强以及社区之间的边界更加清晰（如下图所示）。这种改进对于 5kb 分辨率数据尤为明显，在这些数据中，在使用 NE 进行去噪后，原始数据中视觉上无法检测到的社区变得清晰。

蝴蝶种类相似性网络

我们将 NE 应用于利兹蝴蝶细粒物种图像数据集。细粒度图像检索旨在区分具有细微差别的类别（例如，君主蝴蝶与孔雀蝴蝶）。我们分析了表示蝴蝶物种图像之间成对亲和力的加权相似性网络。

目视检查表明，NE 能够极大地改善细粒度识别的整体相似性网络。在 NE 之前，所有图像都拼凑在一起而没有清晰的聚类（下图，左图）。应用 NE 后得到的相似性网络清楚地显示了代表不同蝴蝶种类的簇（下图，右图）。

总结

本文主要通过观测到生物网络中强（高边缘权重）路径连接的节点更可能通过高权重边缘链接。NE 使用高阶网络结构来增强给定的加权生物网络并在扩散过程中根据任何给定的两个节点之间的交互流来修改网络中的边缘权重。并应用在人类组织网络等三个网络中取到了意想不到的结果。方法看似简单却很新颖有效，值得进一步研究。

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

入门网络增强信噪比

相关数据

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia