
本书以统计学习方法为工具,挖掘生物分子网络中的有效信息。全书共7章,主要内容包括:绪论、基于概率图模型的蛋白质相互作用网络的重构、秀丽线虫数据库的整合与重构、蛋白质相互作用网络中最小驱动节点集的挖掘、基于集成聚类的蛋白质复合物的发现、基于正则化逻辑回归的乳腺癌生物标志物的识别、总结和展望。本书通过大量实验和分析帮助读者理解各类方法的主要思路与实现细节,并列出了相关参考文献,可供相关领域的研究人员、技术人员、高等院校的高年级本科生及研究生阅读、参考。
前 言 高通量测序技术的迅速发展给生命科学研究带来了革命性的改变,后基因组时代的生物信息学研究更关注基因调控网络、代谢网络和蛋白质相互作用网络等系统层面上的研究。计算系统生物学旨在从系统的视角揭示新的生物特性,通过使用跨学科的工具来获得、集成并分析从多种实验中获得的海量复杂异质数据,以理解复杂的生命过程,有助于阐释复杂疾病的遗传学机理及发现药物靶标。 生物分子网络包括蛋白质相互作用网络、蛋白质与DNA网络、基因共表达网络等,这些都是生命体的重要组成部分,对其结构和功能的研究有着重要的生物学与医学意义。特别地,对蛋白质相互作用网络的研究有助于进行高精度蛋白质相互作用网络重构、蛋白质功能单元发现、蛋白质相互作用网络演化过程的结构分析等。 本书主要介绍如何利用统计学习方法来挖掘生物分子网络中的有效信息。由于使用高通量实验技术获得的蛋白质相互作用数据往往包含很多噪声数据(假阳性数据和假阴性数据),这会影响后续研究的精准度。因此,本书首先利用概率图模型构建契合蛋白质相互作用网络特点的生成模型,以重构高精度的蛋白质相互作用网络;然后,在生物分子网络的基础上挖掘网络中层次结构信息,包括关键节点(集)、复合物(功能模块)及网络标志物等。具体而言,第一,考虑蛋白质相互作用网络的结构性,因为发现其中的驱动因子对解析疾病的发病机理及刻画复杂网络的结构十分重要,所以,提出基于优化算法的蛋白质相互作用网络中的驱动节点集的挖掘算法,并通过多种实验分析得到驱动节点集的重要生物学意义。第二,考虑常用的蛋白质复合物识别方法各有偏倚,很难在大多数网络中取得较好的结果,因此提出基于矩阵分解的集成聚类方法,来探索蛋白质相互作用网络中的各种不同结构的功能单元。此方法不仅能够充分发挥多种聚类算法的优势,而且在预测重叠性蛋白质功能单元方面具有明显优势。第三,考虑传统的网络标志物识别方法仅关注差异基因的检测而忽视了不同基因之间的相互作用关系,本书提出了基于融合节点相互作用关系的正则化逻辑回归模型,此模型具有一定的鲁棒性且大大降低了对基因表达数据的依赖程度。 本书的主要内容来自朱媛、张晓飞、欧阳乐和吴梦云4位老师近十年关于生物分子网络的一些基础研究成果。其中,张晓飞、欧阳乐和吴梦云老师分别负责第4~6章的编订与修正工作,朱媛老师负责全书的编写和统稿工作。感谢在初稿撰写过程中给出宝贵建议的西安电子科技大学的黄晓太老师,同时感谢在初稿整理过程中,彭晓宇、刘晨亮、张德鑫、陈磊、王越、杨合、郑涵颖、涂佳娟、谭雨婷、李会生、熊怡绚、靳柯、王蒙国、杨煜、贺江、马哲家琪等同学的帮助。 由于作者水平和能力有限,因此在编写过程中难免存在不足和错漏,恳请同仁不吝赐教,以便及时改正。 作 者
目 录 第1章 绪论 1 1.1 生物分子网络 1 1.2 相关研究进展 3 1.3 本书的研究内容 6 1.4 本书的结构和组织 8 1.5 参考文献 9 第2章 基于概率图模型的蛋白质相互作用网络的重构 17 2.1 引言 17 2.2 主要方法 17 2.2.1 构建稀疏概率图模型 17 2.2.2 参数估计 19 2.2.3 置信度指标 20 2.3 实验结果及分析 22 2.3.1 数据库 22 2.3.2 实验设置 24 2.3.3 高精度酵母数据上的实验结果 24 2.3.4 人类蛋白质数据上的实验结果 28 2.3.5 计算复杂度分析 31 2.4 本章小结 31 2.5 参考文献 32 第3章 秀丽线虫数据库的整合与重构 35 3.1 引言 35 3.2 主要方法 35 3.2.1 蛋白质对的可靠性评分 36 3.2.2 改进的稀疏概率图模型 36 3.2.3 参数估计 37 3.3 实验结果及分析 38 3.3.1 数据库 38 3.3.2 置信度的有效性验证 40 3.3.3 秀丽线虫加权网络的应用 44 3.4 本章小结 46 3.5 参考文献 47 第4章 蛋白质相互作用网络中最小驱动节点集的挖掘 50 4.1 引言 50 4.2 主要方法 53 4.2.1 最小控制集模型 53 4.2.2 中心校正最小控制集模型 53 4.2.3 中心性计算 55 4.3 实验结果及分析 55 4.3.1 数据库 55 4.3.2 参数效果分析 57 4.3.3 不同优化方法确定的驱动蛋白质之间的重叠分析 58 4.3.4 驱动蛋白质的度分布 59 4.3.5 驱动蛋白质的介数分布 59 4.3.6 驱动蛋白质的攻击脆弱性 60 4.3.7 富集分析 61 4.3.8 与其他算法比较 66 4.3.9 计算时间分析 67 4.4 本章小结 68 4.5 参考文献 68 第5章 基于集成聚类的蛋白质复合物的发现 74 5.1 引言 74 5.2 主要方法 75 5.2.1 构建合成网络 75 5.2.2 模型建立 77 5.2.3 模型求解及蛋白质复合物侦测 79 5.3 实验结果与分析 84 5.3.1 数据库 84 5.3.2 评估指标 85 5.3.3 参数选择 87 5.3.4 效果评估 89 5.4 本章小结 98 5.5 参考文献 98 第6章 基于正则化逻辑回归的乳腺癌生物标志物的识别 102 6.1 引言 102 6.2 主要方法 103 6.2.1 基于边信息的正则化逻辑回归模型 104 6.2.2 自适应弹性网的权重 105 6.3 实验结果及分析 107 6.3.1 数据库 107 6.3.2 评价指标 108 6.3.3 参数选择 109 6.3.4 分类准确性评估 112 6.3.5 基因选择过程的稳定性 113 6.3.6 功能稳定性 115 6.3.7 生物标志物(网络标志物)识别 117 6.4 本章小结 123 6.5 参考文献 123 第7章 总结和展望 128 7.1 总结 128 7.2 展望 129