
生物信息学是运用生物学、数学、计算机科学等多学科技术与手段进行生物信息的获取、贮存、分析、利用的一门交叉学科,是目前生物学研究热门领域之一。本书内容包括两个篇章:一是Windows系统下进行文献检索、数据库使用、引物设计、核酸蛋白质序列分析、进化分析、蛋白质结构分析、miRNA分析等理论与方法及相关软件使用介绍;二是linux系统下面对于基因组测序、RNAseq、miRNAseq等二代测序数据组装、基因预测、注释、表达分析等操作流程及相关软件介绍。
前 言 关于本书的成因:希望通过本书让读者了解生物信息学,并能利用生物信息学工具进行常规的分析;对于学有余力或者对生物信息学有浓厚兴趣的读者,则读完本书后可进行二代测序数据的初步深度分析。本书主要针对生物科学相关专业本科生、研究生或者其他有志于学习生物信息学的初学者,希望这本书能起到抛砖引玉的作用,带领他们进入生物信息学领域。 关于本书的内容:全书分为两篇,Windows篇属于生物信息学基础,相关生物信息学软件在装有Windows系统的计算机上即可运行,这部分内容要求每个生物科学专业的本科生或读者必须了解掌握,主要包括生物信息相关数据库、序列比对、引物设计、序列分析、进化分析等;Linux篇属于生物信息学的深度应用,主要软件及其应用需要在安装Linux系统的计算机上才能最有效地运行,这部分的内容供学有余力或者有志于进行生物信息学研究应用的学生或工作人员学习,主要包括基因组、转录组的测序、组装、注释等分析内容。 关于学习生物信息学的态度:不贪多、不畏多、自学为主、教学为辅。所谓“不贪多”,就是生物信息学涉及多个学科门类,一个人几乎不可能精通所有相关门类,因此最好根据个人兴趣选择其中一个方向刻苦钻研,勤以练习,融会贯通,同时兼顾其他方面。所谓“不畏多”,就是不要被生物信息学所需要学习的知识吓到,有的知识够用即可,遇到需要进一步学习的时候再去学习新的知识,循序渐进,学得也快。所谓“自学为主、教学为辅”,就是强调学习的主动性,带着强烈的兴趣学习,学习效果要远好于被迫学习。自学过程中不可避免地会遇到一些问题,此时力求通过查阅资料自行解决问题,因此会自然而然地产生自豪感;如果自己查阅资料无法解决的时候最好能有人给以辅助,否则会卡在那里、无法进行后续的学习,这就是要有教学为辅的作用。生物信息学注重实际分析,由于软硬件的差异,对于同样的数据,不同的人处理得到的结果可能不一致,这就要勤加练习,积累经验,分析导致不同结果产生的原因,并能对结果进行取舍,或者改变条件重新分析。 生物信息学,你可以爱它,因为它帮你解决了很多生物学的问题;你也可以恨它,因为有时候你的问题它无法解决。但不管你是爱还是恨,它就在那里,如果你的工作或者学习跟生物有关,你就必须要了解它! 冯世鹏 2017年6月12日于海大
目 录 第0章 绪论 1 0.1 生物信息学的发展历史 1 0.1.1 Bioinfomatics的来源 1 0.1.2 生物信息学的定义 1 0.1.3 人类基因组计划 1 0.1.4 生物信息学发展重要人物及 大事 2 0.2 生物信息学的研究内容 4 0.2.1 生物分子数据的收集与管理 4 0.2.2 数据库搜索及序列比较 5 0.2.3 基因组序列分析 5 0.2.4 基因表达数据的分析与处理 5 0.2.5 蛋白质结构预测 6 0.2.6 非编码RNA研究 6 0.2.7 表观遗传学研究 7 0.3 生物信息学的生物学基础知识 7 0.3.1 遗传定律 7 0.3.2 DNA分子结构 8 0.3.3 基因结构 8 0.3.4 中心法则 9 0.3.5 密码子表 9 0.3.6 蛋白质结构与功能 9 0.3.7 PCR技术 9 参考文献 10 Windows篇 第1章 文献信息检索 12 1.1 文献资源的分类 12 1.1.1 根据出版形式进行分类 12 1.1.2 综合分类法 13 1.1.3 标识码及编号 14 1.2 文献的格式 15 1.3 文献检索 17 1.3.1 文献检索词的来源 17 1.3.2 搜索数据库选择 18 1.3.3 检索式构建 19 1.3.4 检索结果的处理 21 1.3.5 CNKI数据库查询举例 21 1.3.6 Elsevier数据库检索举例 25 1.4 文献信息的价值判断及阅读 27 1.4.1 文献的价值判断 27 1.4.2 文献有效阅读 29 1.5 科技查新 29 习题 31 参考文献 31 第2章 生物信息数据资源 32 2.1 核酸序列数据库 32 2.1.1 GenBank数据库及其分类 33 2.1.2 Entrz Nucleotide数据库及 其分类 34 2.1.3 NCBI其他数据库 34 2.1.4 GenBank数据格式 35 2.1.5 GenBank数据访问方式 35 2.1.6 基因数据库记录格式及搜索 38 2.2 蛋白质序列数据库 39 2.2.1 UniProt数据库介绍 39 2.2.2 Uniprot数据获得方式 41 2.2.3 UniProt数据库记录格式 42 2.3 蛋白质结构数据库 43 2.3.1 PDB数据库发展历史 43 2.3.2 RCSB PDB数据库介绍 44 2.3.3 RCSB PDB数据库搜索 45 2.3.4 RCSB PDB数据记录 46 2.4 物种基因组数据库 47 2.4.1 小鼠基因组数据库 47 2.4.2 拟南芥基因组数据库 49 2.5 代谢通路数据库 52 2.5.1 在KEGG数据库搜索 53 2.5.2 主页快速链接 54 2.5.3 KEGG通路图及其元素意义 55 2.6 基因组浏览器 57 2.6.1 基因组数据展示内容 58 2.6.2 BLAT搜索 61 2.7 非编码RNA数据库 62 2.7.1 miRNA数据库 62 2.7.2 NONCODE数据库 63 习题 66 参考文献 66 第3章 序列比对 68 3.1 比对程序介绍 68 3.2 比对序列相似性的统计特性 69 3.3 在线BLAST序列比对 72 3.4 本地运行BLAST 75 3.4.1 BLAST程序的下载和安装 75 3.4.2 搜索数据库的索引格式化 75 3.4.3 运行BLAST程序,搜索本地 序列数据库 76 3.5 多序列比对 77 3.5.1 ClustalX的使用 77 习题 80 参考文献 80 第4章 核酸序列分析 81 4.1 基因阅读框的识别 81 4.2 基因其他结构区预测 82 4.2.1 CpG岛的预测 82 4.2.2 转录终止信号预测 84 4.2.3 启动子区域的预测 84 4.2.4 密码子偏好性计算 86 4.3 引物设计 88 4.3.1 引物设计的基本原则 88 4.3.2 Primer 5引物设计 88 4.3.3 利用Primer 5进行酶切位点 分析 91 4.4 核酸序列的其他转换 92 习题 93 参考文献 93 第5章 蛋白质序列分析 94 5.1 蛋白质理化性质和一级结构 分析 94 5.1.1 蛋白质理化性质分析 94 5.1.2 蛋白质理化性质分布图 95 5.1.3 蛋白质信号肽预测 97 5.2 蛋白质二级结构分析 99 5.2.1 蛋白质跨膜结构区分析 99 5.2.2 蛋白质卷曲螺旋分析 101 5.2.3 蛋白质二级结构预测分析 103 5.3 蛋白质三维结构预测分析 104 习题 105 参考文献 105 第6章 基因表达分析 106 6.1 qPCR数据分析 106 6.1.1 绝对定量分析方法 107 6.1.2 相对定量方法分析 108 6.2 基因芯片数据分析 111 6.2.1 从GEO上下载基因芯片表达 谱数据 111 6.2.2 将表达谱数据导入MATLAB 软件 112 6.2.3 对soft格式文件的标准化 113 6.2.4 差异表达基因筛选 114 习题 114 参考文献 115 第7章 进化分析 116 7.1 进化理论介绍 116 7.1.1 种群是生物进化的基本单位 116 7.1.2 可遗传的变异是生物进化的 原始材料 116 7.1.3 分子进化中性学说 117 7.2 进化分析(以MEGA为例) 117 7.2.1 序列准备 118 7.2.2 序列比对 119 7.2.3 建树计算 119 7.2.4 进化树的调整 121 习题 121 参考文献 122 第8章 非编码miRNA分析 123 8.1 miRNA简介 123 8.1.1 miRNA的生物合成 123 8.1.2 miRNA调控基因表达的机理 124 8.1.3 miRNA的生理调节作用 125 8.2 miRNA靶基因预测 125 8.2.1 miRNA靶基因的预测原理 125 8.2.2 miRNA靶基因的预测软件 126 8.2.3 miRNA靶基因的预测步骤 127 8.3 调控靶基因的miRNA预测 130 8.4 miRBase数据库的使用 131 8.4.1 miRBase数据库的搜索 131 8.4.2 miRBase数据库批量下载 132 8.4.3 miRNA记录信息 133 习题 134 参考文献 134 Linux篇 第9章 Linux系统 138 9.1 Linux简介 138 9.1.1 什么是Linux系统 138 9.1.2 为什么要学习Linux系统 139 9.1.3 如何学习Linux系统 140 9.2 Linux系统安装 140 9.2.1 Linux系统下载 140 9.2.2 系统安装盘制作 142 9.2.3 CentOS 6.5操作系统安装 144 9.2.4 更新yum源 154 9.3 Linux命令行模式——终端 155 9.4 Linux系统开关机 156 9.5 Linux系统文件 157 9.5.1 Linux文件夹及其主要作用 (以CentOS 6.5为例) 157 9.5.2 Linux的文件信息的意义 158 9.5.3 Linux命令帮助文件 159 9.6 几个重要的快捷键 161 9.7 Linux系统的命令 161 9.7.1 Linux系统命令的输入格式 161 9.7.2 常用命令及其常用选项介绍 161 9.7.3 数据流重定向 167 9.7.4 管道命令 168 9.7.5 vim编辑器工具 168 9.7.6 其他命令 170 习题 177 参考文献 177 第10章 Perl语言 178 10.1 Perl版本 178 10.2 Perl标量数据 179 10.2.1 Perl运算符 180 10.2.2 标量变量 180 10.2.3 数字及字符串的比较 运算符 181 10.3 列表与数组 182 10.3.1 数组及其赋值操作 182 10.3.2 数组元素的引用 182 10.3.3 数组相关的几个命令 183 10.4 哈希 183 10.4.1 哈希赋值 184 10.4.2 哈希的相关函数 184 10.5 判断式及循环控制结构 185 10.5.1 if条件判断式 185 10.5.2 while循环结构 185 10.5.3 until循环结构 186 10.5.4 foreach循环结构 186 10.5.5 each控制结构 186 10.6 正则表达式 187 10.6.1 正则表达式相关符号 187 10.6.2 捕获变量 188 10.6.3 正则表达式中特殊字符 的意义 188 10.7 Perl的排序 189 10.7.1 sort命令 189 10.7.2 sort与比较运算符及默认 函数的连用 189 10.8 Perl默认的函数的总结 189 10.9 程序精解 190 10.9.1 实例一:从fasta文件中 寻找特定的序列 190 10.9.2 实例二:文本内容分类 统计功能 193 10.9.3 实例三:统计文件内容 是否有重复 195 10.9.4 实例四:Scaffolds序列 的排序 196 习题 196 参考文献 197 第11章 测序方法及数据处理 198 11.1 测序技术的发展 198 11.1.1 第一代测序方法 198 11.1.2 二代测序方法 201 11.1.3 测序文库插入片段大小 选择 205 11.1.4 测序类型 205 11.1.5 测序方法的搭配 206 11.1.6 测序质量值 206 11.2 测序数据处理 207 11.3 测序数据质量分析 208 11.3.1 用FastQC软件对测序数据 进行评估 208 11.3.2 NGSQCToolKit对测序 Reads的处理 213 11.3.3 FASTX_Toolkit对测序 Reads的处理 216 11.4 深度测序数据上传SRA 数据库 218 11.4.1 材料准备 220 11.4.2 注册项目信息 221 11.4.3 提供技术信息 224 11.4.4 上传数据 227 11.4.5 数据传输完毕状态 230 习题 231 参考文献 231 第12章 基因组组装 232 12.1 Velvet拼装软件 233 12.1.1 Velvet软件安装 234 12.1.2 Velvet参数介绍 234 12.1.3 Velvet命令运行 237 12.1.4 Velvet运行结果解读 237 12.2 SOAPdenovo软件拼装 238 12.2.1 软件的安装 239 12.2.2 参数介绍 239 12.2.3 SOAPdenovo命令运行 241 12.2.4 SOAPdenovo运行结果 解读 242 12.3 ABySS软件拼装 242 12.3.1 ABySS的安装 242 12.3.2 ABySS主要参数介绍 243 12.3.3 ABySS命令运行 245 12.3.4 ABySS运行命令结果解读 245 12.4 ALLPATH-LG软件拼装 245 12.4.1 ALLPATH-LG的安装 246 12.4.2 ALLPATH-LG的主要参数 246 12.4.3 ALLPATH-LG测试数据 运行过程解读 249 12.4.4 运行结果解读 252 12.5 Gaps修补 252 12.5.1 GapFiller软件安装 252 12.5.2 相关参数介绍 253 12.5.3 程序运行命令 254 12.5.4 运行结果解读 254 12.6 基因组组装效果评估 254 习题 254 参考文献 255 第13章 小RNA测序数据分析 256 13.1 小RNA测序简介 256 13.2 小RNA测序数据质控 257 13.3 miRNA的识别 259 习题 263 参考文献 263 第14章 RNA-seq数据分析 264 14.1 转录组序列比对 265 14.1.1 数据准备 265 14.1.2 比对数据库 265 14.1.3 TopHat软件下载及安装 266 14.1.4 Bowtie软件和SAMtools 软件下载及安装 266 14.1.5 常用TopHat参数介绍 266 14.1.6 基因组数据库序列索引 267 14.1.7 TopHat使用实例 267 14.1.8 输出文件说明 267 14.2 转录本组的组装 268 14.2.1 cufflinks的安装 268 14.2.2 cufflinks的参数 269 14.2.3 cufflinks的输出结果 269 14.3 合并转录组 269 14.3.1 用cuffmerge合并转录本 的命令 270 14.4 基因表达差异分析 270 14.4.1 用cuffquant计算表达谱 270 14.4.2 用cuffdiff计算不同样本 表达谱的差异 271 14.5 差异表达结果的热图表示 272 习题 273 参考文献 273 第15章 基因预测 275 15.1 GeneMark软件序列 275 15.1.1 GeneMarkS的安装 275 15.1.2 相关参数介绍 276 15.1.3 GeneMarkS命令运行 279 15.1.4 GeneMarkS运行结果解释 280 15.2 Glimmer软件 280 15.2.1 Glimmer软件安装 280 15.2.2 相关命令参数介绍 281 15.2.3 程序运行 284 15.2.4 结果解读 286 15.3 AUGUSTUS 286 15.3.1 AUGUSTUS软件安装 286 15.3.2 相关参数介绍 286 15.3.3 训练AUGUSTUS 287 15.4 PASA 291 15.4.1 PASA软件安装 291 15.4.2 相关命令参数介绍 293 15.4.3 命令运行 294 15.4.4 运行结果解读 296 15.5 EVM(EVidenceModeler) 296 15.5.1 EVM软件下载安装 296 15.5.2 相关参数介绍 297 15.5.3 EVM软件的运行 298 习题 300 参考文献 300 第16章 基因注释及功能分析 302 16.1 BLAST软件介绍 302 16.1.1 BLAST软件安装 302 16.1.2 相关命令参数介绍 303 16.2 NR注释 308 16.2.1 NR数据库制备过程 308 16.2.2 NR注释过程 309 16.3 COG注释 310 16.3.1 COG数据库准备过程 310 16.3.2 COG命令注释过程 311 16.4 Swiss-Prot注释 311 16.4.1 数据库准备 312 16.4.2 Swiss-Prot注释过程 312 16.4.3 InterPro注释 312 16.5 KEGG注释 314 16.6 GO注释 317 习题 320 参考文献 321 附录A 生物信息学文件格式 322
冯世鹏,中科院广州生物医药与健康研究院生物化学与分子生物学专业博士毕业,海南大学农学院讲师,担任海南大学本科及研究生的《生物信息学》、《分子生物学》等课程教学任务,承担过多项重点科研或教研项目。