生物信息学复习资料

更新时间：2024-04-14 01:27:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

生物信息学考教资推荐度：
相关推荐

一、名词解释(31个)

1. 生物信息学: 广义：应用信息科学的方法和技术，研究生物体系和生物过程

中信息的存贮、信息的内涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。

2. 二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、

实验数据和理论分析的基础上针对特定的应用目标而建立的。

3. 多序列比对：研究的是多个序列的共性。序列的多重比对可用来搜索基因组

序列的功能区域，也可用于研究一组蛋白质之间的进化关系。

4. 系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树

状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。

5. 直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该

是进化保守的并且在其他物种中具有直系同源性。

指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。（来自百度）

6. 旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会

进化出新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。（来自百度） 7. FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的

核苷酸或氨基酸字符串。

8. 开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止

密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。（来自百度）

9. 结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区

域，折叠得较为紧密，各行其功能，称为结构域。

10. 空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空

位并进行罚分，以控制空位插入的合理性。（来自百度）

11. 表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分

cDNA的3’或5’端序列。（来自文献） 12. Gene Ontology 协会：

13. HMM 隐马尔可夫模型：将核苷酸序列看成一个随机序列，DNA序列的编

码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。 14. 一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单

的归类整理和注释

15. 序列一致性：指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋

白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。

16. 序列相似性：指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所

占的比例。

17. Blastn：是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将

同所查序列作一对一地核酸序列比对。（来自百度）

18. Blastp：是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐

一地同每条所查序列作一对一的序列比对。（来自百度）

19. Blastx：是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列

（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。（来自百度）

20. Tblastn：是蛋白序列到核酸库中的一种查询。与BLASTX相反，它是将库

中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。（来自百度）

21. Tblastx：是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核

酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。（来自百度）

22. KEGG：京都基因与基因组百科全书，是系统分析基因功能、基因组信息的数据库，它整合了基因组学、生物化学以及系统功能组学的信息，有助于研究者把基因及表达信息作为一个整体网络进行研究。

23. ChIP-Seq：就是通过高通量测序对ChIP所得到的序列进行测序，从而进行

蛋白和DNA相互作用相关研究。 24. 分子生物网络：

25. 蛋白质相互作用（PPI）：是指蛋白质分子之间的相关性，并从生物化学、信

号转导和遗传网络的角度研究这种相关性。

26. 高通量测序：一次性对几百万到十亿条DNA分子进行并行测序，又称为下

一代测序技术，其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析，所以又被称为深度测序。

27. 比较蛋白质组学：即对模式生物或重要生命过程的蛋白质组学特征进行比

较。

28. NCBInr：

29. GT-AG结构：

30. Entrez检索系统：面向生物学家的数据库查询系统，其特点之一是使用十分

方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起，通过超文本链接，用户可以从一个数据库直接转入另一个数据库。

31. 系统生物学：是从系统水平来理解生物学系统，利用一系列的原理与方法学

来研究分子行为与系统特性与功能的关系，通过计算生物学来定量阐明和预测生物的功能、表型和行为。二、选择题（30个）

1. 下面哪种数据库源于mRNA信息（A）： A. dbEST、B. PDB、C. OMIM、D. HTGS

2. 如果我们试图做蛋白质亚细胞定位分析，应使用（）。A.NDB数据库、 B.PDB数据库、C.GenBank数据库、D.SWISS-PROT数据库

3. PIR是（）。A.核酸数据库、B.mRNA数据库、C.启动子数据库、D.蛋白质数据库

4. 以下哪一项不属于启动子研究范围？（）A.CpG 岛预测、B.转录起始点预测、C.糖基化修饰、D.甲基化检测

5. HTGS的含义是（C）。A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列

6. STS的含义是（）。A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列

7. HGP是（C）。A.在线人类孟德尔遗传数据、B.国家核酸数据库、C.人类基因组计划、D.水稻基因组计划

8、下列中属于一级蛋白质结构数据库的是：（）A. EMBL、 B. DDBJ、C. PDB、 D.SWISS-PROT 9．BLAST教案所程序中，哪个方法是不存在的？（）A. BLASTP、 B. BLASTN、C. BLASTX、D. BLASTQ

10．人类基因组的结构特点不包括：（）

A. 基因进化、B. 基因数目、C.基因重复序列、D. 基因组复制 11、下列哪个选项不是微阵列实验设计的内容？（）

A. 贝叶斯网络法、B. 对照组的选择、C. 重复样本的使用、D. 随机化原则 12、构建序列进化树的一般步骤不包括. （）

A. 建立DNA文库、B. 建立数据模型、C. 建立取代模型、D. 建立进化树 13、在Genbank数据库中，生物学工作者向其提交数据有两种方式，其中用于提交少量数据的是基于Web方式的（）。 A. BankIt、B. Sequin、C. Version、D. Matrix 14、序列数据库包括核酸序列数据库和蛋白序列数据库。下列哪个不属于蛋白质序列数据库？（） A. PIR 、B. Uniprot、 C. SWISS-PROT、 D. OMIM 15、序列数据库包括核酸序列数据库和蛋白序列数据库。下列哪个不属于核酸列数据库？（） A. Genbank、B. GenPept、C. EMBL、D. DDBJ

16、（）是NCBI提供的集成检索工具，通过一次检索可查询NCBI多个子数据库中的相关信息。 A. Retrieve、B. SRS、C. Entrez、D. PIR 17、Entrez数据库中的剪贴板的容量是（）。A.500条记录、B.1000条记录、C.5000

条记录、D.10000条记录

18、蛋白质信号肽的预测工具有（）。A.nnpredict、B.PredictProtein、C.SingalD、D.SingalP

19、Bioinformatics的含义是（）。A. 生物信息学、B. 基因组学、C. 蛋白质组学、D. 表观遗传学

20、目前应用于基因芯片表达数据统计分析的主要方法是（）。A. 卡方检验、B. 相关分析、C. 聚类分析、D. 正态性分布检验

21、NCBI中人类无冗余基因数据库是（）。A. UniGene、B. UniPro、C. UniRef、D. URF

22、基本局部比对搜素工具是（）。A. Mega、B. ClustalW、C. BLAST、D. GCG 23、根据研究发现，人类基因组中真正编码蛋白质的区域仅占DNA 序列的（）。A.1-2%、B.3-5%、C.5-10%、D.10-20%

24、被誉为“生物信息学之父”的科学家是（）。A. Dulbecco、B. Sanger、C.吴瑞、D. 林华安

25、多序列比对工具是（）。A. BLAST、B. ClustalW、C. Mega、D. GCG 26、生物芯片分析中使用的聚类分析输出图形主要以下列哪种方式表现？（）A. 以彩色小方块阵列表示、B. 以蜂窝形状表示、C. 以黑白圆点表示、D. 以彩色线条表示

27、HTGS的含义是（）。A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列

28、accession number的含义是（）。A.登录号、B.算法、C.比对、D.类推

29、（）是欧洲分子生物学网EMBLnet的主要检索工具，也是一个开放的数据查询系统。 A. Query 、B. SRS、C. PDB、D. PIR 30、数据挖掘的四个步骤不包括下列哪个. （）A. 数据选择、B. 数据转换、C. 数据记录、D. 结果分析三、是非题（16个）

1、生物学就是实验科学，所有的研究结论从实验中来，于实验中得到验证。2、比较是科学研究中最常见的方法，在生物信息学研究中，比对是最常用和最经典的研究手段。

3、两个蛋白质序列相似性超过30%就是同源蛋白。 4、蛋白质序列相似性指一级序列中氨基酸残基相同。

5、蛋白质序列相似性指氨基酸残基具有相似特性. 侧链基团大小电荷性、疏水性等相同。

6、核酸序列相似性指序列中相同碱基所占的比例。

7、对一段未知功能DNA片段进行功能预测需对其进行3位翻译。 8、对一段未知功能DNA片段进行功能预测需对其进行6位翻译。 9、相似性是指一种很直接的数量关系，无需实验验证。 10、相似性是指一种很直接的数量关系，也需实验验证。 11、不同种属间的同源序列称为直向同源序列。 12、不同种属间的同源序列称为共生同源序列。

13、所谓局部比对，即分析两个序列是否有局部序列的相似。 14、所谓整体比对，即找出两个序列全长的最优比对结果。 15、PSI-BLAST是BLAST程序家族中敏感性最高的子程序。 16、PHI-BLAST是BLAST程序家族中敏感性最高的子程序。

四、问答题（15个）

1、生物信息学的发展经历了哪几个阶段

2、序列的相似性与同源性有什么区别与联系？

3、BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？ 4、生物信息学的主要研究领域。

5、初级数据库、二级数据库的概念，说出几个数据并说明包含什么数据。 6、简述高通量测序的应用范围 7、简述系统发生分析步骤

8、说出至少一种蛋白质结构数据库和一种可视化工具。 9、 Entrez集成于哪个数据库平台？主要功能是什么？在应用中可以访问哪些子数据库（请列举5个以上）？

10、试述SWISS-PROT中的数据来源

11、分子生物网络可以分成哪几类？简单介绍。 12、常用的蛋白质互作数据库有哪些？ 13、试述蛋白质三维结构预测的三类方法 14、国际上权威的核酸序列数据库有那些？ 15、生物分子数据类型有哪些？五、论述题（4个）

1、假设你克隆得到了一段未知的DNA序列，从你学习到的生物信息学分析方

法和软件，设计一个流程来分析该基因的功能和家族分类。

2、BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？ 3、谈谈生物信息学在药物设计中的应用