生物信息学(大三下)唐中伟老师

更新时间:2024-03-03 10:51:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

生物信息学

第一章 序论

1、 生物学数据的特点:海量、复杂(A生物体的结构与功能以及生命活动过程本身的多样性 B生物学研究的社会学原因,生物学的实验数据无标准词法、句法)

2、 生物信息学的概念:专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据,也称分子生物信息学。

3、 生物信息学的发展阶段:A前基因组时代B基因组时代C后基因组时代 4、 生物信息学的研究现状:A人类基因组B模式生物基因组 5、 模式生物包括:鼠、拟南芥、玉米、酵母、大肠杆菌 6、 生物信息学的基本方法:A建立生物数据库 B数据库检测 C测序分析 D统计模型 E算法

7、 生物信息学的前沿技术:A数据管理技术B数据仓库,数据挖掘与数据库的知识发现技术C图像处理与可视化技术

8、 我国生物信息学研究的发展方向:A建立国家生物医学数据与服务系统B人类基因组的信息结构分析C功能基因组相关信息分析D研究遗产密码起源与生物进化(尤其是分子进化)的过程与机制

9、 生物信息学的应用——基因组分析:A将已知基因组的序列与功能联系起来B从基于常规克隆的基因分类转向基于序列及功能分析研究的基因分类C从组织与组织之间的比较来研究功能基因组与蛋白质组D从单个基因致病序列转向多个基因致病机制的研究E以基因组与蛋白质组的结构与功能关系来预测三级结构与功能,并从三级结构与功能反推可能的序列。

第四章 人类基因组计划

1. 人类基因组计划 (human genome project, HGP)是美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。美国人的贡献率最大,承担了54%,其次是英国,承担了33%,日本为7%,法国为2.8%,德国为2.2%,中国科学家承担了1%的测序任务。 (1990-2003)

2. 分子生物信息数据库种类:① 基因组数据库;②核苷酸和蛋白质一级结构序列数据库;③生物大分三维空间结构数据库;④二次数据库。 3. 基因组数据库:GDB和AceDB

4. 序列数据库的组成:序列数据(来源:来自核苷酸和蛋白质序列测定)和注释信息(来源:一部分由计算机程序分析生成;一部分则依靠生物学家通过查阅文献资料而获得)。 5. 国际三大主要核苷酸序列数据库:

EMBL (Eurpo Molecular Biology Laboratory) GenBack

DDB J (DNA Date Base of Japan) 6. GenBack和EMBL的数据库格式:

EMBL ID DE AC SV KW OS OC RN RA RT RL RX RC RP CC DR FH FT SQ 空格 GenBank LOCUS 含义 序列名称 DEFINITION 序列简单说明 ACCESSION 序列编号 VERSION 序列版本号 KEYWORDS 与序列相关的关键词 SOURCE 序列来源的物种名 ORGANISM 序列来源的物种学名和分类学位置 REFERENCE 相关文献编号,或递交序列的注册信息 AUHORS TITLE JOURNAL MEDLINE REMARK COMMENT FEATURES 相关文献作者,或递交序列的作者 相关文献题目 相关文献刊物杂志名,或递交序列的作者单位 相关文献的Medline引文代码 相关文献注释 相关文献其他注释 关于序列的注释信息 相关数据库交叉引用号 序列特征表起始 序列特征表子项 BASE COUNT 碱基种类统计数 ORIGIN 序列 7. 常用蛋白质序列数据库:(1)PIR(Protein information Resource)美,日,德合作的机构;(2)SWISS-PROT和TrEMBL数据库瑞士日内瓦大学创建,目前由SBI和EBI共同维护。

8. PIR的构成:PIR1 :序列已验证,注释最为详尽;PIR2:包含尚未确定的冗余的序列; PIR3:尚未加以验证,也未加注释;PIR4:包括各种渠道获得的序列,既未验证,也无注释。

9. SWISS-PORT数据库最为常用,它包括:结构域,功能为点,跨膜区域,二硫键位置,翻译后修饰,突变体等。

10. 蛋白质数据库PDB(Protein Data Bank)的测定技术:晶体衍射方法和多维核磁共振溶液

构象测定方法

11. PDB数据库文件存放方式:文本文件方式(每个分自个用一个独立的文件)

12. PDB的内容:(1)基本注释信息:包括原子坐标外、物种来源、化合物名称、结构递

交者以及相关问文献等。(2)结构有关的数据:分辨率、结构因子、温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等。

13. 蛋白质结构分类包括的层次:折叠类型、拓扑结构、家族超家族、结构域、二级结构、

超二级结构。

14. 主要的蛋白质分类数据库:SCOP和CATH。

15. SCOP(Structure dassification of Protein)分为以下七类:α型、β型、α/β型(螺旋和

折叠交替出现)、α+β型(螺旋和折叠连续出现)、外结构域蛋白质、膜蛋白质和细胞表面蛋白质、小蛋白。

16. CATH分为以下四类:α为主类、β为主类、α/β类、低二级结构。 17. 低二级结构:二级结构成分含量很低的蛋白质结构。

18. CATH分类数据:(1)CATH数据库的分类基础是蛋白质结构域。(2)第二个分类依据为由α螺旋和β折叠形成的超二级结构排列方式,而不考虑它们之间的直接关系。(3)第三个层次为拓扑结构即二级结构的形状和二级结构间联系。(4)第四个层次为同源性,它是先通过序列比较然后再用结构比较起来确定。

19. 二次数据库:以基因组序列和结构数据库为基础,结合文献研究而开发的具有特色,便于使用的数据库。

20. 二次数据库有两个:E.coli基因组数据库和真核生物基因调控转录因子数据库。 21. Prosite数据库实际包括两个数据库文件:数据库文件Prosite和说明文件PrositeDoc. 22. PA行给出功能位点的序列模式实例:

[GSK]-F-X(2)-[LIVNF]-X(4)-[RKFQA]-X(2)-[RST]-X-[GA]-X-[KN]-P-X-T 可能模式:GFXXLXXXXRXXRXGXKPXT

23. 蛋白质结构的二次数据库包括两种(1):蛋白质家族数据库(Families of Structurally Similar Proteins ,FSSP):蛋白质家族数据库中的蛋白质通过序列结构比对进行分类。 (2)蛋白质二级结构构象参数数据库(Pefinition of Secendary Structure of Proteins , DSSP):DSSP数据库根据PDB的原子坐标计算每个氨基酸的二级结构构想参数,包括氢键,主键和侧链二面角,二级结构类型等。 第五章 数据查询和数据库搜索

1数据库查询(database query):指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配。

数据库搜索(database search):是指通过特定相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。

它们的区别:在生物信息学中,数据库搜索专门针对核酸和蛋白质序列数据库而言,其搜索对象不是数据库的注释信息,而是序列信息。 2.Entres

数据库查询系统Entres是美国国家生物技术信息中心NCBI的

Entres的使用方法:(1)进入主页http://www.ncbi.nlm.nih.gov/(2)检索栏填入查询内容,点击Go按钮,即可得到各种相关种数据信息(3)点击nuleotide得到序列list,选择编号查看(4)点击protein得到序列list,选择编号查看 3 Entres的功能

Limits(限定范围)限定输入的关键词在某个查询范围内,如编号、代码、提交日期等 Preview/Index(预览查询结果)输入关键词后,只列出查询到的数据条目数,提高查询速度,初步了解查询结果,缩小查询范围

Histry(查看查询记录)查看查询过程的记录

Clipboard(操作剪贴板)选择所需查询结果清单list,选择to clipboard,点击send to 按钮 Detail显示你的搜索策略 4.几个缩写

STS:测序标签位点 GSS:基因组综述序列 EST:表达序列标签 5.Entres系统的特点:(1)使用十分方便:通过超文本链接把不同类型的数据库有机结合,实现不同类型的数据库直接转入(2)把数据库和应用程序结合在一起 6.SRS

是sequence retrieval system的缩写,由欧洲分子生物学实验室开发 SRS主页start进入系统三种查询:快速方式、标准方式、扩展方式

扩展查询的功能:

Library page:数据库选择 Query form:查询方式 Tools:提供可用的分析工具 Results:查询结果管理 Projects:存储查询过程 View:显示管理

7.SRS系统的特点:(1)统一的用户界面(2)高速的查询功能(3)灵活的指针链接(4)方便的程序接口(5)开放的管理模式(6)统一的开发平台

8.检测序列:新测定的,希望通过数据库搜索确定其性质或功能的序列 目标序列:通过数据库搜索得到的和检测序列具有一定相似性的序列

9.同源性的意义具有共同祖先。两个物种中有两个性状满足下列任一条件,就可称为同源性状:(1)它们与这些物种的祖先类群中所发现的某个性状相同(2)它们是具有祖先一后裔的不同性状

10.同源序列和相似性

同源序列:是指某一共同祖先经趋异进化而形成的不同序列

相似性:序列比对过程中用来描述检测序列和目标序列之间相同DNA或蛋白质残基序列所占比例的高低

相似性大于百分之五十,可能推测是同源序列

相似性小于百分之二十,难以确定或者根本无法确定其是否具有同源性 10.局部相似性和整体相似性

序列比对的数学模型分为两类:第一类,整体比对(从全长序列出发,考虑序列的整体相似性)第二类:局部比对(考虑序列部分区域的相似性)

11.如何选择比对模型:(1)整体相似性比对:对于高度相似序列,具有显著优势,有利于后续的蛋白质预测工作(2)局部相似性比对:对于具有相当大的保守性蛋白质功能位点比整体比对具有更高的灵敏高,其结果更具有生物学意义

12.序列比对的用途:(1)用于系统发育分析:反应进化关系(2)结构预测:推测结构相似性(3)序列基鉴定:鉴定中潜在的序列和基序(4)功能预测:同源序列功能相似性 13.Blast是basic local alignment search tool 的缩写,意为基本局部相似性比对搜索工具 14. Blast算法的基本思路:首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似性序列片段

15.Blast检测序列和数据库类型:Blast p检测序列为蛋白质,数据库类型为蛋白质; Blast n检测序列为核酸,数据库类型为核酸;Blast x检测序列是核酸,数据库类型是蛋白质;T Blastn检测序列是蛋白质,数据库类型是核酸;T Blastx检测序列是核酸,数据库类型是核酸

16. Blast程序的选择:自己画

第六章 序列的同源性比较及分子的系统和分子进化分析

1.分子进化研究:具有天然数量特征的氨基酸序列和核甘酸序列,加序列分析程序。 2.相似序列的获得(BLAST程序的选择):

(1)BLASTp,通过比较查询蛋白质序列与蛋白质数据库中的已知序列,寻找同源蛋白质序列并推导其功能。蛋白质序列→BLASTp→比较查询序列与蛋白质数据库中已知序列→推导可能的蛋白质功能;

(2)tBLASTn,通过六框翻译,比较查询蛋白质序列与DNA数据库中序列(翻译成蛋白质序列),寻找同源核苷酸序列。蛋白质序列→tBLASTn→比较DNA序列→推导可能的蛋白质数据库中的六框翻译核苷酸序列→输出文件分析;

(3)BLASTn,比较查询序列与DNA数据库中的已知序列,寻找同源核苷酸序列。核酸序列→BLASTn→比较查询序列与DNA数据库中的已知序列→输出文件分析;

(4)BLASTx,通过六框翻译,比较查询核苷酸序列(翻译成蛋白质序列)与蛋白质数据库中的已知序列,寻找同源蛋白质序列。新序列的DNA→BLASTx→发现潜在的编码区(外显子)→发现潜在的编码区翻译成氨基酸序列→比较六框翻译的氨基酸序列与蛋白质数据库中的已知序列→输出文件分析

(5)tBLASTx与BLASTx的区别是:同时翻译查询核苷酸序列和DNA数据库中的已知核苷酸序列。新序列的DNA→BLASTx→发现潜在的编码区(外显子)→发现潜在的编码区翻译成氨基酸序列→比较六框翻译的氨基酸序列与六框翻译的DNA数据库中的已知序列→输出文件分析。

3.六框翻译:例如序列TCAATCGATCGATCG的翻译,从左到右翻译,(1)TCA ATC GAT CGA TCG(2)CAA TCG ATC GAT CG(3)AAT CGA TCG ATC G;从右到左翻译(4)GCT AGC TAG CTA ACT(5)CTA GCT AGC TAA CT(6)TAG CTA GCT AAC T.

4.常用BLAST服务网站:NCBI,DDBI(日本),TAIR(拟南芥)。

5.多序列比对的意义:(1)蛋白质序列,更能从比对中发现保守区域,可以更好地推测未知蛋白质的功能(2)从一个家族中多个相关蛋白的对比中可以发现隐含其中的系统发育的关系,从而更好地理解蛋白质的进化(3)对未知蛋白质的结构进行预测,推测哪些区域构成了蛋白质的活性位点,哪些区域维持了蛋白质的空间构象(4)如果由与这些蛋白质相关的DNA序列,DNA能提供更多的有关进化历程的信息。 6.比对序列:CLUSTAL W,BIOEDIT,MULALIN等。

7.PFLP标记:限制性片段长度多态性,是指用限制性内切核酸酶酶切不同个体基因组DNA后,含同源序列的酶切片段在长度上的差异。

8.系统学中用来作探针的序列主要有三种:线粒体DNA,叶绿体DNA,rDNA(核糖体DNA),另外还有单拷贝DNA。

9.PCR扩增片段的多样性。优点:快捷、经济、所需DNA量少,对DNA制备的浓度要求不高,而且程序非常简单。技术有:RAPD(随机扩增多态性DNA,引物由任意十个碱基组成),AP-PCR(任意引物PCR,引物长20-30bp),DAF(DNA扩增指纹图谱,引物7-8个碱基),AFLP(扩增片段长度多态性)。

10.SNP(指单核苷酸多态性),能够代表一个群体基因组里的中性遗传变化。研究内容:(1)制作足够密集的SNP图谱,最终覆盖整个基因组。SNP的物理定位方法类似于微卫星标记定位(2)针对某些特殊的疾病,获得健康人群与感病人群的SNP的各种差别,找出基因组中的哪些部分与疾病相关③在前面工作的基础上将对SNP进行更精密的研究。 第二个第六章 生物信息学和基因芯片

1、 基因芯片的种类:A长探针芯片(大于100nm)B短探针芯片(20nm左右) 2、 基因芯片的基本原理:核算分子的互补配对

3、 基因芯片的相关技术:A基因芯片的设计B基因芯片的制备C靶基因的制备杂交与检测D检测结果的分析

4、 基因芯片的制备方法:A在片合成法B点样法

5、 生物信息学的在基因芯片中的应用:A确定基因芯片检测目标B芯片设计C实验数据的管理与分析

6、 基因芯片设计的一般原则:A互补性B敏感性和特异性C容错性D可靠性E可控性F可读性

第七章 蛋白质结构预测的原理和方法

1、蛋白质结构预测:指从蛋白质的氨基酸序列预测出其三维结构

2、蛋白质结构预测的意义:进行蛋白质结构预测对于理解蛋白质的结构与功能的关系,并在此基础上进行蛋白质复性、突变体设计以及基于结构药物设计具有重要意义。

3、影响蛋白质折叠的因素:A范德华力B偶极相互作用C静电相互作用D氢键E熵效应

本文来源:https://www.bwwdw.com/article/rqva.html

Top