3.BLAST及序列的提交

更新时间:2023-05-23 05:19:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

BLAST的基本算法原理

BLASTBLAST 是由美国国立生物技术信息 中心(NCBI)开发的一个基于序列 相似性的数据库搜索程序。 BLAST是“局部相似性基本查询工 具”(Basic Local Alignment Search Tool)的 缩写。

BLAST基本原理—Step 1

1) 滤去低复杂度区域(Low Complexity Region,LCR)

(Low Complexity Region, LCR) 一般指重复的能缩小不同序列间 差异的序列片段。主要包括一些基因序列的固定结构, 如: Poly A 尾; Alu序列; 有多个重复序列的短序列片段; 某个字母的大量重复。

BLAST基本原理—Step 22)将检索序列分解为种子序列 BLAST将待搜索的序列根据规定字长按 照顺序分成一系列的序列单词(word)。 例:待搜索序列“acgttcgt” 字长设定为 3: Acg cgt gtt ttc tcg cgt (六个word)

BLAST基本原理—Step 2

1)找到待搜索序列单词的字母匹配组合,以计 分规则打分,选择阈值,淘汰低于阈值的字符串 举例:Word “gtt” 以gtt 作为检索字符串,在数据库中搜索。 那么数据库中的待搜 索的word 有多少个? 组合单词有3个字母,每个位置有4个碱基,则43 =64 计分规则:匹配=1分 错配= 3 分 :

“gtt”aaa=-9 aat=-5 aac=-9 aag=-9 ata=-5 att=-1 atc=-5 atg=-5 aca=-9 act=-5 acc=-9 acg=-9 aga=-9 agt=-5 agc=-9 agg=-9 taa=-9 tac=-9 tag=-9 tat=-5 tta=-5 ttt=-1 ttc=-5 ttg=-5 tca=-9 tct=-5 tcc=-9 tcg=-9 tga=-9 tgt=-5 tgc=-9 tgg=-9 caa=-9 cat=-5 cac=-9 cag=-9 cta=-5 ctt=-1 ctc=-5 ctg=-5 cca=-9 cct=-5 ccc=-9 ccg=-9 cga=-9 cgt=-5 cgc=-9 cgg=-9 gaa=-5 gat=-1 gac=-5 gag=-5 gta=-1 gtt=3 gtc=-1 gtg=-1 gca=-5 gct=-1 gcc=-5 gcg=-5 gga=-5 ggt=-1 ggc=-5 ggg=-5

设定阈值

设定阈值为-2,对所有的Word进行筛选caa=-9 cat=-5 cac=-9 cag=-9 cta=-5 ctt=-1 ctc=-5 ctg=-5 cca=-9 cct=-5 ccc=-9 ccg=-9 cga=-9 cgt=-5 cgc=-9 cgg=-9 gaa=-5 gat=-1 gac=-5 gag=-5 gta=-1 gtt=3 gtc=-1 gtg=-1 gca=-5 gct=-1 gcc=-5 gcg=-5 gga=-5 ggt=-1 ggc=-5 ggg=-5

aaa=-9 aat=-5 aac=-9 aag=-9 ata=-5 att=-1 atc=-5 atg=-5 aca=-9 act=-5 acc=-9 acg=-9 aga=-9 agt=-5 agc=-9 agg=-9 taa=-9 tac=-9 tag=-9 tat=-5 tta=-5 ttt=-1 ttc=-5 ttg=-5 tca=-9 tct=-5 tcc=-9 tcg=-9 tga=-9 tgt=-5 tgc=-9 tgg=-9

BLAST基本原理—Step 3

以筛选出的每个序列组合(word)对数据库 中的每个序列进行扫描,以期找到种子序 列匹配的部分。 例: 以att 为种子序列,在数据库中搜索。 找到若干条包含种子序列的目标序列。 如:序列A : tc att cga 序列B: tg att caa 序列C: ac att cct

BLAST基本原理—Step 4

获得HSP片段

将待检索序列,与目标序列进行匹配。种子向左向右延伸 至计分不再增加,于是就获得了一个HSP片段。 例: 待搜索序列: ac gtt cgt 序列A : tc att cga 两序列序列进行匹配: 待搜索序列: ac gtt cgt 序列A : tc att cga HSP片段1: cattcg

BLAST基本原理—Step 4待搜索序列: ac gtt cgt 序

列B : tg att caa 两序列序列进行匹配: 待搜索序列: ac gtt cgt 序列B : tg att caa HSP片段2: attc 待搜索序列: ac gtt cgt 序列C : ac att cct 两序列序列进行匹配: 待搜索序列: ac gtt cgt 序列C: ac att cct HSP片段3: acattc

HSP片段1: cattcg HSP片段2: attc HSP片段3: acattc

BLAST基本原理—Step 5筛选HSP片段 设定一个阈值删去某些低分的结果。

例:设定阈值为+1,匹配 +1 错配 -3 目标序列 : ac gtt cgtHSP片段1: c att cg (1-3+1+1+1+1=2)

HSP片段2:

att c

(-3+1+1+1=0)(1+1-3+1+1+1=2)

HSP片段3: ac att c

则删除HSP2,保留HSP1和HSP3

BLAST基本原理—Step 6

统计各HSP片段的分值(Score)和E值分值(Score): 是衡量查询序列同命中序列间 相似性的测度。分值越高,命中序列与查 询序列越相似。

E值: 又称期望值。是随机产生一个比所得 分值高的对位排列的概率,即分值可靠性 的测度。 E值越小, 所命中序列越可靠。

E值计算公式E = K · · · -λS m n e

K, 一个与目标序列相关的经验常数 λ ,与计分(分值)系统相关的经验常数 m,查询序列大小 n,所查询数据库大小 S,分值

主要的BLAST程序

基因组BLAST 基本BLAST 特殊类型数据库的搜索

基本BLAST程序程序名 Blastn Blastp Blastx 查询序列 核酸 蛋白质 核酸 数据库 核酸 蛋白质 蛋白质 搜索方法 用核酸序列搜索核酸数据库 用蛋白质序列搜索蛋白质数据库 用核酸序列搜索蛋白质数据库 (核酸序列6框翻译成蛋白质序列后和蛋 白质数据库中的序列逐一搜索。

Tblastn

蛋白质

核酸

用蛋白质序列搜索核酸序列据库 (先将核酸数据库中的序列按照6框翻译 为蛋白序列然后逐一比对)将查询序列和数据库中的序列都按照6个 可读框翻译为蛋白序列后再比对

TBlastx

核酸

核酸

如何获得BLAST服务NCBI主站点:http://www.ncbi.nlm.nih.gov/BLAST/(网 络版) ftp://ftp.ncbi.nlm.nih.gov/blast/ (单机版)

为何使用BLAST?BLAST结果会列出跟查询序列相似性比较高 符合限定要求的序列结果,根据这些结果可 以获取以下一些信息:1.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因 4.未知新序列的鉴定

BLAST实例

GGAACACTCATCGACGCCGTGAACAAGCGGGGCAAAAAACAAAA CAAAAGAGGAGGGAATGAAAGCTCGATCATGTGGCTTGCCAGCT TGGCAATTATAACAGCCTGTGCCGGAGCCATGAAGCTATCAAACT TTCAAGGAAAGCTCCTGATGACCATCAACAACACGGACATTGCG GACGTTATCGTGATCCCCACCTCAAAAGGTGAGAACAGATGTTG GGTCCGAGCAATCGACGTTGGTTACATGTGTGAAGACACCATCA CGTACGAATGTCCGAAGCTTGCCGTGGGCAACGATCCGGAGGAT GTGGACTGCTGGTGCGACAATCAAGAAGTCTACGTGCAGTATGG TCGCTGCACACGGACCAGGCATTCCAAACGAAGCAGAAGATCCG TTTCGGTCCAAACGCATGGGGAAAGCTCACTCGTGAACAAAAAA GAGGCTTGGCTGGATTCAACGAAGGCCACGCGATACCTCATGAA AACGGAGAAT

TGGATCATAAGGAACCCTGGATATGCTTTCCTGG CGGCGGCACTTGGATGGATGCTTGGCAGCAACAGTGGCCAACGT GTGGTGTTCACCATTCTCTTGCTGTTGGTCGCTCCGGCTTACAGC TTTAACTGTCTGGGAATGGGGAATCGGGATTTCAT 这是什么序列?

http://blast.ncbi.nlm.nih.gov/Blast.cgi

本文来源:https://www.bwwdw.com/article/97h4.html

Top