3.BLAST及序列的提交
更新时间:2023-05-23 05:19:01 阅读量: 实用文档 文档下载
- 3b蓝屏推荐度:
- 相关推荐
BLAST的基本算法原理
BLASTBLAST 是由美国国立生物技术信息 中心(NCBI)开发的一个基于序列 相似性的数据库搜索程序。 BLAST是“局部相似性基本查询工 具”(Basic Local Alignment Search Tool)的 缩写。
BLAST基本原理—Step 1
1) 滤去低复杂度区域(Low Complexity Region,LCR)
(Low Complexity Region, LCR) 一般指重复的能缩小不同序列间 差异的序列片段。主要包括一些基因序列的固定结构, 如: Poly A 尾; Alu序列; 有多个重复序列的短序列片段; 某个字母的大量重复。
BLAST基本原理—Step 22)将检索序列分解为种子序列 BLAST将待搜索的序列根据规定字长按 照顺序分成一系列的序列单词(word)。 例:待搜索序列“acgttcgt” 字长设定为 3: Acg cgt gtt ttc tcg cgt (六个word)
BLAST基本原理—Step 2
1)找到待搜索序列单词的字母匹配组合,以计 分规则打分,选择阈值,淘汰低于阈值的字符串 举例:Word “gtt” 以gtt 作为检索字符串,在数据库中搜索。 那么数据库中的待搜 索的word 有多少个? 组合单词有3个字母,每个位置有4个碱基,则43 =64 计分规则:匹配=1分 错配= 3 分 :
“gtt”aaa=-9 aat=-5 aac=-9 aag=-9 ata=-5 att=-1 atc=-5 atg=-5 aca=-9 act=-5 acc=-9 acg=-9 aga=-9 agt=-5 agc=-9 agg=-9 taa=-9 tac=-9 tag=-9 tat=-5 tta=-5 ttt=-1 ttc=-5 ttg=-5 tca=-9 tct=-5 tcc=-9 tcg=-9 tga=-9 tgt=-5 tgc=-9 tgg=-9 caa=-9 cat=-5 cac=-9 cag=-9 cta=-5 ctt=-1 ctc=-5 ctg=-5 cca=-9 cct=-5 ccc=-9 ccg=-9 cga=-9 cgt=-5 cgc=-9 cgg=-9 gaa=-5 gat=-1 gac=-5 gag=-5 gta=-1 gtt=3 gtc=-1 gtg=-1 gca=-5 gct=-1 gcc=-5 gcg=-5 gga=-5 ggt=-1 ggc=-5 ggg=-5
设定阈值
设定阈值为-2,对所有的Word进行筛选caa=-9 cat=-5 cac=-9 cag=-9 cta=-5 ctt=-1 ctc=-5 ctg=-5 cca=-9 cct=-5 ccc=-9 ccg=-9 cga=-9 cgt=-5 cgc=-9 cgg=-9 gaa=-5 gat=-1 gac=-5 gag=-5 gta=-1 gtt=3 gtc=-1 gtg=-1 gca=-5 gct=-1 gcc=-5 gcg=-5 gga=-5 ggt=-1 ggc=-5 ggg=-5
aaa=-9 aat=-5 aac=-9 aag=-9 ata=-5 att=-1 atc=-5 atg=-5 aca=-9 act=-5 acc=-9 acg=-9 aga=-9 agt=-5 agc=-9 agg=-9 taa=-9 tac=-9 tag=-9 tat=-5 tta=-5 ttt=-1 ttc=-5 ttg=-5 tca=-9 tct=-5 tcc=-9 tcg=-9 tga=-9 tgt=-5 tgc=-9 tgg=-9
BLAST基本原理—Step 3
以筛选出的每个序列组合(word)对数据库 中的每个序列进行扫描,以期找到种子序 列匹配的部分。 例: 以att 为种子序列,在数据库中搜索。 找到若干条包含种子序列的目标序列。 如:序列A : tc att cga 序列B: tg att caa 序列C: ac att cct
BLAST基本原理—Step 4
获得HSP片段
将待检索序列,与目标序列进行匹配。种子向左向右延伸 至计分不再增加,于是就获得了一个HSP片段。 例: 待搜索序列: ac gtt cgt 序列A : tc att cga 两序列序列进行匹配: 待搜索序列: ac gtt cgt 序列A : tc att cga HSP片段1: cattcg
BLAST基本原理—Step 4待搜索序列: ac gtt cgt 序
列B : tg att caa 两序列序列进行匹配: 待搜索序列: ac gtt cgt 序列B : tg att caa HSP片段2: attc 待搜索序列: ac gtt cgt 序列C : ac att cct 两序列序列进行匹配: 待搜索序列: ac gtt cgt 序列C: ac att cct HSP片段3: acattc
HSP片段1: cattcg HSP片段2: attc HSP片段3: acattc
BLAST基本原理—Step 5筛选HSP片段 设定一个阈值删去某些低分的结果。
例:设定阈值为+1,匹配 +1 错配 -3 目标序列 : ac gtt cgtHSP片段1: c att cg (1-3+1+1+1+1=2)
HSP片段2:
att c
(-3+1+1+1=0)(1+1-3+1+1+1=2)
HSP片段3: ac att c
则删除HSP2,保留HSP1和HSP3
BLAST基本原理—Step 6
统计各HSP片段的分值(Score)和E值分值(Score): 是衡量查询序列同命中序列间 相似性的测度。分值越高,命中序列与查 询序列越相似。
E值: 又称期望值。是随机产生一个比所得 分值高的对位排列的概率,即分值可靠性 的测度。 E值越小, 所命中序列越可靠。
E值计算公式E = K · · · -λS m n e
K, 一个与目标序列相关的经验常数 λ ,与计分(分值)系统相关的经验常数 m,查询序列大小 n,所查询数据库大小 S,分值
主要的BLAST程序
基因组BLAST 基本BLAST 特殊类型数据库的搜索
基本BLAST程序程序名 Blastn Blastp Blastx 查询序列 核酸 蛋白质 核酸 数据库 核酸 蛋白质 蛋白质 搜索方法 用核酸序列搜索核酸数据库 用蛋白质序列搜索蛋白质数据库 用核酸序列搜索蛋白质数据库 (核酸序列6框翻译成蛋白质序列后和蛋 白质数据库中的序列逐一搜索。
Tblastn
蛋白质
核酸
用蛋白质序列搜索核酸序列据库 (先将核酸数据库中的序列按照6框翻译 为蛋白序列然后逐一比对)将查询序列和数据库中的序列都按照6个 可读框翻译为蛋白序列后再比对
TBlastx
核酸
核酸
如何获得BLAST服务NCBI主站点:http://www.ncbi.nlm.nih.gov/BLAST/(网 络版) ftp://ftp.ncbi.nlm.nih.gov/blast/ (单机版)
为何使用BLAST?BLAST结果会列出跟查询序列相似性比较高 符合限定要求的序列结果,根据这些结果可 以获取以下一些信息:1.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因 4.未知新序列的鉴定
BLAST实例
GGAACACTCATCGACGCCGTGAACAAGCGGGGCAAAAAACAAAA CAAAAGAGGAGGGAATGAAAGCTCGATCATGTGGCTTGCCAGCT TGGCAATTATAACAGCCTGTGCCGGAGCCATGAAGCTATCAAACT TTCAAGGAAAGCTCCTGATGACCATCAACAACACGGACATTGCG GACGTTATCGTGATCCCCACCTCAAAAGGTGAGAACAGATGTTG GGTCCGAGCAATCGACGTTGGTTACATGTGTGAAGACACCATCA CGTACGAATGTCCGAAGCTTGCCGTGGGCAACGATCCGGAGGAT GTGGACTGCTGGTGCGACAATCAAGAAGTCTACGTGCAGTATGG TCGCTGCACACGGACCAGGCATTCCAAACGAAGCAGAAGATCCG TTTCGGTCCAAACGCATGGGGAAAGCTCACTCGTGAACAAAAAA GAGGCTTGGCTGGATTCAACGAAGGCCACGCGATACCTCATGAA AACGGAGAAT
TGGATCATAAGGAACCCTGGATATGCTTTCCTGG CGGCGGCACTTGGATGGATGCTTGGCAGCAACAGTGGCCAACGT GTGGTGTTCACCATTCTCTTGCTGTTGGTCGCTCCGGCTTACAGC TTTAACTGTCTGGGAATGGGGAATCGGGATTTCAT 这是什么序列?
http://blast.ncbi.nlm.nih.gov/Blast.cgi
正在阅读:
3.BLAST及序列的提交05-23
我发现了城市的美丽作文600字06-29
8090后员工管理-难管究竟谁的问题08-09
师范生的实习报告范文02-22
2017年单位聚餐祝酒词02-12
2014电大《社区治理》期末复习题及答案09-16
小猴子和桃子看图作文06-14
小学关于感恩的作文06-12
专业英语教学大纲03-03
我的童年作文450字07-07
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 序列
- 提交
- BLAST
- 我国电力工业节能现状及展望
- 武汉理工大学2013年复试线
- 2010年6月18日发布的2009版SCI影响因子
- 2014年威海荣成市事业单位考试公告
- 蓝海战略读书笔记
- 港口消防监督实施办法
- 企业名称登记提交材料规范
- 王聪生:推荐阅读《气候变化2007决策者摘要》
- 弃土场防护及安全环保专项施工方案.doc
- spss期末论文11商21
- 2011安徽省驾校考试科目一自动档试题及答案
- 最新整理的CE改法大全
- 日本明治维新定稿一
- 信息技术术语及其翻译研究
- 盾构机推进液压系统比例压力流量复合控制仿真
- 最新人教版四年级上册看拼音写词语全汇总(包含答案)
- 2016九年级物理全册 第20章 电与磁 第4节 电动机课时练习 (新版)新人教版
- 中国旅游业的现状及其发展趋势
- 八年级物理上册 升华和凝华
- 园林景观照明工程的电气设计