生物信息学基本方法

更新时间：2024-05-30 15:58:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

生物信息学作业

学院：生命科学与工程学院姓名：石文贵学号：122071010002 一、The following sequence is from a sequencing reaction. Please check it up and indicate any genes and functional sites in it. 1.原基因序列

1 10 20 30 40 50 60

AATTAAAAGG AATCACTAAC TTTTATTGGT TATGTCAAAC TCAAAATAAA ATTTCTCAAC TTGTTTACGT GCCTATATAT ACCATGCTTG TTATATGCTC AAAGCACCA ACAAAATTTA AAAACACTTT GAACATTTGC ACCATGGTAG ATCTGAGGGT AAATTTCTAG TTTTTCTCCT TCATTTTCTT GGTTAGGACC CTTTTCTCTT TTTATTTTTT TGAGCTTTGA TCTTTCTTT AAACTGATC TGATAATCTG GACGACTCG

TATTTTTTAA ATTACTTTAT TCCGTCCTG

TTGATTGGT TTCGTGTGT TAGAAACCC

TATGGTGTA CTATGATGAT CAACCCGTG

AATATTACAT GATGATAGT AAATCAAAA

AGCTTTAAC TACAGAACC AACTCGACG

GCCTGTGGG CATTCAGTCT GGATCGCGA AAACTGTGG AATTGATCAG CGTTGGTGG GAAAGCGCG TTACAAGAAA GCCGGGCAA TTGCTGTGC CAGGCAGTT TTAACGATCA GTTCGCCGAT GCAGATATTC GTAATTATGC GGGCAACGT CTGGTATCAG CGCGAAGTC TTTATACCGA AAGGTTGGG CAGGCCAGC GTATCGTGCT GCGTTTCGA TGCGGTCAC TCATTACGGC AAAGTGTGG GTCAATAATC AGGAAGTGA TGGAGCATC AGGGCGGCT ATACGCCATT TGAAGCCGA TGTCACGCC GTATGTTATT GCCGGGAAA AGTGTACGTA TCACCGTTTG TGTGAACAAC GAACTGAACT GGCAGACTAT CCCGCCGGG AATGGTGATT ACCGACGAA AACGGCAAG AAAAAGCAG TCTTACTTCC ATGATTTCTT TAACTATGCC GGAATCCATC GCAGCGTAAT GCTCTACACC ACGCCGAAC ACCTGGGTG GACGATATCA CCGTGGTGA CGCATG

2.利用nucleotide blast查找出的匹配基因 (1)第一个匹配的基因

碱基序列起始：140-933 基因名称：Binary vector pVCPGUS(I)23010 覆盖率：85% 匹配度：100%

基因号：JQ436738.1

内容：Binary vector pVCPGUS(I)23010是一种二元载体，全长14317个碱基，该序列为其1722-2515间的序列，其中29-113为终止子terminator，135-405为poly signal，412-2307和2498-2512为编码蛋白的CDS序列，表达的蛋白为Gusβ-葡糖糖苷酶,2308-2497为内含子。2536-2572为5’URT。

(2)第二个匹配基因

碱基序列起始：140-933 基因名称：Expression vector pYPX24 覆盖率：85% 匹配度：100% 基因号：gb|AY178049.1|

内容：Expression vector pYPX24该表达载体全长16368个碱基，该序列为其13906-14699间的序列。其中4955-5749,9437-11248为编码序列，分别编码氨基糖

苷磷酸转移酶和Gusβ-葡糖糖苷酶，6377-7352，14114-15961

为misc feature。

(3)第三个匹配基因

碱基序列起始：360-933 基因名称：Cloning vector pLMB51 覆盖率：61% 匹配度：100% 基因号：gb|JQ895026.1|

内容：克隆载体PLMB51全长13892个碱基，该序列为其11615-12188间的序列。其中10380-12191间的碱基为编码蛋白的CDS，编码GusAβ葡糖糖苷酶。

3.总结

上述基因片段经行nucleotide blast比对，共发现100个与其匹配度为100%的基因，其中25个基因覆盖该序列85%，从140-933碱基之间，剩余85个基因覆盖该序列61%，从360-933碱基之间，这100个基因都为载体基因，并且包含该片段的基因为编码GusA β-葡糖糖苷酶的基因。

综上所述，可以判断该DNA序列为载体中的一段，用以编码GusAβ葡糖糖苷酶。GusA 编码β-葡糖糖苷酶主要用于纤维素的水解，但是，由于其在植物体和根瘤中没有背景活性，已成为根瘤菌生态学研究中的常用标记基因之一。

二、利用相关数据库找出ABI5基因的序列，设计合适的PCR引物进行扩增，并利用基因工程技术进行该基因表达产物的检测。

1.利用GenBank数据库进行ABI5检索，结果如下：

ABI5为bZIP转录因子基因，bZIP转录因子是普遍存在于动植物及微生物中的一类转录因子，主要特点如下：

（1）含有与特异DNA序列相结合的碱性结构域，参与寡聚化作用的亮氨酸拉链区与碱性区紧密相连。

（2）转录因子的 N-末端含有酸性激活区。

（3）以二聚体的形式结合DNA，肽链 N-末端的碱性区与DNA直接结合。（4）bZIP 类转录因子识别核心序列为ACGT的顺式作用元件如CACGTG(G 盒)，GACGTC(C 盒)，TACGTA(A 盒)等，一些受光或脱落酸(ABA)诱导的基因的启动子区都含有这些元件。其中G盒元件普遍存在于受 ABA、生长素、茉莉酸、水杨酸诱导的基因中。它还是光诱导基因中最常见的顺式作用元件之一，bZIP类转录因子都能与G盒元件特异结合，激活光诱导基因的转录。

2.大麦亚种的bZIP转录因子基因序列

1 atggacttca ggagcagcaa cggcgggtcg tcctcggagc gcaggccggc tgcggagggg 61 gcgtcgctga cgaggcaggg gtccatctat tccctgacgt tcgaggagtt ccagagcacg 121 ctcggcggga gcgccggcgt cggaggcggc gacctcggca aggatttcag ctccatgaac 181 atggacgagc tgctccggag catctggacc gccgaggaga gccaggccat ggctgcctcg 241 gcctcgggcg ccggcgccgg cgcgccgccg atgtcgctgc agggccaggg ctccctcacg 301 ctgccccgca ccctcagcgc caagacggtc gacgaggtgt ggcgcaacct cgtgcgcgac 361 gacccgcttc cggtgggggc ggagggtgcc gagccgcagc cccatcggca ggccacgctc 421 ggggagatga ccctcgagga gttcctggtc aaagccggcg tggtgcgaga gatccccacc 481 gctcctgcgg tgccgccccc gcccatgcag ccgcggccgg tccctgttgc ccctaaaggc 541 gctaccttct acgggaattt cccgagcgcc aacgacgtcg gtacggcggc gctggggttc 601 ccgccggtcg ccatggggga tctggccttg ggcaatgggc tcatgccgag ggcactcggt 661 atgggcggcg cccccctggt tgtgcaaact gcggtcaagc cggttgattc cggcagcaag 721 gggagcgagg atctctcatc gccgtccgaa ccaatgccgt actcgttcga ggggattgtg

781 agggggagga ggaccggcgg cggcgtggag aaggtggtgg agaggaggca gaggaggatg 841 atcaagaaca gggagtccgc cgccaggtcc cgcgcccgca agcaggtatt tttagcattt 901 tctacatgaa tctgtgcatt cttacttgct cctgaagcca tgttgagctg gaaatatgat 961 catatatgga aataccattg cagatgactc agtctgaaag ctgagtcgct cctccccgtg 1021 tttttgtaag caaacatctg ctggaatttc ctgttttggt aacaatttcc ttatctgcac

1081 aggcttatac cttatacaat ggagttggag gctgaggttc agaagctcaa ggatctgaac 1141 gaggaactgg tgaagaaaca ggtaactttt ctgcaaacca ctgacatgct aaatgtgcag

1201 cttcagtgca ttttgtgtag aggatttata gcatatacac actctgaagt ggatagtttc 1261 acccggtaga ccccactgtt agctattttt gcttgttttg tccatgagtg ttcgtggtga 1321 ttggtgaagc attcaccgtg gcctgtttcc ttttatcttg gtacaacccc tttgtcagaa 1381 acattccatt ctttggacct aagtgtggaa tgttcagtct ctttttcatt aacctttgat 1441 attttagatt tcacaataat ctgttgtcgc agtaatttcc ataatcaatt ttccagggtg 1501 atggttgtag tctcatattt ggaagcgttg catctaattt cacccaaata tgttttcggt 1561 tatatggtca tccaatgtag catctgttcg tgcataacgg ggcactcttt cacacgcatg 1621 tcacaatagg atatcatgct cacaattcat gttgttgtaa cttgtactga tcttattctc 1681 ctagattata tcagatattg ttgatgacta cgaaaatctc agtaaatagg acaataatgc 1741 catacttaaa acaagaacaa tagctcttgt atagcgaaca cagtactaat cctttctttt 1801 catcgtcatg cagaccgaga tactgaaaat gcagaaaaga gaggtaattg attgtctcta 1861 gttgatccca aaccttcctc tttctatgta tggatcaaca atttagccgg ttgtttggta 1921 cattccattt tcttatggat gggcgtcact aagcatgcgt tttccgtttt cttgtggatg 1981 gctgagtgag acgccgcagt actaagcatt attttttcat ttttcctatg gatgctgagt 2041 tagacgccgc actactaagc atgcttttat aacatcagta gctgcatatc ccatttcttt 2101 taggtgaaac caaaaaatcc tcaactctaa actgtacttt ctatgtcaat gttagtttag 2161 gactaagttg atctttagaa tgttattcta caaatttata gattagaatt aataaattca 2221 gagttagaac aagagacatt atttttctaa gatttaactg aattctcgaa attattaagt 2281 ttttttgacc tgacacatgc gtggtgttga agtcggtggg gtgctgacag gggccttcag 2341 catgtttaca aattcttaaa tcgagtaaat tgcagaataa tgcacatatg ttttaataaa 2401 ttagaaagat aaaattaaac gaggtattcc ttttcagaga ttcagtgtca catctagggt 2461 ataaaaggtc gaatctacta atagtattta gatatttaat taagtatcaa gtttcatttt 2521 aaacaaacta tcacataaag aacgaaatgt gtgaaattaa agcttgtacc aaaaattata 2581 atttggagtc tcaaacttcg atcaattatt tctggaatga aaaggtatat tatttaaatt 2641 gttcatatgt tattctgaag tgcattgtct atctacattt gaaatttaag caaagtttgc 2701 aaactctgct caaatgaaaa tgaattagtt aacgacatat ggatcttttc tcacaagaag 2761 aaccctgttc tgttggtcgg tatgatttta gaagtagccc cacacagaat ctgaaaattt 2821 gagatgctag aaatccaaaa tctctttact gacgggaaat tgatttgact tccagcaggc 2881 ccctgaaatg aaggaccagt ttggacggaa gaagaggcag tgcttacgaa gaacgctgac 2941 cgggccctgg tga

3.利用PrimerPremier软件进行引物设计（1）输入上述基因序列

（2）点击，进入引物搜索界面

（3）点击

，设置相关参数

（4）检索结果如下

（5）相关参数

（6）引物序列

TACCTGAAGTCCTCGTCGTTGCCGC TCACCAGGGCCCGGTCAGCGTTCTT 3.进行PCR扩增

Tm为74.1℃。具体的温度需设置74℃上下的温度梯度进行筛选，利用凝胶电泳进行PCR产物的鉴定。

4.选择合适的质粒，将PCR产物与质粒进行酶切 5.将连接好的质粒，导入大肠杆菌中进行克隆并且表达 6.产物的鉴定（1）Western blotting

将上述克隆的大肠杆菌提取总蛋白，利用bZIP转录因子抗体进行western blotting检测，从而判断该序列是否为bZIP转录因子的基因序列ABI5. （2）免疫组化

利用bZIP转录因子抗体和带荧光的二抗对上述改造的大肠杆菌进行免疫染色，从而判断bZIP转录因子是否表达