高通量测序入门

更新时间：2024-07-08 00:56:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

高通量测序入门第一帖http://bbs.bioon.net/bbs/thread-368220-1-1.html 很高兴成为论坛特邀专家，鄙人会接下来的一段时间内写一些高通量测序数据方面的帖子，由浅入深，可能刚开始会比较简单一些，后面会有一些针对性的专题，也欢迎各位大侠或小菜提出建议或问题大家一起探讨。为了活跃论坛建议大家直接跟帖或发新帖，我会尽快回复大家。

本人方向也仅限在RNA-seq 领域，所以其他领域的问题可能不太了解，只能按照自己的背景知识和请教别人解答，请大家慢拍砖！

另外，由于实验室课题比较忙，所以可能不能及时发帖或回复大家，也请见谅。

既然是入门专题，那就先简单说一下，要分析高通量测序数据的配置要求吧：声明：该配置不适用与从华大拿回分析结果直接写paper 的同学。我认识的一位同学一点生物信息背景也没有，直接用华大返回分析结果发了很好的文章，如果想这样的同学可直接跳过这篇，等待以后的专题。言归正传： 1. 软配置：

生物理论知识：熟悉生命活动的基本过程，对复制、转录、翻译、转录后修饰有较清晰的认识，如果知道cis-element 和 trans-factor 的区别就更好了。推荐朱玉贤的分子生物学，能够掌握60% 就差不多了（这是对想通过测序数据进行生物分析同学的要求，如果是做软件开发等就无所谓了，比如国内做的很好的一些实验室，都是数学或自动化专业的牛人，以下一些配置也不适用这些牛人）

实验理论知识：不一定要做过实验，但至少要知道实验的过程，比如测序前样本的处理过程，序列片段化、加接头、PCR 扩增等。也许没有用，但将来出了问题，你可以很容易知道问题出在哪里

编程知识：要求不用太高，学一些perl 就可以了，对于生物专业的同学（本人就是生物专业），强烈推荐perl 语言入门，好像现在已经出到第五版了。此书极为搞笑，本人当时看了一个星期，其中幽默的语言导致本人经常笑出声音引得实验室同学以为神经了。对于有C 语言基础的同学来说简直就是菜，两天就可以通了。另外，学有余力的同学可以学一些R 以及python 或java. 因为好多软件都是用R 或python 写的，如果要是比较懒或三国杀很忙抽不出空就算了，学学perl 就好了。切记一点：perl 的学习过程中除了基础知识，一定要看一下哈希和模块这两部分。当然如果你们导师允许你对数据去个冗余也要半个月的话，你只学到循环就可以了。

统计学知识：只要大学上过生物统计也就差不多了（遇到二百五的老师你就比较悲剧了），最基本的知道什么是标准化，正态分布，p value 以及卡方检验或Fisher 精确检验，多重检验,， FDR 这些概念和计算方法也就差不多了。推荐从以下统计软件中择一精通之：

SAS(比较变态，硕士期间学了，后来就还给老师了)

excel(入手比较容易，好好学学，功能比较全，我学的差)

matlab(本人认为最牛的统计软件，有专门的论坛，有兴趣的同学可以google 一下) SPSS(上手比较容易，而且很多汉化的非常好，新手同学比较推荐，但是精通比较

难)

R (最好能学这个，我觉着学R 太必要了)

perl (指 CPAN 中的统计模块，不过需要一点技术)

常见数据库：这个根据自己所做的方向，需要具体问题具体分析，常见的NCBI 以及EBI 和UCSC 还是需要了解的。

计算机操作要求：推荐linux 系统，掌握最基本的命令就可以了，还有一些shell 命令，建议买一本linux 入门的书看看；对于习惯windows 的同学，强烈建议学linux，开始的时候也许你觉得好多软件都有windows 版本的，但是早晚你会发现有很多软件没有，所以必须要学

2. 硬件要求：

计算机要求：现在电脑快跟白菜一个价了，所以建议个人电脑配置的好一点（如果有服务器就算了），推荐配置：64位系统（32 系统的话，内存受限，最多识别3G 多），redhat 或ubuntu 都可以，推荐ubuntu，它的apt-get 功能还是比较神器的，4个CPU 差不多，本人极力推荐装8G 内存，如果你不能忍受经常内存溢出的话。当然如果有服务器，这些都不是问题。至于显卡什么的，就算了，如果要是你想魔兽一下的话，可以跟你老板申请一下。对了硬盘大点，因为测序数据一般比较大。

网络要求：这个好像你也管不了，一般实验室都已经固定了带宽。遇有经常在数据库上下一些基因组或其他注释信息，所以还是进你所能的争取一下。

本人文字表达能力比较差，就唠唠叨叨先说这些，下次我会简单介绍一些高通量测序的基本知识和发展过程。对于已经掌握这些入门知识（一般也是生物信息的入门知识）的同学可以飞过，如果你还有哪些不了解，可以简单的复习一下了！！

高通量测序入门第二帖 http://bbs.bioon.net/bbs/thread-370713-1-1.html

很高兴贴完第一帖得到那么多回复，本来这一帖早就该写的，因为最近课题比较紧而且遇到很多问题，所以拖到现在，向大家致歉！

———————————————————扯淡分割线——————————————————————————

正式开始之前，还是扯点八卦。在第一帖之后，有个朋友给我发邮件问我华大的评价。我也觉着华大是一个好有争议的话题。我仔细想了一下那些质疑华大的人无非有两种理由：1. 华大太能忽悠 2. 对于他们取得的成绩，很多人都说如果我有那么多钱我也能做。我跟华大接触不是很多，而且我读博之前也那么觉得，可是我现在觉得我们应该好好的去阅读一下华大。首先，现在的科研有几个不在忽悠（此忽悠不是贬义，试想，我们做的工作在发paper 时总是要写的意义重要一些，去让reviewer 觉得有发表的必要，这是不是忽悠；你去申请基金的时候，总是要把课题意义拔高再拔高，这是不是忽悠），大家都是在忽悠，何必五十步笑百步呢。2. 给

你那么多钱，你也不一定能有他们那么多成果。华大到底拿了多少钱，我不知道，但是我知道拿他们那么多钱，没做出东西的人有的是。我知道某个单位，要测某个微生物的基因组（为了影响就不说是什么物种了，说了物种就很容易知道哪个单位了），当时Roche 454 刚刚出来，该单位将测序意义定义为打破国外高科技技术垄断，人工与高通量测序技术赛跑。人才啊，最后的结果是什么，在徘徊了两年，花费数十万（或上百万后），还是送到了华大，倒是真的没用454，因为已经出了通量更高的Illumina GA，最后文章发表在某杂志上，篇幅不到一页，亮点就是作者奇多，估算一下，每个作者不到十个单词。当然这么极品的人还是比较少，我只是想说给你钱，你真的不知道怎么花。

————————————————扯淡完分割线————————————————————————————

扯淡完，进正题，这一贴，主要简单介绍一些，测序数据分析的基本知识，心急的同学，不要着急，俗话说心急吃不了臭豆腐。

首先，介绍一下测序技术的发展过程和一些标志事件；说道测序，可能最先想到的是Sanger 和 Maxam-Gilbert 这两个人，至于这两个人干了什么，就不用太清楚了，只要知道没有这两个人就不会有测序技术的今天.......就像没有GCD 就没有XZG 一样，自从有了这两个人就迎来了分子生物学的春天，自从有了这两个人分子生物学事业焕然一新.......

事物的发展总是从量变到质变，在这个量变过程中，我们完成伟大的人类基因组计划还有很多的模式生物的基因组，那些鄙视华大的同学这里要记住这个过程中，华大是有贡献的。

质变来临: 忽如一夜春风来，ABI 3730 型测序仪渐行渐远，NGS (Next Generation sequence) 在哪里？马上就有答案。

Roche 454、 Illumina GA、 ABI SOLiD伴着春姑娘的脚步出现了。

这三种测序平台的原理、优缺点、发展历程估计大家已经听的很多了，如果想复习一下的同学可以google一下（俗话说，知之为知之，不知google 知）。找不到？不能吧，两个检索方法：1. google 中输入: \2. 直接pubmed 检索综述，找稍微好点的杂志，好好复习一下就好了。

由于本人用到的数据多是Illumina GA 平台，所以我后面的内容可能更倾向于这个平台。

先说几个概念：

1. fasta 格式：其实我也不知道，为什么叫这个名字，其实也不用知道，你只要这是一种序列存储格式就好了，大概分为两行，第一行以 > 开头，表明注释信息，第二行及往后均为序列信息。

2. fastq 格式：这个同样是序列存储格式，共分四行，前两行与fasta 一致，第三行一般是一个“+”字符，第四行就是序列质量分数，这个分数看起来有点奇怪，实际

在对测序错误率进行log 变换后取整用ASCII 码的表述形式。但是不同的测序仪换算方法稍有不同，这个换算过程，大家有兴趣可以看一下，针对自己用的平台要仔细看一下。

3. 序列比对：alignment, 好像没有什么好解释的，最简单的BLAST、BLAT 到后面的Seqmap/Bowtie/SOAP 等都是干这个用的，虽然我在工作中从来没有用过华大的SOAP, 但是某天无聊我测试了下，其性能绝对算不上差，而且protocol 竟有中文版，所以还值得试试。现在出了N多的软件，反正原理就是两个，要么把基因组做索引，要么把测序的片段做索引.

4. 好像知道这么多久可以进行数据分析了，可是我特别想写第四条，就把Illumina GA 测转录组样本提取流程说一下吧，测基因组的就更简单一些。

第一步：提取总的RNA，具体怎么做大家都比别人清楚，我说了你也不会听我的，不会的话就请你师姐/师兄教教你吧。一般他们都比较热心，爱国爱家爱师妹嘛！第二步：纯化一下，一般真核都用Oligo(dT)纯化，原核好像直接去除rRNA(不知道什么原理，没做过)。

第三步：片段化，有的用酶，有的用超声破碎片段（听讲座的时候，无数次听到有人提问这个问题，无聊死了）

第四步：反转录成cDNA然后PCR 扩增。

第五步：送个公司测序，然后攒人品等数据，好像现在北京有好多公司都能测，听老板说现在非常便宜，没有问过都少钱。

下一帖我会从测序数据回来后的分析开始讲，谢谢大家！

本文来源：https://www.bwwdw.com/article/syh.html

相关文章：