用Trimmomatic对转录组测序数据进行过滤
更新时间:2024-02-01 07:40:01 阅读量: 教育文库 文档下载
Trimmomatic使用JAVA运行,支持多线程,数据处理速度非常快,非常适合转录组数据的过滤。由于该软件得到的数据中reads的长度不一,剔除的数据量比较大,不适于基因组的Deno vo数据的过滤。
$ unzip software/Trimmomatic-0.33.zip -d biosoft/ 解压缩安装
$ ls biosoft/Trimmomatic-0.33/adapters/ 查看安装好的文件
可以看到软件的数据库中已经有了接头序列,其中TruSeq3-PE.fa与TruSeq3-SE.fa为illumina hiseq和miseq的接头,如果不是使用hiseq2000的,到illumina官网下载接头序列并放到这个文件夹中。TruSeq2对应着illumina GAII测序
$ cd train/02.sequencing_data_quality_control/ 进入目录
$ mkdir Trimmomatic 新建文件夹
$ cd ~/biosoft/Trimmomatic-0.33/ 进入安装的文件夹
$ java -jar trimmomatic-0.33.jar
调试程序
下面对单端测序转录组数据进行过滤
$ java -jar ~/biosoft/Trimmomatic-0.33/trimmomatic-0.33.jar SE -threads 4 -phred33 ~/train/00.incipient_data/data_for_gene_prediction_and_RNA-seq/000_rep1.fastq 000rep1.fastq
ILLUMINACLIP:/home/tempuser/biosoft/Trimmomatic-0.33/adapters/TruSeq3-SE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
参数:
单端测序数据SE 线程数4 phred33格式 输入 输出
接头序列:允许最大的mismatch数,回文匹配碱基数阈值,简单匹配碱基数阈值 LEADING头部去掉质量低于3的 TRAILING尾部去掉质量低于3的
每4个减基是一个阅读框,假如4个平均质量低于15,就删掉
36是reads最小长度,短于这个就不要
运行好了,会显示过滤了多少
下面对双端测序转录组数据进行过滤
$ java -jar ~/biosoft/Trimmomatic-0.33/trimmomatic-0.33.jar PE -threads 4 -phred33 ~/train/00.incipient_data/data_for_genome_assembling/fragment.1.fastq ~/train/00.incipient_data/data_for_genome_assembling/fragment.2.fastq fragment.1.fastq fragment.1.fastq.unpaired fragment.2.fastq fragment.2.fastq.unpaired ILLUMINACLIP:/home/tempuser/biosoft/Trimmomatic-0.33/adapters/TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
双端是PE,其他参数一样,输入为两个序列,输出还多了一个没配对的数据
运行完成
$ ll -h
查看生成的结果,
使用下面命令可以批量对几十上百个转录组进行过滤,反字符//用于删除,i用于循环,变量使用$,真正斜线用反斜线表示:
$ for i in `ls ~/00.incipient_data/data_for_gene_prediction_and_RNA-seq/*.fastq` > do
> x=${i/*\\//}
> echo java -jar /opt/biosoft/Trimmomatic-0.33/trimmomatic-0.33.jar SE -threads 4 -phred33 $i $x ILLUMINACLIP:/opt/biosoft/Trimmomatic-0.33/adapters/TruSeq3-SE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36 > done > command.trimmomatic.list
$ sh command.trimmomatic.list 批量运行
也可以这样运行
$ chmod 755 command.trimmomatic.list $ ./command.trimmomatic.list
正在阅读:
学生创业现状与对策05-11
中国古代的土地制度 教案03-06
2013高中物理必修一相互作用章末练习05-27
我尝到了成功的甜头作文07-05
2019年度银行综合柜员述职报告09-27
浅谈阴阳五行理论对中医发展的利与弊11-27
陈姓女孩取名大全12-01
园区开发模式以及土地开发融资09-01
2013年财务预算编制说明06-06
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 测序
- 转录
- Trimmomatic
- 过滤
- 进行
- 数据
- CATIA弹簧的创建
- 《形式逻辑学》练习题纯净版
- 专业基础知识 - 食品化学和食品生物化学
- 天邦6MW背压机组运行规程
- 沃尔玛的供应商绩效考核体系
- 东亚模式与中国模式比较
- 医疗质量关键环节、重点部门管理标准与措施
- 县政务服务中心“窗口”工作人员岗前业务培训测试题
- 《管理会计》第三阶段导学重点
- 丙酮碘化反应的速率方程实验报告+(2)
- 2012人教版七年级上册英语单词表
- 年部编版二年级语文上册课外阅读专项复习题及答案
- 二次函数的图像与性质专题练习
- 全员育人导师制制度、考核方案、实施方案
- 年2万吨玉米淀粉工艺方案
- 中国古代水利的发展进程及其特点
- 2017秋季职业素质养成期末考试92
- 2012吉林省数学建模论文 深圳人口预测
- 2010年济南市语文中考试题
- 第三届校百科知识竞赛题库