本文描述了分子细胞科学卓越创新中心生物信息平台所开发的bulk RNA-seq分析流程,核心分析软件包括FastQC、STAR、Kallisto和RNASeQC等,用WDL流程语言编写,在HPC环境运行,经过简单修改也能在云平台运行。
针对Bulk RNA-seq,我们开发了快速的分析流程,如下图所示。其中测序质量控制(FastQC)、序列比对(STAR)、转录本定量(Kallisto)互相独立,均只依赖原始文件(FastQ),因而会并行处理。STAR比对产生BAM文件会作为RNASeQC的输入。
本流程主要包括Fastqc、STAR、 Kallisto和RNASeQC四个模块。
FastQC是Babraham Institute开发的二代测序质量控制软件。本流程采用FastQC软件来查看数据的测序质量,在开发者网站上还列出来了不同类型的数据质控的结果供大家参考。
对大多数数据包括RNA-seq而言,最重要的结果是单碱基测序质量(Per base sequence quality),原始数据的质量会对后续的分析结果产生影响,分析前会过滤质量差的碱基。
虽然目前RNA-seq比对软件众多,如比较流行的TopHat2及继任者hisat2,我们选择了STAR,它准确、快速,是众多分析流程的首选,请参考原始文献。STAR也是GATK RNA-seq所选择的工具,用于从RNA-seq数据中分析SNV/Indela.
Kallisto是非常优秀的RNA-seq定量软件,可以用于bulk和single-cell RNA-Seq 高通量数据的定量 。与STAR等依赖基因组序列的比对软件不同,Kallisto直接将测序片段直接比对到cDNA序列,因而也叫假性比对(pseudoalignment)。Kallisto能够在10分钟内完成一套含有30M个读段的双端RNA-seq数据的定量分析,是名副其实的桌面级分析软件。
RNASeQC是由Broad研究所开发的RNA-seq质控软件,能快速输出比较全面的质控信息。
为了运行这个流程,我们需要原始序列文件和基因组及注释文件。
本流程每次处理一个样本,以gzip压缩的FastQ文件作为输入,双端测序为2个文件,单端测序为1个文件。 FASTQ格式文件中每个read由四行描述,如下:
@EAS139:136:FC706VJ:2:21041624:2182 1:Y:18:ATCACG
CTCGTTCAAATGGACATAAAAGTCGATGCTCATCAGCTTTACAAGAATG
+
CADFFFHHHHGJJJJJJJJICHHIJJJJJIIJGHIGIJJJJJIGIJJJJ
其中第一行是以“@”开头的read测序标识符;第二行是碱基序列;第三行是以“+”开头的占位符;第四行是对应序列的测序质量。
输入的信息可以方便的通过JSON文件来配置,一个例子如下:
! cat /sibcb2/bioinformatics/WPS/Run_RNAseq/JSON/1302003-C.json
本流程会在结果目录中生成四个结果文件夹分别为bamCoverage、kallisto、report、STAR。结构如下:
! tree /sibcb2/bioinformatics/WPS/Run_RNAseq/workflow/1302003-C
STAR可以产生丰富的质量控制信息供我们参考:
! cat /sibcb2/bioinformatics/WPS/Run_RNAseq/workflow/1302003-C/STAR/1302003-C_STAR_QC.txt
为了验证kallisto统计的表达量是否正确,我们用featureCounts软件来统计基因的表达量(输入为STAR生成的bam文件),然后统计这两款软件的统计结果的相关性,经过验证两个结果相关性很高,结果见下图,横纵坐标的值为表达值的对数值(以10为底):