RNA-seq数据降维聚类分析¶

本文描述了bulk RNA-seq分析流程中降维聚类子模块，该模块可以得到样本的降维聚类结果，可以用来评估组间差异及组内样本重复情况。该模块用R语言编写。

分析流程示意图¶

该模块需要输入两方面的信息，利用基因水平的表达量和分组信息来完成降维和聚类的分析。表达量可用来自于DataSummary模块生成的raw.RData文件，分组信息需要自行提供，如下图所示。

Drawing

加载软件包¶

suppressWarnings(library("DESeq2"))
suppressWarnings(library("ggplot2"))
suppressWarnings(library("umap"))
suppressWarnings(library("Rtsne"))
suppressWarnings(library("ggpubr"))
suppressWarnings(library("openxlsx"))
options(repr.plot.width=4, repr.plot.height=3, repr.plot.res = 200)

rawRdFile = "RNAseq/DataSummary/WPS_raw.RData"
samplesheet = "sampleSheet/LUSC_samplesheet_pass.txt"
outFolder = "RNAseq/DimReduction"

if(!dir.exists(outFolder))
    dir.create(outFolder)

数据预处理¶

load(rawRdFile)
assign("raw", get("WPS_raw"))
ExM = t(log2(raw$txi$abundance + 1))
colnames(ExM) = raw$geneAnn$geneString

Tx = read.table(file = samplesheet, row.names = 1, header = TRUE, sep = "\t")
cNames = intersect(rownames(ExM), rownames(Tx))
Tx  = Tx[cNames, , drop = FALSE]
ExM = ExM[cNames,]
ExS = ExM[, apply(ExM, 2, sd) > 0]

ExS[1:4, 1:4]

PCA降维¶

pca <- summary(prcomp(ExS, center=TRUE, scale= TRUE))
pcadata <- data.frame(PC1=pca$x[,1], PC2=pca$x[,2])
pca_frame <- data.frame(pcadata, Tx)

xlab = paste0("PC1 (", pca$importance[2,"PC1"]*100, "%)")
ylab = paste0("PC2 (", pca$importance[2,"PC2"]*100, "%)")
p <- ggplot(pca_frame, aes(x=PC1, y=PC2, color=group)) + geom_point(size=1.5)
p <- p + theme_bw() + labs(x = xlab, y = ylab, title = "PCA")
p <- p + theme(panel.grid.major = element_blank(), panel.grid.minor = element_blank())
p <- p + theme(plot.title = element_text(hjust = 0.5)) + theme(legend.title=element_blank())
p <- p + theme(legend.title=element_blank())
p

UMAP降维¶

UMAP是非线性的降维方式，一般情况下也会得到更好的展示效果。

umap_out <- umap(ExS)
umap_frame = data.frame(UMAP1 = umap_out$layout[,1], UMAP2 = umap_out$layout[,2], Tx)

p <- ggplot(umap_frame, aes(x = UMAP1, y = UMAP2, color = group)) + geom_point(size=1.5)
p <- p + theme_bw() + labs(x = "UMAP 1", y = "UMAP 2", title = "UMAP")
p <- p + theme(panel.grid.major = element_blank(), panel.grid.minor = element_blank())
p <- p + theme(plot.title = element_text(hjust = 0.5)) + theme(legend.title=element_blank())
p

t-SNE降维¶

t-SNE也是非常流行的非线性降维方式。

tsne_out = Rtsne(ExS, dims = 2, pca = TRUE, perplexity = 30, verbose = FALSE, max_iter = 500)
tsne_frame = data.frame(tSNE1 = tsne_out$Y[,1], tSNE2 = tsne_out$Y[,2], Tx)

p <- ggplot(tsne_frame, aes(x = tSNE1, y = tSNE2, color = group)) + geom_point(size = 1.5)
p <- p + theme_bw() + labs(x = "t-SNE 1", y = "t-SNE 2", title = "t-SNE")
p <- p + theme(panel.grid.major = element_blank(), panel.grid.minor = element_blank())
p <- p + theme(plot.title = element_text(hjust = 0.5)) + theme(legend.title=element_blank())
p <- p + theme(legend.position="none")
p

sessionInfo()

R version 3.5.1 (2018-07-02)
Platform: x86_64-conda_cos6-linux-gnu (64-bit)
Running under: Red Hat Enterprise Linux Server 7.6 (Maipo)

Matrix products: default
BLAS: /sibcb2/bioinformatics/software/BcbioNG/anaconda/lib/R/lib/libRblas.so
LAPACK: /sibcb2/bioinformatics/software/BcbioNG/anaconda/lib/R/lib/libRlapack.so

locale:
[1] C

attached base packages:
[1] parallel  stats4    stats     graphics  grDevices utils     datasets 
[8] methods   base     

other attached packages:
 [1] openxlsx_4.1.4              ggpubr_0.2.4               
 [3] magrittr_1.5                Rtsne_0.15                 
 [5] umap_0.2.5.0                ggplot2_3.2.1              
 [7] DESeq2_1.22.2               SummarizedExperiment_1.12.0
 [9] DelayedArray_0.8.0          BiocParallel_1.16.6        
[11] matrixStats_0.55.0          Biobase_2.42.0             
[13] GenomicRanges_1.34.0        GenomeInfoDb_1.18.2        
[15] IRanges_2.16.0              S4Vectors_0.20.1           
[17] BiocGenerics_0.28.0        

loaded via a namespace (and not attached):
 [1] bitops_1.0-6           bit64_0.9-7            RColorBrewer_1.1-2    
 [4] repr_1.1.0             tools_3.5.1            backports_1.1.5       
 [7] utf8_1.1.4             R6_2.4.1               rpart_4.1-15          
[10] Hmisc_4.3-0            DBI_1.1.0              lazyeval_0.2.2        
[13] colorspace_1.4-1       nnet_7.3-12            withr_2.1.2           
[16] tidyselect_1.1.0       gridExtra_2.3          bit_1.1-14            
[19] compiler_3.5.1         htmlTable_1.13.3       labeling_0.3          
[22] scales_1.1.0           checkmate_1.9.4        genefilter_1.64.0     
[25] askpass_1.1            pbdZMQ_0.3-3           stringr_1.4.0         
[28] digest_0.6.23          foreign_0.8-74         XVector_0.22.0        
[31] base64enc_0.1-3        pkgconfig_2.0.3        htmltools_0.5.1.1     
[34] htmlwidgets_1.5.1      rlang_0.4.10           rstudioapi_0.10       
[37] RSQLite_2.1.5          farver_2.0.1           generics_0.0.2        
[40] jsonlite_1.6           zip_2.0.4              acepack_1.4.1         
[43] dplyr_1.0.5            RCurl_1.95-4.12        GenomeInfoDbData_1.2.1
[46] Formula_1.2-3          Matrix_1.2-18          Rcpp_1.0.3            
[49] IRkernel_1.1.1         munsell_0.5.0          fansi_0.4.0           
[52] reticulate_1.18        lifecycle_1.0.0        stringi_1.4.3         
[55] zlibbioc_1.28.0        grid_3.5.1             blob_1.2.0            
[58] crayon_1.3.4           lattice_0.20-38        IRdisplay_0.7.0       
[61] splines_3.5.1          annotate_1.60.1        locfit_1.5-9.1        
[64] knitr_1.26             pillar_1.5.1           uuid_0.1-4            
[67] ggsignif_0.6.0         geneplotter_1.60.0     XML_3.98-1.20         
[70] glue_1.4.2             evaluate_0.14          latticeExtra_0.6-28   
[73] data.table_1.12.8      vctrs_0.3.7            gtable_0.3.0          
[76] openssl_1.4.1          purrr_0.3.3            xfun_0.18             
[79] xtable_1.8-4           RSpectra_0.16-0        survival_3.1-8        
[82] tibble_3.1.0           AnnotationDbi_1.44.0   memoise_1.1.0         
[85] cluster_2.1.0          ellipsis_0.3.0

	ENSG00000000003.15 TSPAN6	ENSG00000000005.6 TNMD	ENSG00000000419.12 DPM1	ENSG00000000457.14 SCYL3
1302003-C	4.097930	0.00000000	6.673662	3.204717
1302003-N	3.634948	0.08793651	5.821499	3.542294
1436156-C	4.867582	0.07751155	6.116293	3.364875
1436156-N	3.804217	0.65963051	5.525091	3.191469