中文字幕人妻第一区|国产午夜福利无码视频|久久久久综合给合狠狠狠|久久厕所精品国产精品亚洲|国产自啪精品视频网站丝袜|成人亚洲国产精品一区不卡|亚洲大尺度无码无码专线一区|福利一区二区三区四区在线观看

服務(wù)熱線02152235399
當前位置:博客 > 單細胞

單細胞轉(zhuǎn)錄組測序數(shù)據(jù)分析(二)

時間:2019-09-30    |    閱讀量:11446

單細胞轉(zhuǎn)錄組測序產(chǎn)生的數(shù)據(jù)是成百上千個基因在上萬個細胞中的表達情況,屬于高維數(shù)據(jù),我們需要對數(shù)據(jù)進行嚴格的質(zhì)控與過濾,將合格的數(shù)據(jù)降維到低維子空間,使數(shù)據(jù)可視化。

上一期已經(jīng)帶大家了解了scRNA-Seq數(shù)據(jù)的預(yù)處理,那么本期,小編就來介紹一下數(shù)據(jù)分析的標準化與聚類分析

一、上海烈冰科技數(shù)據(jù)分析流程介紹


二、工具介紹

Seurat_Normalized(標準化)——采用Seurat package對數(shù)據(jù)進行過濾并校正批次效應(yīng)(Batch Effect),采用PCA算法及tSNE算法對基因表達矩陣進行降維處理和信息可視化展示。

Seurat_Cluster(聚類分析)——根據(jù)基因表達的情況,通過無監(jiān)督聚類算法(Graph-based clusteringk-means clustering) 將降維后的細胞聚類分群。再通過Wilcoxon秩和檢驗分析計算出不同細胞類群的標識基因(Marker Gene),并對所屬細胞類群進行推測和鑒定。

三、結(jié)果展示

(一) 數(shù)據(jù)標準化

1.線粒體RNA占比:

由于Dead Cell胞內(nèi)RNA會流出,線粒體RNA占比會隨之增高,因此我們一般通過設(shè)定線粒體RNA占比閾值來過濾Dead Cell。

左圖描述了每個細胞線粒體RNA占比—UMI數(shù)量相關(guān)性,紅色和黑色圓點代表兩個樣本的細胞。X軸代表每個細胞對應(yīng)的UMI數(shù)量,Y軸代表每個細胞線粒體RNA占比;右圖為細胞線粒體RNA占比分布的Violin圖。

圖中線粒體RNA占比閾值建議設(shè)為0.2,線粒體RNA占比超過0.2的細胞認為是Dead Cell,可將其過濾掉。當然,不同類型的細胞線粒體RNA占比也不同,例如心肌細胞、肝細胞等高代謝、凋亡類細胞,其線粒體RNA占比相對較高。因此,需要結(jié)合具體的細胞類型來最終決定線粒體RNA占比的閾值。

2.細胞的基因數(shù)量:

我們一般通過設(shè)定細胞的最小基因數(shù)量去除假細胞和低質(zhì)量細胞(Low Quality Cell);通過設(shè)定細胞的最大基因數(shù)量可以一定程度上去除雙細胞(Doublet Cell)。

左圖為每個細胞的基因—UMI數(shù)量相關(guān)性分析圖,右圖為每個細胞基因數(shù)量分布的Violin圖。圖中基因數(shù)量閾值建議設(shè)定為200-6000,可有效去除假細胞、低質(zhì)量細胞和雙細胞。

3.PCA分析:

該圖主要描述了不同樣本中所有細胞在PC1PC2(即主成分分析中影響最大的兩個主成分)所組成的面中的定位情況。

4.t-SNE圖:

主要展示了每個樣本中所有細胞的tSNE定位情況、樣本融合情況,以及通過基因數(shù)量、UMI數(shù)量、線粒體RNA占比進行染色的情況,如下所示:

(二)聚類分析

1.細胞分群的t-SNE圖:

該圖代表t-SNE定位并基于Graphcluster或者KMean算法無監(jiān)督聚類后的分群情況。

左圖中cluster8被其他群分割成兩部分,這樣的t-SNE分群結(jié)果并不是特別理想。建議調(diào)整分析時的resolution參數(shù),將其調(diào)大,使分群更加細致。將resolution參數(shù)由0.8調(diào)至1.0,得到右圖較好的t-SNE分群結(jié)果。

2. Top20 Marker基因的Heatmap

可觀察特定marker基因在不同cluster的表達差異,以此初步判斷細胞類型及類群合并。采用細線區(qū)分不同的Cluster,顏色深淺代表基因表達高低,其中黃色為高表達,暗紅色為低表達。根據(jù)各cluster的基因表達的整體類似度,下圖可以初步判斷將cluster0、3合為一群,cluster6、7合為一群,cluster5、8、12合為一群。

3.Feature plot

該圖主要描繪了選定Cluster Marker 基因在所有單細胞中的分布情況,更加直觀的了解marker基因的整體表達情況,用于判定cluster所屬的細胞類型。根據(jù)經(jīng)典特異性marker基因的Feature plot,可以初步判斷出T細胞(CD3D)、巨噬細胞(組織樣本C1QA)、B細胞(CD79A)、成纖維細胞(DCN)、內(nèi)皮細胞(VWFCLDN5)及上皮細胞(KRT18、EPCAM)。

4.細胞類型鑒定結(jié)果tSNE圖:

下圖就是原始的tSNE分類結(jié)果,共有18個類群,此時要結(jié)合第3步中Marker基因特異性表達的結(jié)果對Cluster進行合并。

5.細胞亞型分群圖:

該圖將0、12、34、9 Cluster合并為T細胞(CD3D);將5、8、12 Cluster合并為巨噬細胞(組織樣本C1QA);將11、13 Cluster合并為B細胞(CD79A);16 Cluster為成纖維細胞(DCN);14 Cluster為內(nèi)皮細胞(VWF、CLDN5);將6、710、15、17 Cluster合并為上皮細胞(KRT18、EPCAM)。

后續(xù)可以將自己關(guān)注的細胞亞型再次細分,并進行其功能性分析,為解讀生物學(xué)意義細節(jié)提供基礎(chǔ),后續(xù)講解會詳細介紹。


綜上所述,通過標準化將數(shù)據(jù)過濾后通過PCA降維,并形成t-SNE可視化結(jié)果;降維后的矩陣進行細胞聚類分析,并計算出各類群的marker基因及表達量,以鑒定所屬的細胞類型。

細胞類型鑒定后就可以進行后續(xù)深層次的擬時序分析(Pseudotime)、及SCENIC分析。后續(xù)小編將一一講解哦~