MutMap的分析方法如下圖:
選擇EMS處理的突變體進(jìn)行回交獲得F1子代,再自交獲得形狀分離的F2子代,選擇F2中具有突變形狀的植株進(jìn)行混池測(cè)序,理論上與突變性狀相關(guān)的突變率為1,而與突變性狀不相關(guān)的突變率接近0.5,再繪制snp-index
與染色體位置的圖,鎖定峰值所在的區(qū)域進(jìn)行驗(yàn)證,如下圖:
藍(lán)色的點(diǎn)代表突變位點(diǎn),紅色的線是根據(jù)windows分析的結(jié)果繪制,每個(gè)window包含五個(gè)snp位點(diǎn),縱坐標(biāo)取突變率的平均值,橫坐標(biāo)取第一和第五的突變位置的中點(diǎn)
圖中snp位點(diǎn)的篩選標(biāo)準(zhǔn)如下:
1.突變頻率與覆蓋度
純合位點(diǎn)認(rèn)為SNP-index大于等于0.9且覆蓋度大于等于3
雜合位點(diǎn)認(rèn)為SNP-index大于等于0.3且小于0.9,覆蓋度大于4
2.去除不同樣本間共有突變
去除掉至少有兩個(gè)突變方向共有的SNP位點(diǎn)
3.根據(jù)EMS誘導(dǎo)突變?cè)砗Y選
由于EMS誘導(dǎo)的突變主要集中在G→A和C→T,所以圖中只保留了這兩種突變
在文章的附件中給出了一系列不同覆蓋度與不同混樣數(shù)量情況下,性狀不相關(guān)突變位點(diǎn)在SNP-index上的頻率分布圖
其中n代表混養(yǎng)池中樣本的數(shù)量,G代表平均覆蓋度,由圖中來(lái)判斷出純合突變的SNP-index閾值
此外,mutmap方法還考慮了在突變株中存在極少量不突變的樣本情況,也給出了在這種考慮下的與性狀相關(guān)SNP在SNP-index上的頻率分布圖,如下:
其中j代表假設(shè)的未突變樣本數(shù),n代表混養(yǎng)池中樣本的數(shù)量,G代表平均覆蓋度
NovelBio實(shí)驗(yàn)室數(shù)據(jù)測(cè)試:
本次測(cè)試主要使用的測(cè)試樣本為A,其中陳總給出的突變基因?yàn)閄XX,所在染色體的位置為:XXXX
測(cè)試中使用Varscan算法對(duì)xxx與對(duì)照組9522樣本進(jìn)行callSNP,提取其中的somatic突變進(jìn)行后續(xù)的分析,其中包含一個(gè)在目標(biāo)基因上發(fā)生錯(cuò)義突變的位點(diǎn),且突變率為1.
由圖中可以看出具有高突變率的位點(diǎn)較多,在11號(hào)染色體關(guān)注基因區(qū)域沒(méi)有明顯的峰值,在第一,第四染色體有明顯的突變富集,但是突變位點(diǎn)過(guò)于密集,經(jīng)過(guò)IGV觀察后看到如下情況:
1.目的基因處的突變位點(diǎn)為真,但是突變位點(diǎn)周圍沒(méi)有很多高頻突變位點(diǎn),導(dǎo)致圖中沒(méi)有明顯的峰
2.在大量突變位點(diǎn)富集的區(qū)域,在對(duì)照組中也存在非常多的突變,導(dǎo)致結(jié)果不可信,而且在該位點(diǎn)存在過(guò)多的位點(diǎn)也使結(jié)果不是很可信
3.根據(jù)覆蓋度的過(guò)濾會(huì)存在局限性,有部分位點(diǎn)可能同時(shí)存在多種突變類型,或者snp和indel共存的情況,這種位點(diǎn)也不是非??尚?/span>
4.部分位點(diǎn)存在幾個(gè)位置接近的純合突變位點(diǎn),圖中存在不是非常明顯峰的區(qū)域,但是不在基因的外顯子區(qū),未發(fā)生氨基酸的改變
初步結(jié)論,從圖中來(lái)看,沒(méi)有達(dá)到文章中出現(xiàn)明顯峰的程度,考慮的原因是突變位點(diǎn)過(guò)多,產(chǎn)生的干擾比較嚴(yán)重,XXX這個(gè)樣本的平均覆蓋度為24,已經(jīng)達(dá)到文章中提到的(>10×)的要求,但是畫(huà)圖使用的突變位點(diǎn)的數(shù)量相差一個(gè)數(shù)量級(jí),對(duì)結(jié)果的影響很大。在Mutmap的文章中同時(shí)對(duì)一批F2子代的多種突變類型進(jìn)行研究比如高矮,葉片顏色,并刪除了很多共有突變(即可能不特異影響突變性狀的位點(diǎn)),而且只考慮了G→A和C→T這兩種突變類型,這就可以過(guò)濾掉非常多的位點(diǎn)。而在我們的測(cè)序數(shù)據(jù)中,只考慮了覆蓋度的問(wèn)題,在我對(duì)覆蓋度梯度測(cè)試時(shí),始終不能達(dá)到滿意的結(jié)果,卡值過(guò)低,繪圖所使用的突變位點(diǎn)會(huì)更多,干擾非常大,如果卡值過(guò)高又會(huì)丟掉非常多的信息。此外,由于陳總關(guān)注的目的基因所具有的突變類型為C→G,而且也不知道具體誘導(dǎo)突變的過(guò)程,沒(méi)有對(duì)位點(diǎn)的突變種類進(jìn)行篩選,這個(gè)也是導(dǎo)致突變位點(diǎn)很多的原因之一。
Q69樣本補(bǔ)充分析,選擇Q69的somatic突變位點(diǎn)進(jìn)行過(guò)濾畫(huà)圖,過(guò)濾標(biāo)準(zhǔn)為tumor組覆蓋度大于等于8,突變率大于30%,normal組突變率為0,只選擇G→A和C→T這兩種突變類型進(jìn)行分析,
總共獲得突變位點(diǎn)2173個(gè),結(jié)果圖片如下:
之后在對(duì)覆蓋度的卡值進(jìn)行梯度測(cè)試,由于在當(dāng)時(shí)進(jìn)行varscan分析時(shí)平臺(tái)的tumor最低閾值為8,當(dāng)卡值為8時(shí)獲得2173個(gè)突變,當(dāng)卡值為10時(shí)獲得 當(dāng)卡值為1085個(gè),15時(shí)獲得375個(gè)突變位點(diǎn)。