1998年,Handelsman首次提出了宏基因組學(xué)(或元基因組學(xué),Metagenomics)概念,即運(yùn)用測序技術(shù),對樣品中的全部微生物的DNA進(jìn)行研究的技術(shù)。后來加利福尼亞大學(xué)伯克利分校的研究人員Kevin Chen和Lior Pachter將宏基因組定義為“應(yīng)用現(xiàn)代基因組學(xué)技術(shù),直接研究自然狀態(tài)下的微生物有機(jī)群落,而不需要在實(shí)驗(yàn)室中分離單一菌株”的科學(xué)。宏基因組學(xué)可以從環(huán)境樣品中提取出的全部微生物DNA出發(fā),構(gòu)建宏基因組文庫,并利用測序技術(shù)進(jìn)行DNA測序,再對測序數(shù)據(jù)進(jìn)行分析,從而全面了解樣品中所包含的全部微生物的組成信息和群落功能。
1.數(shù)據(jù)質(zhì)控:下機(jī)的原始數(shù)據(jù)(Raw Data)會存在一定比例的低質(zhì)量數(shù)據(jù),原始數(shù)據(jù)都必須進(jìn)行嚴(yán)格質(zhì)控;
2.宏基因組組裝:基于Clean Data,先進(jìn)行單個(gè)樣本組裝,再將各樣本中未參與到組裝的reads合并進(jìn)行混合組裝,以此增加低豐度物種的測序深度,獲得更多的物種序列信息;
3.基因預(yù)測:基于單樣本和混合組裝的scaftigs,利用MetaGeneMark進(jìn)行基因預(yù)測,對預(yù)測得到的所有基因進(jìn)行去冗余,得到非冗余基因集;再將各樣本的Clean Data 比對到該基因集上,統(tǒng)計(jì)獲得基因集在各樣本中的豐度表;
4.物種注釋:基于質(zhì)控得到的Clean Data,與NCBI 微生物的參考基因組數(shù)據(jù)庫進(jìn)行比對注釋,獲得各樣本在不同分類層級的物種豐度表;
5.功能注釋:基于非冗余基因集,與KEGG數(shù)據(jù)庫進(jìn)行比對注釋,獲得功能豐度表;
6.統(tǒng)計(jì)與分析:基于物種和功能豐度表,進(jìn)行豐度柱狀圖、Krona、Heatmap、樣本聚類分析、PCoA分析、Wilcoxon秩和檢驗(yàn)分析、LEfSe多元統(tǒng)計(jì)分析以及代謝通路比較分析,挖掘樣本(組)之間物種和功能組成的差異;
7.高級分析:基于以上宏基因組標(biāo)準(zhǔn)分析的結(jié)果,可選擇進(jìn)行一系列高級分析,例如NMDS、CCA/RDA、Network、CAG/MGS分析、腸型分析、抗性基因注釋、拷貝數(shù)變異等分析;同時(shí),可以結(jié)合宏轉(zhuǎn)錄組、宏代謝組以及宏蛋白組數(shù)據(jù)等進(jìn)行多組學(xué)的關(guān)聯(lián)分析。
分析類別 | 分析內(nèi)容 | |
基因統(tǒng)計(jì)與分析 | 樣本間基因分布Venn圖 | 組間基因數(shù)目差異分析 |
樣本基因α多樣性分析 | ||
微生物群落分析 | 樣品菌落組成柱狀圖 | 樣品間相似性指數(shù)
PCoA分析 樣品聚類分析 LEfSe分析 Wilcoxon秩和檢驗(yàn)分析 |
物種分布Krona圖 | ||
樣本主要物種分布比較 | ||
Heatmap圖 | ||
代謝通路分析(基于KEGG數(shù)據(jù)庫) | 樣品代謝功能組成柱狀圖 | |
Heatmap圖 | ||
樣品代謝通路分析 | ||
不同樣品代謝通路比較分析 | ||
碳水化合物酶分析(基于CAZy數(shù)據(jù)庫) | 樣品碳水化合物酶組成柱狀圖 | |
Heatmap圖 | ||
功能組成分析(基于eggNOG數(shù)據(jù)庫) | 樣品功能組成柱狀圖 | |
Heatmap圖 | ||
高級分析菜單 | RDA/CCA 分析 | 腸型分析 |
Network分析 | CAG/MGS分析 | |
單菌Binning組裝 | 抗性基因注釋 | |
拷貝數(shù)變異分析 |
微信公眾號