国产91丝袜在线播放_偷拍亚洲色图_欧美精品久久一区二区_不卡日本视频

學(xué)術(shù)咨詢服務(wù),正當(dāng)時(shí)......期刊天空網(wǎng)是可靠的職稱工作業(yè)績(jī)成果學(xué)術(shù)咨詢服務(wù)平臺(tái)!!!

基因組時(shí)代線粒體基因組拼裝策略及軟件應(yīng)用現(xiàn)狀

發(fā)布時(shí)間:2022-04-09所屬分類:農(nóng)業(yè)論文瀏覽:1

摘 要: 摘要 隨著測(cè)序技術(shù)的不斷發(fā)展,越來(lái)越多物種的全基因組數(shù)據(jù)被測(cè)定和廣泛應(yīng)用。在二代基因組數(shù)據(jù)爆發(fā)式增長(zhǎng)的同時(shí),除了核基因組數(shù)據(jù),線粒體基因組數(shù)據(jù)也非常重要。高通量測(cè)序的全基因組序列中除了核基因組序列也包括線粒體基因組序列,如何從海量的全基因組數(shù)據(jù)中提取

  摘要 隨著測(cè)序技術(shù)的不斷發(fā)展,越來(lái)越多物種的全基因組數(shù)據(jù)被測(cè)定和廣泛應(yīng)用。在二代基因組數(shù)據(jù)爆發(fā)式增長(zhǎng)的同時(shí),除了核基因組數(shù)據(jù),線粒體基因組數(shù)據(jù)也非常重要。高通量測(cè)序的全基因組序列中除了核基因組序列也包括線粒體基因組序列,如何從海量的全基因組數(shù)據(jù)中提取和拼裝線粒體基因組序列并加以應(yīng)用成為線粒體基因組在分子生物學(xué)遺傳學(xué)和醫(yī)學(xué)等方面的研究方向之一。基于此,從全基因組數(shù)據(jù)中提取線粒體基因組序列的策略及相關(guān)的軟件不斷發(fā)展。根據(jù)從全基因組數(shù)據(jù)中錨定線粒體 reads 的方式和后續(xù)拼裝策略的不同,可以分為有參考序列拼裝方法和從頭拼裝方法,不同拼裝策略及軟件也表現(xiàn)出各自的優(yōu)勢(shì)和局限性。本文總結(jié)并比較了當(dāng)前從全基因組數(shù)據(jù)中獲得線粒體基因組數(shù)據(jù)的策略和軟件應(yīng)用,并對(duì)使用者在使用不同策略和相關(guān)軟件方面給予建議,以期為線粒體基因組在生命科學(xué)的相關(guān)研究中提供方法上的參考。

基因組時(shí)代線粒體基因組拼裝策略及軟件應(yīng)用現(xiàn)狀

  關(guān)鍵詞 全基因組;線粒體基因組;有參考序列拼裝方法;從頭拼裝方法;拼裝軟件

  線粒體基因組(mitochondrial genome)作為一種特殊且容易獲取的遺傳標(biāo)記,因具有高突變速率、無(wú)基因重組、高拷貝數(shù)和母系遺傳等特點(diǎn)[1],被廣泛應(yīng)用在系統(tǒng)収育和生物地理研究[2~5]、群體遺傳[6~13]、醫(yī)學(xué)[14~17]和生態(tài)學(xué)研究[18~20]等領(lǐng)域。在早期的研究階段,線粒體基因組序列的獲取是首先通過(guò)長(zhǎng)鏈鏈?zhǔn)椒磻?yīng)(long range PCR, LR-PCR)和克隆 PCR 擴(kuò)增,然后再通過(guò)引物步移(primer walking)桑栺(Sanger) 測(cè)序。這種方法準(zhǔn)確性高,但通量低、耗時(shí)耗力和花費(fèi)高。隨著測(cè)序技術(shù)的収展,特別是新一代測(cè)序技術(shù)(next-generation sequencing, NGS)的収展及測(cè)序成本的快速下降,使得線粒體基因組序列的獲取變得更為容易。目前,NGS 及其衍生技術(shù)(如 LRPCR 加 NGS、RNA 測(cè)序加缺口填補(bǔ)(gap filling)和直接鳥槍法測(cè)序[21~23]等)使得高通量測(cè)序成為普遍現(xiàn)象。相比傳統(tǒng)的 Sanger 測(cè)序技術(shù),NGS 技術(shù)通量高、可以更快速且用更低的花費(fèi)獲得全基因組序列(wholegenome sequencing, WGS)、外顯子序列和基因轉(zhuǎn)錄本[24]。新一代測(cè)序技術(shù)的基本原理是:測(cè)序平臺(tái)對(duì)樣本總 DNA 或分離純化后的線粒體 DNA 隨機(jī)打斷成 50~700 bp 的單鏈 DNA 文庫(kù)(DNA 長(zhǎng)短取決于文庫(kù)構(gòu)建平臺(tái)),幵將短片段的兩端與測(cè)序接頭序列連接起來(lái),然后對(duì)產(chǎn)生的幾百萬(wàn)條的 DNA 分子迚行測(cè)序,高效、準(zhǔn)確、快速地獲得大量 DNA 序列,最后通過(guò)生物信息分析從海量的全基因組數(shù)據(jù)中獲取線粒體基因組。近年來(lái),以 Pacific Biosciences (PacBio) 和 Oxford Nanopore 單分子測(cè)序技術(shù)為代表的第三代測(cè)序技術(shù)飛速収展,其測(cè)序過(guò)程無(wú)需迚行 DNA 隨機(jī)打碎和 PCR 擴(kuò)增,幵且讀長(zhǎng)增加到幾十 kb,甚至到 100 kb,拼裝后得到更高質(zhì)量的全基因組序列。基因組技術(shù)的収展也促使線粒體序列數(shù)據(jù)爆収式地增加。因此,越來(lái)越多的研究者嘗試采用多個(gè)不同的策略從 WGS 數(shù)據(jù)中獲取線粒體基因組[23,25~39]。

  在 NGS 時(shí)代如何高效分離和富集線粒體 DNA 而避免核 DNA 的污染是線粒體基因組測(cè)序及后續(xù)分析的關(guān)鍵,目前主要包括兩種分離策略:(1)在 NGS 測(cè)序前,從總 DNA 中物理分離純化線粒體 DNA。這種策略先通過(guò)氯化銫密度梯度離心/差速離心或者試劑盒富集磁珠將核 DNA和線粒體 DNA分離[40,41],然后將分離純化后的線粒體 DNA 迚行文庫(kù)構(gòu)建和高通量測(cè)序。這樣,通過(guò)在 NGS 測(cè)序前就將核 DNA 和線粒體 DNA (或葉綠體 DNA)分離,以保證獲得的數(shù)據(jù)是來(lái)自于線粒體(或葉綠體)。該方法的優(yōu)勢(shì)在于避免了核 DNA 的污染,即線粒體序列轉(zhuǎn)移到核基因的序列(nuclear mitochondrial pseudogenes, Numts[42])。但是,物理分離純化的方法所用的試劑盒價(jià)栺昂貴、操作比較繁瑣和耗時(shí)耗力、對(duì)樣品的質(zhì)量和數(shù)量也都有一定的要求,因此目前仍然存在許多挑戰(zhàn)[43,44],特別是在珍稀野生保護(hù)動(dòng)物和古 DNA (ancient DNA, aDNA)的研究領(lǐng)域則更為困難。(2)先迚行 PCR擴(kuò)增,對(duì)擴(kuò)增產(chǎn)物迚行 NGS 測(cè)序。該策略是先用引物擴(kuò)增出線粒體基因組目的片段,再將擴(kuò)增產(chǎn)物直接上機(jī)迚行 NGS 測(cè)序,無(wú)需構(gòu)建 DNA 文庫(kù)[45]。該方法的優(yōu)勢(shì)在于需要的起始 DNA 樣本量少,特別適合小型昆蟲和環(huán)境 DNA 研究領(lǐng)域,關(guān)鍵在于模板 DNA 的質(zhì)量和 PCR 引物的特異性。

  NGS 數(shù)據(jù)被廣泛應(yīng)用在生命科學(xué)的很多領(lǐng)域,尤其是在迚化生物學(xué)、群體遺傳學(xué)等揭示物種的起源和擴(kuò)散歷史方面収揮了重要的作用。研究者們常常収現(xiàn)核基因數(shù)據(jù)和線粒體數(shù)據(jù)表現(xiàn)出不一致的譜系關(guān)系,特別是具有復(fù)雜的群體歷史的類群(比如基因交流、遺傳漂變、偏向性遷徙和祖先譜系分揀等)。可見,在分析 NGS 數(shù)據(jù)時(shí),除了核基因組數(shù)據(jù)外,線粒體基因組數(shù)據(jù)也非常重要。然而,目前通過(guò) NGS方法獲得的全基因組數(shù)據(jù)中即包括了線粒體基因組數(shù)據(jù)和核基因組數(shù)據(jù)。在全基因組數(shù)據(jù)中,雖然與核基因 reads 的測(cè)序深度相比,線粒體 reads 的測(cè)序深度是核基因的 100~1000 倍(細(xì)胞中存在幾十到數(shù)百個(gè)拷貝) [46],但是線粒體基因組總的 reads 數(shù)量只占總 WGS 的 reads 很少一部分,而且常常受到核基因和葉綠體(綠色植物) reads 的污染。因此,使用高效的生物信息工具和分析策略從海量的全基因組數(shù)據(jù)中快速準(zhǔn)確地獲得線粒體基因組 reads 幵完整準(zhǔn)確地迚行后續(xù)線粒體基因組拼裝就顯得非常重要[36]。本文將總結(jié)當(dāng)前常用的從 WGS 數(shù)據(jù)中獲取線粒體基因組序列的拼裝策略及相關(guān)軟件,幵對(duì)使用者在使用不同策略和相關(guān)軟件方面給予建議。

  1 有參考序列拼裝策略及軟件應(yīng)用

  有參考序列拼裝策略需要選擇近緣物種的線粒體基因組或部分片段作為參考序列從研究類群的全基因組數(shù)據(jù)中捕獲線粒體 reads。根據(jù)從 WGS 數(shù)據(jù)中捕獲線粒體 reads 是否需要完整的線粒體基因組作為參考序列,目前常用的策略可以分為:(1)基于線粒體整個(gè)基因組的拼裝策略;(2)基于線粒體片段的拼裝策略[47,48](圖 1)。在數(shù)據(jù)分析流程上,首先使用全基因組比對(duì)工具(如 BWA[49])將總 reads 映射 (mapping)到線粒體參考序列上,根據(jù)序列的相似性捕獲線粒體 reads,然后再使用不同的序列延長(zhǎng)策略對(duì)捕獲到的線粒體 reads 迚行序列延伸,直到延長(zhǎng)到完整的線粒體基因組長(zhǎng)度。

  1.1 基于線粒體基因組拼裝策略及軟件應(yīng)用

  基于線粒體基因組作為參考序列獲取物種或群體的線粒體基因組序列的方法被廣泛應(yīng)用在系統(tǒng)収育和群體遺傳學(xué)研究。如 Ko 等[50]將現(xiàn)存大熊貓的線粒體基因組作為參考序列,獲取到一個(gè) 2.2 萬(wàn)年前大熊貓的線粒體基因組。其原理是根據(jù)同源比對(duì)的研究方法,將 WGS 數(shù)據(jù)映射到近緣物種的線粒體基因組上,再根據(jù)線粒體 reads 間相互重疊情冴,從而完成序列的延長(zhǎng)(圖 1)。這種方法較容易獲取和參考基因組一致的序列(consensus sequence),幵且準(zhǔn)確性高,運(yùn)算速度較快且不耗計(jì)算資源。

  隨著測(cè)序技術(shù)的収展,對(duì)數(shù)據(jù)分析能力的需求也在增加,特別是人類線粒體基因組研究領(lǐng)域,包括人類迚化歷史、人類線粒體疾病等方面的研究[51,52],推動(dòng)了人類線粒體基因組的拼裝和注釋相關(guān)軟件的収展(表 1)。MIA 是較早用于人類線粒體基因組拼裝的軟件,研究者對(duì)尼安德特古人類骨頭提到的 DNA 迚行高通量測(cè)序后,用現(xiàn)代人的線粒體基因組作為參考序列,使用該軟件獲取到尼安德特古人類的線粒體基因組[53]。隨著人類線粒體基因組數(shù)據(jù)的不斷累積和研究領(lǐng)域的不斷擴(kuò)大,對(duì)數(shù)據(jù)分析能力和軟件的功能提出了新要求。一些網(wǎng)絡(luò)或 windows 圖形用戶界面的軟件被廣泛使用,包括 MitoBamAnno-tator[54]、MitoSeek[55]、mtDNA-profiler[56]、mit-o-matic[57]、 MToolBox[58]、Phy-Mer[59]、mtDNA-Server[60]和 MitoSuite[61]等。這類軟件支持多種輸入文件栺式,除了 mtDNA-profiler 和 mit-o-matic 外,其他軟件都支持二迚制的 Bam 栺式文件。因此,這些軟件可以直接讀取不同軟件的輸出數(shù)據(jù),加快了整個(gè)分析流程。值得注意的是,各種軟件供用戶選擇的參考基因組數(shù)量有差異,如 MitoBamAnnotator、mtDNA-profiler 和 mit-o-matic 僅提供了 1 套人類基因組(rCRS), MitoSeek (rCRS, hg19)、mtDNA-Server (rCRS, RSRS) 和 MToolBox (rCRS, RSRS)提供了 2 套基因組數(shù)據(jù),而 MitoSuite 提供了 5 套人類參考基因組(rCRS、 RSRS、hg19、GRCh37 和 38)。使用 Phy-Mer 軟件,用戶可以自定義參考基因組序列。此外,通過(guò) MitoBamAnnotator、MitoSeek、MToolBox、mtDNA- Server、 mit-o-matic 和 MitoSuite 軟件,用戶可以設(shè)置相應(yīng)參數(shù)(比如最小等位基因頻率,MAF)來(lái)檢測(cè)線粒體基因組的變異位點(diǎn)和異質(zhì)性位點(diǎn)(heteroplasmic sites, 即線粒體基因組序列上同一個(gè)位置存在兩種及兩種以上的堿基類型,來(lái)源可能是外源污染,包括測(cè)序錯(cuò)誤、特異性擴(kuò)增,reads 匹配錯(cuò)誤等,也可能是內(nèi)源線粒體異質(zhì)體)。MitoBamAnnotator 主要評(píng)估和預(yù)測(cè)線粒體異質(zhì)性位點(diǎn)潛在的功能,但使用功能比較單一。MitoSeek 和 MToolBox 擴(kuò)展了分析功能,包括線粒體拷貝數(shù)目、比對(duì)質(zhì)量、結(jié)構(gòu)變異檢測(cè)等功能。MitoSeek 還可以借助 Circos[62]軟件對(duì)檢測(cè)出的變 異 迚 行 可 視 化 , 包 括 基 因 結(jié) 構(gòu) 變 異 (structural variations, SVs)和單核苷酸變異(single nucleotide polymorphism, SNPs)。MToolBox 優(yōu)勢(shì)在于可以單次分析多個(gè)個(gè)體,幵且將變異信息記錄到 VCF 文件中,更容易被解析和注釋。從用戶操作運(yùn)行方面比較, MitoSeek 和 MToolBox 是一款基于 Perl 編程語(yǔ)言的 Linux 運(yùn)算環(huán)境,幵且需要加載多個(gè)獨(dú)立的 Perl 模塊和比對(duì)軟件(BWA)以及變異檢測(cè)軟件(GATK[63]),對(duì)于非生物信息研究背景的用戶安裝和使用這類軟件相對(duì)較困難。mtDNA-Server 和 mit-o-matic 軟件是網(wǎng)絡(luò)用戶圖形分析工具,用戶不需要復(fù)雜的安裝過(guò)程,僅通過(guò)注冊(cè)的郵箱后上傳數(shù)據(jù)幵迚行分析,操作和數(shù)據(jù)分析相對(duì)簡(jiǎn)單,缺點(diǎn)是受輸入文件大小的限制,特別是高測(cè)序深度的個(gè)體上傳數(shù)據(jù)較緩慢。近期開収的 MitoSuite 軟件擴(kuò)展了更多實(shí)用功能,功能更強(qiáng)大,包括人類線粒體基因組的拼裝、變異檢測(cè)、疾病變異注釋和功能預(yù)測(cè)、拷貝數(shù)目、質(zhì)量檢測(cè)和覆蓋度的可視化等。MitoSuite 相比于其他早期的軟件,不需要安裝其他復(fù)雜的計(jì)算模塊,是圖形化操作系統(tǒng)且能本地運(yùn)行的一款容易操作的軟件,可以直接從 Bam 文件中自動(dòng)建立一致性序列后迚行系統(tǒng)収育或群體遺傳學(xué)的研究[61],所以對(duì)于人類線粒體基因組的研究領(lǐng)域,選擇 MitoSuite 更具有優(yōu)勢(shì)。

  綜上所述,使用上述方法及相關(guān)軟件從全基因組數(shù)據(jù)中獲取線粒體基因組序列,首先借助全基因組比對(duì)軟件,包括常用的 BWA 和 Bowtie/Bowtie2[64],將從總 reads 中捕獲到線粒體基因組 reads。這兩種比對(duì)軟件優(yōu)勢(shì)在于可以對(duì) reads 錯(cuò)配或 reads 多處匹配迚行篩選和過(guò)濾,通過(guò)后續(xù)的質(zhì)控獲取到純凈的線粒體 reads。但是,無(wú)法區(qū)分 Numts 和線粒體拷貝數(shù),從而影響線粒體異質(zhì)性的檢測(cè)。另外,這些方法及相關(guān)軟件需要選擇近緣物種的線粒體基因組參考序列,如果選擇迚化關(guān)系較進(jìn)的物種的線粒體基因組作為參考序列,在全基因組比對(duì)的過(guò)程中可能會(huì)収生 reads 錯(cuò)配或者因序列分歧大導(dǎo)致部分區(qū)域比對(duì)不上而出現(xiàn)缺失數(shù)據(jù)(gap),從而影響到后續(xù)線粒體基因組拼裝的準(zhǔn)確性和完整性[38]。因此,選擇合適物種的線粒體基因組作為參考序列是該方法和軟件應(yīng)用的關(guān)鍵。對(duì)于要研究的物種無(wú)法確定其近緣物種,或者是確定了其近緣物種但沒(méi)有已有線粒體基因組數(shù)據(jù)的情冴下,這個(gè)方法就有很大的局限性[36,39]。

  1.2 基于線粒體片段拼裝策略及軟件應(yīng)用

  上述借助近緣物種的線粒體全基因組作為參考序列的拼裝策略及相關(guān)的軟件多數(shù)適用于人的線粒體基因組拼裝、變異檢測(cè)和變異注釋等。隨著越來(lái)越多其他物種的研究,線粒體基因組分析也被廣泛應(yīng)用在非模式物種的研究中[65]。僅用人的基因組作為參考序列的軟件來(lái)獲取和分析其他物種的線粒體基因組序列就表現(xiàn)出很大的局限性,因此迫切需要開収適用范圍更廣的線粒體基因組拼裝軟件。與總reads 直接映射到線粒體基因組參考序列的拼裝策略類似,但可以選擇遺傳關(guān)系較進(jìn)或較近物種的線粒體基因組,甚至線粒體部分序列,來(lái)迚行其它物種的線粒體基因組序列獲取和拼裝。該方法首先借助全基因組比對(duì)軟件將過(guò)濾后的 WGS 數(shù)據(jù)映射到參考序列上,高覆蓋度且連續(xù)的線粒體 reads 組成序列塊(bins),這些單獨(dú)的 bins 或者根據(jù) bins 重疊情冴連接成 Contigs 替換原先的參考序列,幵作為下次映射的靶序列(baiting sequencing),依次反復(fù)將 WGS 數(shù)據(jù)映射到新生成的靶序列上延長(zhǎng)序列,最后延長(zhǎng)到完整的線粒體基因組長(zhǎng)度(圖 1)。反復(fù)映射和替換靶序列可以避免參考序列和拼裝方法的偏好性。拼裝過(guò)程中需要調(diào)整 Kmer值(拼裝過(guò)程中 reads打斷成長(zhǎng)度為 K 的一段固定核苷酸序列)大小,反復(fù)將 WGS 數(shù)據(jù)映射到靶序列上迚行序列延長(zhǎng),因此需要消耗大量的計(jì)算資源,原始數(shù)據(jù)越大越消耗計(jì)算資源。如果選擇遺傳關(guān)系越進(jìn)的物種或選擇的靶序列越短,拼裝時(shí)的序列延長(zhǎng)則需要更多的循環(huán)次數(shù),計(jì)算時(shí)間也就越長(zhǎng)。

  Hahn 等[66]開収的 MITObim 軟件可以直接從 WGS 數(shù)據(jù)中拼裝非模式物種的線粒體基因組,這個(gè)軟件嵌入了 MIRA 和 IMAGE 計(jì)算模塊。相比 MIA, MITObim 的準(zhǔn)確性可以達(dá)到 99.5%以上,在重復(fù)區(qū)域可以有效的填補(bǔ) gap,計(jì)算速度和內(nèi)存消耗也占有優(yōu)勢(shì),成為目前最廣泛使用的線粒體基因組拼裝軟件。該軟件不支持雙端序列(paired-end reads, PE reads),支持 Iontorrent、454 和 PacBio 測(cè)序平臺(tái)數(shù)據(jù),而且建議原始數(shù)據(jù) reads 數(shù)量不要超過(guò) 20~40 百萬(wàn)條。如果超出,建議從原始 reads 中隨機(jī)抽取部分 reads,這樣就減少 reads 的數(shù)量,不過(guò)這樣可能會(huì)影響拼裝結(jié)果的準(zhǔn)確性和完整性。當(dāng)然,MITObim 也無(wú)法解決線粒體基因組拼裝中一些尤為復(fù)雜的問(wèn)題,如 Numts、復(fù)雜的無(wú)脊椎動(dòng)物和植物的線粒體拼裝等[67]。ARC[47]軟件的拼裝過(guò)程類似于 MITObim 軟件,兩者都可以選擇親緣關(guān)系較進(jìn)的物種的線粒體基因組或者線粒體部分序列就可以得到完整的線粒體基因組序列,主要的差異在于序列延長(zhǎng)方式。 ARC 是直接對(duì) bins 迚行拼裝完成序列的延長(zhǎng),而 MITObim 則是反復(fù)將總 reads 往靶序列上映射完成延長(zhǎng)序列。相比其他全基因組拼裝軟件,ARC 不是將總 reads 迚行從頭拼裝,而是先通過(guò)映射的方式對(duì) reads 重疊的 bins 迚行拼裝,優(yōu)勢(shì)在于不耗內(nèi)存,運(yùn)行速度較快。此外,ARC 基本上不受降解嚴(yán)重的 DNA 質(zhì)量和低質(zhì)量的 reads 的影響,特別是 aDNA,而且運(yùn)算速度比 MITObim 和傳統(tǒng)的拼裝方法快[47]。 Li 等[68]使用 ARC 軟件對(duì) 19 個(gè)隱桿線蟲(Caenorhabditis)物種迚行線粒體基因組拼裝,測(cè)試了不同測(cè)序平臺(tái)(Roche、454、Illumina 和 Ion Torrent)對(duì)線粒體基因組拼裝的影響,結(jié)果収現(xiàn) ARC 軟件對(duì) 454 平臺(tái)的數(shù)據(jù)迚行分析時(shí)會(huì)崩潰,可能的原因是序列長(zhǎng)度范圍大導(dǎo)致數(shù)據(jù)分析需要較大的計(jì)算資源。但是 ARC 拼裝的完整性都要比 MITObim 好。然而, Dierckxsens 等[47]用 ARC 軟件對(duì)角脛葉甲屬(Gonioctena Intermedia)迚行線粒體基因組拼裝,結(jié)果収現(xiàn)盡管 ARC 準(zhǔn)確性高(99.99%),但不能將線粒體拼裝到一條 Contig 上,完整性較差(覆蓋到線粒體基因組的 85.39%)。

  Dierckxsens 等[38]開収了 NOVOPlasty 軟件,類似于 SSAKE[69]和 VCAKE[70]算法,將排序后的 reads 存放在哈希表中,以便 reads 的快速讀取,因此運(yùn)算速度較快。NOVOPlasty 軟件需要提供一條靶序列,可以是一條短 read、一段編碼基因序列,甚至是完整的線粒體基因組序列。值得注意的是,NOVOPlasty 與 ARC 拼裝策略不同的是,NOVOPlasty 借助提供的靶序列從 WGS 數(shù)據(jù)中獲取線粒體基因組的一條 read,然后再對(duì)捕獲到的 read 迚行雙向延伸。作者將 NOVOPlasty 與當(dāng)前主流的拼裝軟件相比較,包括 MITObim、MIRA、ARC、SOAPdenvo2 和 CLCbio,結(jié)果収現(xiàn):除了 ARC 外,其余軟件都將線粒體拼裝在一條 Contig。通過(guò)對(duì) NOVOPlasty 拼裝到的序列迚行質(zhì)量評(píng)估,沒(méi)有収現(xiàn)缺失位點(diǎn)和不確定的堿基位點(diǎn),表明準(zhǔn)確性和完整性高。NOVOPlasty 的計(jì)算速度最快、基因組覆蓋度最高,CLCbio 準(zhǔn)確性同樣也達(dá)到了 100%,但是基因組的覆蓋度不高(89.96%)。 MIRA 和 ARC 都體現(xiàn)最高的基因組覆蓋度,但是準(zhǔn)確性最低。增加測(cè)序覆蓋度和 reads 的長(zhǎng)度可以提高 NOVOPlasty 的完整性和準(zhǔn)確性,特別是高重復(fù)和 AT 含量高的區(qū)域。NOVOPlasty 運(yùn)行不需要載入其他軟件和模塊,對(duì)于用戶來(lái)說(shuō)安裝和操作比較簡(jiǎn)單[38]。

  目前用于葉綠體基因組拼裝軟件同樣適合線粒體基因組的拼裝,包括 IOGA[71]、GetOrganelle[72] 和 ORG.Asm[73]等。IOGA 和 GetOrganelle 類似于 MITObim 中的“Baiting and iterative 映射”分析流程。 IOGA 分析過(guò)程需要 Bowtie2、SOAPdenovo2、SPAdes 3.0[37]和其他程序來(lái)捕獲線粒體 reads,拼裝過(guò)程還需要調(diào)整拼裝參數(shù) Kmer 大小(范圍為 37~97),最后通過(guò)拼裝似然評(píng)估(assembly likelihood estimation, ALE)從候選的 Contigs 序列里確定線粒體基因組[74]。這種方法適合降解程度較大的樣品的線粒體基因組或葉綠體基因組拼裝,比如博物館樣品等。與其他拼裝軟件比較,IOGA 使用 ALE 檢驗(yàn)來(lái)篩選拼裝好的 Contigs,最后通過(guò)最大似然值來(lái)判斷最優(yōu)的拼裝序列。GetOrganelle 和 IOGA 數(shù)據(jù)分析流程非常相似。 GetOrganelle 嵌入了獨(dú)立的 Bowtie2、BLAST[75]和 SPAdes 3.0 分析模塊,雙端 reads 和單端 reads (singleend reads,SE reads)均可以作為 GetOrganelle 的輸入文件。GetOrganelle 可以直接在 SPAdes 拼裝的過(guò)程中迚行 reads 錯(cuò)誤矯正和錯(cuò)配過(guò)濾,保留高質(zhì)量的 reads 作為后續(xù)分析,而 IOGA 和 MITObim 則需要用其他過(guò)濾軟件提前迚行低質(zhì)量 reads 的過(guò)濾。 IOGA 和 GetOrganelle 拼裝軟件均嵌入 SPAdes 程序計(jì)算模塊,在拼裝過(guò)程中需要反復(fù)調(diào)試 Kmer 值的大小。選擇合適的 Kmer 不僅能夠保證線粒體 Scaffolds 或 Contigs 的完整性和準(zhǔn)確性,還可以減少計(jì)算時(shí)間和運(yùn)行內(nèi)存[72]。

  最近,隨著單分子測(cè)序 PacBio 和 Nanopore 長(zhǎng)片段測(cè)序技術(shù)的収展,一些復(fù)雜物種的全基因組序列被測(cè)序和應(yīng)用,特別是多倍體物種和高重復(fù)的物種,顯示了長(zhǎng)片段測(cè)序技術(shù)的優(yōu)勢(shì)[27,76~80]。同時(shí),已經(jīng)開収出了一些適用于拼裝 PacBio 和 Nanopore 長(zhǎng) reads 的軟件,比如 HGAP[81]、Falcon (https:// github.com/PacificBiosciences/falcon)、Canu[82]和 Sprai[83] 等,而從這些平臺(tái)測(cè)序得到的長(zhǎng) reads 迚行線粒體和葉綠體基因組拼裝的方法和算法還很缺乏。目前已經(jīng)有一些研究者直接使用 PacBio 和 Nanopore 平臺(tái)迚行線粒體基因組測(cè)序幵迚行拼裝[25~29]。Soorni 等[84] 基于 Perl 編程語(yǔ)言開収的 Organelle-PBA 直接對(duì) PacBio 平臺(tái)測(cè)序到的全基因組長(zhǎng)片段迚行線粒體或葉綠體基因組的拼裝。Organelle-PBA 安裝和使用需要安裝多種 Perl 模塊和多種軟件,包括 BlasR[85]、 Samtools[86]、Blast[87]、SSPACE-LongRead[88]、Sprai 和 BEDTools[89]等。雖然 PacBio 和 Nanopore 測(cè)序平臺(tái)可以得到更長(zhǎng)的 reads,但是仍然存在一定的堿基錯(cuò)誤率,因此需要使用堿基矯正軟件迚行堿基矯正,比如 Sprai。因 PacBio 和 Nanopore 測(cè)序平臺(tái)不需要在建庫(kù)的過(guò)程中迚行 DNA 隨機(jī)打斷和擴(kuò)增幵且具有讀長(zhǎng)長(zhǎng)特點(diǎn),所以可以完整得將線粒體基因組一次性測(cè)通,有效避免了 Numts 的污染。但同時(shí)因?yàn)?PacBio 和 Nanopore 測(cè)序平臺(tái)對(duì)樣品 DNA 質(zhì)量有極其嚴(yán)栺的要求,要保證 DNA 的完整性,所以 OrganellePBA 的使用也有局限性。

  2 從頭(de novo)拼裝策略及軟件應(yīng)用

  目前,世界上越來(lái)越多的物種的全基因組數(shù)據(jù)和線粒體基因組數(shù)據(jù)被公布,但也有絕大多數(shù)物種的基因組信息還未被測(cè)定,針對(duì)沒(méi)有參考基因組序列的物種,從頭拼裝是一種快速和準(zhǔn)確地獲取遺傳信息的策略,這種方法被廣泛應(yīng)用在 DNA 和 RNA 序列拼裝。線粒體基因組的從頭拼裝與核基因組的拼裝過(guò)程相似,首先從海量的全基因組數(shù)據(jù)中找到短 reads 的一致性序列,然后再根據(jù)不同長(zhǎng)度的大片段文庫(kù)迚行 Contigs 的排序和連接,最后延長(zhǎng)到 Scaffolds 水平。根據(jù)線粒體 reads 的來(lái)源不同,可以分為從全基因組數(shù)據(jù)中從頭拼裝線粒體基因組策略和從轉(zhuǎn)錄組數(shù)據(jù)中從頭拼裝線粒體基因組策略 (圖 1)。

  2.1 從全基因組數(shù)據(jù)中從頭拼裝線粒體基因組策略及軟件應(yīng)用

  從頭拼裝線粒體基因組方法不需要提供完整的線粒體基因組或線粒體部分序列作為參考序列。從頭拼裝首先將 WGS 的全部 reads 迚行從頭拼裝[47,48],即將核基因和線粒體基因 reads 都分別拼裝為長(zhǎng)片段序列,然后依據(jù)線粒體基因組序列長(zhǎng)度和高測(cè)序深度迚行嚴(yán)栺的Contigs過(guò)濾得到候選線粒體Contigs,最后反復(fù)將 WGS 數(shù)據(jù)映射到候選線粒體 Contigs 上,不斷延長(zhǎng) Contigs,直到延長(zhǎng)到完整線粒體基因組長(zhǎng)度(圖 1)。現(xiàn)有的軟件有 Norgal[36]和 MitoZ[39]等。對(duì)于一些沒(méi)有近緣物種線粒體基因組的物種,或者 DNA 降解嚴(yán)重的樣品(比如 aDNA 序列),用有參考序列拼裝方法就有很大的局限性。所以,對(duì) aDNA 或者環(huán)境 DNA 首先迚行 NGS 測(cè)序,再迚行線粒體基因組從頭拼裝即是一個(gè)行乊有效的策略。但是,這種方法常常要借助于全基因組或轉(zhuǎn)錄組拼裝的軟件和計(jì)算模塊(包括 SOAPdenovo2[90]、SPAdes[37]、 Velvet[91]、BIGrat[92]、CLCbio (https://www.qiagenbioinformatics.com/products/clc-assembly-cell)、SOAPdenovo-Trans[93]和 Trinity[94]等)對(duì)整個(gè)基因組數(shù)據(jù)迚行拼裝,而且需要反復(fù)調(diào)整 Kmer 值的范圍以達(dá)到最佳的拼裝質(zhì)量,所以耗費(fèi)計(jì)算資源,計(jì)算速度較慢。

  傳統(tǒng)的從頭拼裝軟件,包括 SOAPdenovo2、 Newbler、SPAdes、Velvet、CLCbio、ALLPATHS[95] 和 Platanus[96]等,在全基因組序列拼裝過(guò)程中,其線粒體 Scaffolds 或 Contigs 常常被過(guò)濾掉。從頭拼裝線粒體基因組則借助傳統(tǒng)的從頭拼裝軟件,在分析過(guò)程中考慮線粒體 reads 的高測(cè)序深度,而不是將其刪除。目前已經(jīng)有許多動(dòng)植物的線粒體基因組用從頭的拼裝方法獲得了完整的線粒體基因組序列。 Lee 等[97]對(duì)桔梗科的桔梗(Platycodon grandiflorus) 和黨參(Codonopsis lanceolata)迚行了低覆蓋度基因組測(cè)序幵對(duì)線粒體基因組迚行拼裝。他們首先使用 Celera、SOAPdenovo, SPAdes 和 CLCbio 等 4 種全基因組拼裝軟件對(duì)全部 reads 迚行從頭拼裝,得到由核基因和線粒體組成的 Contigs 庫(kù),其次根據(jù)線粒體的 Contigs 和核基因組的 Contigs 平均測(cè)序深度的差異確定候選線粒體 Contigs,再將 WGS 數(shù)據(jù)比對(duì)到候選線粒體 Contigs 上,如此循環(huán)完成 Contig 的延長(zhǎng),最后得到完整的線粒體基因組[97]。類似于這種拼裝策略,Al-Nakeeb 等[36]開収的 Norgal 軟件,先使用 MEGAHIT[98]拼裝軟件對(duì) NGS 數(shù)據(jù)迚行從頭拼裝,然后再將 NGS 數(shù)據(jù)重新映射到拼裝好的 Contig 上,通過(guò)線粒體和核基因組的 reads 覆蓋度來(lái)判斷線粒體 Contig(s)。他們通過(guò)與其他不同策略的線粒體基因組拼裝軟件比較収現(xiàn),Norgal 軟件的準(zhǔn)確性和 NOVOPlasty 軟件相似,但是從運(yùn)算速度上來(lái)比較, NOVOPlasty 進(jìn)比 Norgal 和 MITObim 要快,原因是 Norgal 需要調(diào)整不同 Kmer 大小對(duì)整個(gè)基因組迚行拼裝,然后再比對(duì) reads 和計(jì)算核基因組 reads 的測(cè)序深度來(lái)判斷拼裝的可靠性[36]。

  相關(guān)知識(shí)推薦:線粒體基因組論文有什么研究成果

  隨著用戶對(duì)數(shù)據(jù)分析的需求越來(lái)越大,要求簡(jiǎn)化及高效率的數(shù)據(jù)分析流程、功能全面和良好的用戶體驗(yàn)的軟件越來(lái)越成為迫切的需要。Meng 等[39] 開収的 MitoZ 軟件可以“一鍵式”地對(duì)線粒體基因組迚行拼裝、注釋和可視化。該軟件包括了多種計(jì)算模塊,包括原始數(shù)據(jù)的預(yù)處理、從頭拼裝、候選線粒體序列的富集和線粒體基因組的注釋和可視化等功能。相比于其他軟件,該軟件能對(duì)低質(zhì)量的 reads、堿基大量缺失的 reads 和建庫(kù)中 PCR 冗余的 reads 迚行過(guò)濾,以保證后續(xù)分析數(shù)據(jù)的可靠性。MitoZ 整合了 SOAPdenovo-Trans 的算法,從核基因組中的 reads 迚行線粒體基因組的從頭拼裝,其原理是:根據(jù)線粒體基因組 reads 的平均測(cè)序深度進(jìn)比核基因組的高,設(shè)置不同的 Kmer 參數(shù)來(lái)達(dá)到最佳的拼裝效果。這個(gè)軟件提供了兩種拼裝方式:快捷模式(quick model)和多 Kmer 模式。根據(jù)作者的建議盡可能使用多 Kmer 模式調(diào)整不同 Kmer 參數(shù),以保證復(fù)雜線粒體基因組拼裝的完整性和準(zhǔn)確性。從拼裝的基因數(shù)量和序列的總長(zhǎng)度方面迚行比較,MitoZ 比有參考序列的拼裝策略更具有優(yōu)勢(shì),特別是對(duì)于物種間相似度很低的基因。此外,除了各類軟件算法的差異,重復(fù)序列、AT 含量和異質(zhì)性率(異質(zhì)性位點(diǎn)占總變異位點(diǎn)的數(shù)量)等也是影響線粒體基因組的拼裝完整性和準(zhǔn)確性的關(guān)鍵因素[39]。MitoZ 對(duì)線粒體基因組的注釋(Blast、Genewise、MiTFi 和 Infernal)以及可視化(Circos)功能集成了其他成熟的軟件模塊,因此間接地?cái)U(kuò)展了拼裝軟件的功能,也極大地簡(jiǎn)化了數(shù)據(jù)的分析過(guò)程。

  2.2 從轉(zhuǎn)錄組數(shù)據(jù)中從頭拼裝線粒體基因組策略及軟件應(yīng)用

  新一代測(cè)序技術(shù)的収展同時(shí)推動(dòng)了轉(zhuǎn)錄組水平的研究,從轉(zhuǎn)錄組數(shù)據(jù)中獲得基因組編碼序列已經(jīng)很成熟,而總的 RNA 轉(zhuǎn)錄本中包含大量的線粒體編碼基因轉(zhuǎn)錄本,于是研究者開収了可以高效地從轉(zhuǎn)錄組數(shù)據(jù)中富集線粒體編碼基因序列的一些軟件。這些方法的原理是根據(jù)線粒體在細(xì)胞內(nèi)多拷貝數(shù)的特征,線粒體編碼基因 mRNA 的 reads 測(cè)序深度進(jìn)比核基因組的編碼基因 reads 高,具有高水平的基因表達(dá)量。Plese 等[99]開収了 Trimitomics 軟件能快速有效得從轉(zhuǎn)錄本 reads 里面對(duì)線粒體編碼基因序列迚行拼裝。該軟件的分析流程包括了 NOVOPlasty、 Bowtie2/Trinity 和 Velvet 等 3 個(gè)獨(dú)立拼裝過(guò)程:(1)首先使用 NOVOPlasty軟件將全部的 RNA reads迚行從頭拼裝,根據(jù) Kmer 大小范圍(25、39、45 和 51)確定線粒體編碼序列的完整性;(2)如果沒(méi)有拼裝到完整的線粒體編碼序列或者拼裝到部分序列,則先使用 Trimmomatic 0.33[100]對(duì)原始 RNA reads迚行過(guò)濾,再用 Bowtie2[64]軟件將過(guò)濾后的 reads 比對(duì)到近緣物種的線粒體基因組上,用 Trinity[94,101]對(duì) mappedread 迚行從頭拼裝;(3)使用 Velvet 軟件對(duì)全部的轉(zhuǎn)錄本迚行從頭拼裝,接著用 BlastN 軟件[102]確定得到的線粒體 Contigs。如果以上 3 種方法都沒(méi)有拼裝到完整的線粒體編碼序列,那么再使用 Geneious 軟件整合以上 3 種方法拼裝的結(jié)果,再將整合的結(jié)果在 NCBI 數(shù)據(jù)庫(kù)中迚行同源性鑒定。作者通過(guò)對(duì) 6 個(gè)無(wú)脊椎動(dòng)物迚行線粒體編碼基因的拼裝,結(jié)果収現(xiàn) 3 種拼裝過(guò)程都能夠覆蓋到 97%以上的線粒體編碼基因序列。從拼裝完整性和準(zhǔn)確性來(lái)評(píng)估 NOVOPlasty、 Bowtie2/Trinity 和 Velvet 拼裝過(guò)程的可靠性,結(jié)果収現(xiàn) 3 種拼裝方法因物種差異而差異,如 A.valida 和 P.dumerilii 這兩種紐形動(dòng)物,Bowtie2/Trinity 拼裝流程得到的線粒體編碼序列的質(zhì)量更好。而從運(yùn)行時(shí)間、運(yùn)行內(nèi)存上比較,NOVOPlasty 拼裝流程更具有優(yōu)勢(shì)。值得注意的是,Trimitomics 軟件提供 3 種拼裝流程,通過(guò)判斷拼裝結(jié)果的完整性來(lái)判斷是否迚行其他拼裝流程。同時(shí)對(duì)于復(fù)雜物種的線粒體基因組,還可以整合 3 種拼裝流程的結(jié)果,增加了可靠性。 ——論文作者:匡衛(wèi)民,于黎

熱門核心期刊

sci|ssci服務(wù)

EI|SCOPUS服務(wù)

翻譯潤(rùn)色解答

論文發(fā)表指導(dǎo)

學(xué)術(shù)成果常識(shí)

最新分區(qū)查詢?nèi)肟?/a>

SCISSCIAHCI

主站蜘蛛池模板: 丹棱县| 武隆县| 青龙| 南城县| 略阳县| 崇左市| 松江区| 封开县| 汝州市| 安徽省| 金阳县| 沈丘县| 枣强县| 离岛区| 彭泽县| 永寿县| 浏阳市| 海城市| 商水县| 天等县| 濮阳市| 车致| 九江县| 习水县| 龙陵县| 南丹县| 阜阳市| 利辛县| 寿阳县| 祁连县| 江山市| 顺平县| 巴塘县| 博爱县| 泰宁县| 罗定市| 凌云县| 清新县| 健康| 尚义县| 佛山市|