新聞中心
NEWS
Unicycler 是一款專為細(xì)菌基因組設(shè)計(jì)的混合組裝工具,由 Ryan Wick 博士團(tuán)隊(duì)開發(fā)。它巧妙結(jié)合了二代測(cè)序中短讀長(zhǎng)(Illumina)的高準(zhǔn)確性與三代測(cè)序中長(zhǎng)讀長(zhǎng)(PacBio/Oxford Nanopore)的跨重復(fù)優(yōu)勢(shì),特別適用于高重復(fù)、高雜合或復(fù)雜結(jié)構(gòu)的微生物基因組組裝。同時(shí),它也是一款可以獨(dú)立完成二代測(cè)序基因組組裝、三代測(cè)序基因組組裝以及二三代測(cè)序數(shù)據(jù)混合組裝的優(yōu)秀生信軟件,下文將著重介紹二三代測(cè)序數(shù)據(jù)混合組裝。
相較于傳統(tǒng)組裝工具(如SPAdes、IDBA-UD),Unicycler 在解決細(xì)菌基因組中重復(fù)序列和質(zhì)粒環(huán)狀結(jié)構(gòu)時(shí)表現(xiàn)卓越,尤其適合單菌分離樣本或宏基因組分箱后的精細(xì)化組裝。

軟件功能亮點(diǎn)
1、混合組裝引擎
短讀長(zhǎng)糾錯(cuò):利用Illumina數(shù)據(jù)校正長(zhǎng)讀長(zhǎng)的測(cè)序錯(cuò)誤,提升組裝準(zhǔn)確性。
長(zhǎng)讀長(zhǎng)橋接:通過(guò)PacBio/Nanopore長(zhǎng)讀長(zhǎng)跨越重復(fù)區(qū)域,連接短讀長(zhǎng)無(wú)法覆蓋的斷裂區(qū)域。
2、自動(dòng)化流程整合
內(nèi)置Bowtie2比對(duì)與Pilon糾錯(cuò),支持從原始數(shù)據(jù)到最終環(huán)化基因組的全流程自動(dòng)化。
3、環(huán)狀結(jié)構(gòu)識(shí)別
自動(dòng)檢測(cè)染色體和質(zhì)粒的環(huán)狀結(jié)構(gòu),生成完整的閉環(huán)序列(若數(shù)據(jù)支持)。
4、靈活輸入支持
兼容Illumina雙端測(cè)序、PacBio CLR/CCS及Nanopore數(shù)據(jù),適應(yīng)不同實(shí)驗(yàn)設(shè)計(jì)需求。

算法核心解析
Unicycler 的算法設(shè)計(jì)融合了De Bruijn圖與字符串圖(String Graph)的優(yōu)勢(shì),分三階段實(shí)現(xiàn)高效組裝:
1、短讀長(zhǎng)糾錯(cuò)與初步組裝
De Bruijn圖構(gòu)建:將短讀長(zhǎng)拆分為k-mer,構(gòu)建圖結(jié)構(gòu),通過(guò)尋找歐拉路徑生成初始Contig。
錯(cuò)誤剔除:基于k-mer頻率和一致性過(guò)濾低覆蓋分支,避免測(cè)序噪聲干擾。
2、長(zhǎng)讀長(zhǎng)進(jìn)行的圖優(yōu)化
長(zhǎng)讀長(zhǎng)比對(duì)與糾錯(cuò):將長(zhǎng)讀長(zhǎng)比對(duì)至初始Contig,校正其測(cè)序錯(cuò)誤并填充缺口。
字符串圖構(gòu)建:基于長(zhǎng)讀長(zhǎng)的重疊關(guān)系構(gòu)建字符串圖,解決重復(fù)區(qū)域的路徑歧義。
3、路徑選擇與環(huán)化處理
啟發(fā)式搜索最優(yōu)路徑:結(jié)合讀長(zhǎng)覆蓋度和拓?fù)浣Y(jié)構(gòu)選擇最可能的路徑,生成線性或環(huán)狀Scaffold。
自動(dòng)環(huán)化檢測(cè):通過(guò)比對(duì)末端重疊識(shí)別環(huán)狀結(jié)構(gòu),輸出完整染色體/質(zhì)粒序列。

軟件安裝
Github官網(wǎng)上有提供相應(yīng)源碼,可直接下載安裝,下面提供一種安裝方案,可以安裝最新版的Unicycler。


實(shí)戰(zhàn)示例
案例背景:對(duì)一株耐藥性的大腸桿菌進(jìn)行基因組組裝,數(shù)據(jù)源包含illumina雙端測(cè)序(150bp)數(shù)據(jù)和Nanopore長(zhǎng)讀長(zhǎng)(N50=15kb)數(shù)據(jù)。
1、運(yùn)行命令

? -1/-2:illumina 雙端數(shù)據(jù)
? - l:長(zhǎng)讀長(zhǎng)數(shù)據(jù)
? - o:輸出目錄
2、輸出結(jié)果文件
? assembly.fasta: 最終組裝序列
? assembly.gfa: 組裝圖文件,可用Bandage軟件來(lái)可視化
? unicycler.log:詳細(xì)日志文件,可用于調(diào)試與性能評(píng)估

結(jié)果解讀與優(yōu)化策略
1、評(píng)估指標(biāo)
Contig N50:若N50接近基因組預(yù)期大?。ㄈ绱竽c桿菌~4.6Mb),表明組裝連貫性高。
環(huán)化比例:理想情況下,主染色體和質(zhì)粒應(yīng)標(biāo)記為環(huán)狀。
BUSCO完整性:使用細(xì)菌通用單拷貝基因集評(píng)估基因區(qū)域的完整性(目標(biāo)>95%)。
2、常見(jiàn)問(wèn)題與對(duì)策
碎片化Contig:增加長(zhǎng)讀長(zhǎng)數(shù)據(jù)中的覆蓋度或調(diào)整--min_kmer_coverage參數(shù)。
環(huán)化失?。簷z查長(zhǎng)讀長(zhǎng)是否跨越重復(fù)區(qū)域,或手動(dòng)使用Circlator等工具進(jìn)行補(bǔ)環(huán)。
嵌合體污染:結(jié)合參考基因組比對(duì)或基于覆蓋度差異篩選異常區(qū)域進(jìn)行后續(xù)分析。

結(jié)語(yǔ)
Unicycler 憑借其混合算法與自動(dòng)化設(shè)計(jì),已成為微生物基因組研究的標(biāo)桿工具。無(wú)論是臨床病原體溯源還是環(huán)境微生物挖掘,它都能提供高完整度、低錯(cuò)誤率的組裝結(jié)果。下一期我們將帶來(lái)Unicycler單獨(dú)進(jìn)行二代測(cè)序數(shù)據(jù)或者三代測(cè)序數(shù)據(jù)組裝的詳細(xì)介紹,敬請(qǐng)期待!