一個物種不僅需要高質量的基因組序列信息,同時還需要高準確的基因注釋信息,這是后基因組時代功能基因組學研究的基礎,因而進行高質量的基因注釋顯得尤為重要。
一、真核生物基因結構及注釋方式
真核生物基因在結構分為外顯子和內含子,在轉錄過程中會修剪內含子,并拼合外顯子最后形成轉錄本。正是由于這種剪切形式的存在,造成了真核生物基因可以采用不同的剪接形式(可變剪接),形成不同的轉錄本,從而發(fā)揮更加廣泛且精準的作用,這也導致了真核生物基因結構注釋難度較大。另外基因組中大量非編碼區(qū)域的存在也嚴重影響基因的定位,造成精準注釋的困難!
圖1 真核生物基因結構[1]
(1)同源預測(homology-based prediction):目前已發(fā)表大量基因組,可以利用物種間基因序列較好的保守性,使用已有的高質量近緣物種注釋信息通過序列聯配的方式確定外顯子邊界和剪切位點。目前常用的軟件有GeneWise、GeMoMa等,GeMoMa預測效果較好。
(2)從頭預測(de novo prediction):通過已有的基因特征訓練模型來預測基因結構,一般預測基因數量較多,準確性較低,但在有好的訓練集條件下,如有全長轉錄本提供訓練集和預測證據,也能取得很好的效果。常用的軟件有AUGUSTUS、GlimmerHMM、SNAP、GeneID、GenCsan等。
(3)基于轉錄組預測(transcriptome-based prediction):指通過物種各個組織混合的RNA-seq和三代全長轉錄本數據數據來輔助預測。由于轉錄組這種數據是轉錄本結構的直接反應,因而利用此種類型數據,可以比較真實準確的確定外顯子區(qū)域和剪切位點,在基因預測三種策略中屬于可靠性最高的策略。常用的軟件有PASA、TransDecoder、GeneMarkS-T等。
總之三種方法各有優(yōu)劣,如同源預測受限于近緣物種注釋質量,但在近緣物種注釋質量較高的前提下可以實現大多數基因的準確注釋;從頭預測,預測基因數量多,但完整度好,不容易丟失一些基因,尤其是在近緣物種中沒有的新基因,但其不可避免引入一些假的預測結果;轉錄組預測,準確度最高,但由于表達的基因一般也就只有60%~70%左右,所以檢測到的基因數量有限。故最后一般要用EvidenceModeler(EVM)等工具進行三種預測策略的整合,再進行后續(xù)的蛋白功能域、代謝通路等的注釋。
圖2 從頭預測、基于轉錄組預測及同源預測基因結構展示[2]
二、二代轉錄組和三代全長轉錄組在基因預測中對比
二代轉錄組測序技術,通常打斷成小片段進行測序,后期通過對小片段組裝(如采用Tirnity軟件),獲取相對完整的轉錄本。但是由于測序片段較短可能會存在組裝錯誤或者組裝不完整,導致不能準確獲得完整轉錄本,進而對基因預測的完整性和準確性產生嚴重的影響。
01 獲得準確的完整轉錄本
基于三代測序平臺可以直接獲取轉錄本的5ˊ到3ˊ高質量全長序列,無需組裝,一條read即可跨越全長轉錄本,因此通過將read比對基因組就能夠非常容易的確定基因在基因組上的位置和其完整結構,因而非常有利于基因的注釋工作,且準確性較高(參見下圖以水稻一個基因為例)。
?圖3?三種數據比對基因組結果
圖3中最下方為參考轉錄本結構,可見三代平臺均實現一條read覆蓋,且存在多條read同時支持,二代平臺則由眾多短read組成,后續(xù)組裝需借助算法才能組裝到完整轉錄本,存在不確定性。
02獲得準確的可變剪接
在可變剪接方面,三代全長測序結果可以捕獲更多、更準的、不同可變剪切形成的轉錄本,如圖4顯示,Exon2和Exon6以及Exon9是三個轉錄本間共享,二代多數短read單條連一個外顯子區(qū)都無法跨越,對于完全比對到這3個外顯子區(qū)的短reads無法區(qū)分其來源轉錄本。而Nanopore長讀長測序可以直接得到3種全長轉錄本,因此對于轉錄本可變剪接識別更準確。
圖4 ?二代轉錄組與ONT全長轉錄組識別可變剪接
三、Nanopore在三代全長轉錄組輔助基因預測中的優(yōu)勢
01數據及成本更親和
長度長在轉錄本分析方面比短讀長測序技術有明顯的優(yōu)勢。PacBio平臺由于測序原理限制,一個ZMW孔只能循環(huán)測序一個分子,加上芯片中 ZMW 孔數限制,需要較大的數據量以及更多的測序芯片才能達到飽和,成本相對較高。Nanopore測序原理使得在一個分子穿越納米孔后其他分子還可繼續(xù)穿行,更少的數據量可以獲得更多的信息,因此成本也更加親和。百邁客研發(fā)團隊將相同物種不同平臺的結果進行比較發(fā)現,當預測到數量近似相等的高準確的基因時,PacBio平臺所需轉錄組數據量遠遠多于Nanopore(表1)。
表1 不同物種PacBio與Nanopore獲取相近高準確基因數量時對應所需數據量
注:基因數:identity和coverage均大于90時的高準確基因數
02準確性具有保障
三代測序的錯誤率太高,會不會對結果有影響呢?目前Nanopore下機數據準確率已經可以到90%,即堿基平均錯誤率為10^(-1)=10%左右,完全可以將read準確的回帖到參考基因組中的,因此不會出現錯誤比對的情況。唯一需要解決的是可變剪接位點比對位置的準確性,目前我們基于自己開發(fā)的軟件NanoGAP,借助于二代RNA-seq數據、自身ONT數據及其他方法預測結果,共同糾正轉錄本剪接位點,實現了在小數據量情況下與PB CCS模式下同等的準確性(見表1及圖5)!
圖5?NanoGAP預測結果示意圖
圖5中分別展示了RNA-seq和ONT原始數據比對結果,參考基因的結構和經過NanoGAP糾正和聚類后此位置轉錄本的結構。其中NanoGAP預測到的ONT final Alt1轉錄本,其結構與參考基因結構完全一樣,證明我們采ONT數據進行預測的高準確性。同時NanoGAP預測到的一個新的可變剪接ONT final Alt2,表明擁有更長讀長的ONT在獲取可變剪接方面存在一定優(yōu)勢。
03物種與數據量需求
進行基因的預測,不同于有參條件下進行基因的表達定量。由于三代測序存在一定的錯誤率,所以我們需要通過增加數據量實現對轉錄本的糾正,進而獲得高質量的轉錄本,用于基因的輔助預測。那么多少數據量適合呢?不同的物種的需求是否不同呢?百邁客研發(fā)團隊抱著這樣的疑問進行了多輪多物種Nanopore數據檢測,研究結果顯示不同物種具有數據量需求差異,在5-20 Gb時隨著數據量的增加,預測到的高準確基因數迅速上升,部分物種在10G左右預測到的高準確基因數量可以達到最大,在數據到20 Gb左右時,絕大多數物種已達到高準確基因覆蓋度飽和。而多倍體物種在20-30 Gb時,高準確基因覆蓋度基本達到最大。
04具有拓展應用
組織差異越大,基因的表達差異通常也越大,因此基于轉錄組預測的方式需要多組織進行混樣分析以獲得更全面的基因信息。與PB相比ONT還具有無GC含量和堿基偏好性、轉錄本表達定量準確的特性,在混合數據應用于注釋分析前,可以用作多組織/多處理下的表達差異分析。實現樣本一次檢測多種分析,完成數據最大利用率,也為文章添光增彩。
四、案例分析
研究者分別用二代與三代全長轉錄測序對錫蘭鉤口線蟲(Ancylostoma ceylanicum)基因結構預測,研究發(fā)現三代全長測序與二代測序相比的一個顯著特點是UTR的數量和長度增加,尤其是3’UTR,帶有3’UTR和5’UTR的基因數量分別增加了5倍和3倍。研究結果說明了長讀長在定義基因UTR和因此更完整的ORF方面的優(yōu)勢。而研究表明UTR區(qū)域與真核生物中基因表達調控的復雜性相關,進一步說明了全長測序在基因發(fā)現和識別基因邊界方面的重要性[3]。
圖6 (A)3’UTR和(B)5’UTR的全長和RNA-seq之間UTR長度的差異
進一步的基因鑒定結果顯示,基于二代轉錄本的BLASTX(紅色)和protein2genome(藍色)預測了一個短基因模型,但是全長轉錄序列(綠色)擴展了現有的基因,并預測了一個新的基因[3]。除此之外,研究者通過三代全長技術共鑒定1609個(9.2%)新基因,表明了全長轉錄組的加入使基因注釋更豐富。
圖7 二代與三代基因結構預測結果比較
五、尾聲
綜上所述,我們不難發(fā)現:全長轉錄組輔助基因預測與二代技術相比具有
①三代技術直接得到全長轉錄本,無需組裝,結果更可靠,基因定位和結構注釋更加準確;
②轉錄本可變剪接識別更加容易,結果也更加可靠
③轉錄本的5’和3’端覆蓋更均勻、完整,基因的UTR(非翻譯區(qū))定位更加精準等優(yōu)勢;
而三代測序中,Nanopore與PacBio相比,又具有低數據量飽和的優(yōu)勢(大多數物種20 Gb基本可以達到飽和及分析需求),低成本高收益的方式為科研之路提供了新的方向。
(1)全長轉錄組提升玉米基因組注釋(Li C?et al., Nature Communications.2020):
(2)ONT輔助金線鯔魚轉錄組注釋統(tǒng)計(Kadobianskyi M et al., Scientific Data.2019):
如果您對全長轉錄組測序技術感興趣,您可以點擊下方按鈕聯系我們,我們將免費為您設計文章思路方案。