基因組作為生命信息的承載體,蘊含著每種生物的全部遺傳信息。近年來,隨著測序技術的不斷發(fā)展,基因組學研究已經逐漸成為一項非常重要的基礎研究,而自然界中每個物種的基因組都有望被成功破譯。為了能讓更多想要進行基因組項目的科研工作者都能有個初步了解,今天小編整理了一些常見問題,一起來看看吧!
Question01:為什么要構建基因組?
Answer:基因組表示的是一個物種內全部的遺傳信息,沒有參考基因組使得關鍵基因無法被挖掘,調控機理難以被解析,成為科研的掣肘。而早期構建的參考基因組質量往往較差,導致①組裝不完整,可能遺失相當多的基因片段,想要的基因因為未被組裝到而被錯失。②連續(xù)性較差,短片段較多,且不利于研究由較長片段形成的與功能相關的基因。③拼接準確性有偏差,較短的片段在拼接時易因序列重復導致排序錯誤,從而影響后續(xù)相關研究的順利進行。甚者,所研究品種與已發(fā)表參考不同使得研究受到阻礙①相同的種下不同的品種/品系/變種比對率低,可用數(shù)據少;②雌雄性別差異,公布只有單個性別,找不到性別相關區(qū)域。
Question02:基因組的組裝難易程度主要由哪些方面影響?
Answer:①基因組大小?;蚪M越大,對應的重復序列往往越豐富,導致拼接的難度越高;②雜合度與重復序列比例。相同大小的基因組下,雜合度和重復比例越高,基因組組裝的連續(xù)性和完整性會越低(高雜合的基因組往往無法合并姊妹染色體,導致組裝的結果偏大,雜合位點容易拼接斷裂使得連續(xù)性降低,而重復序列在組裝中會被折疊,使組裝中出現(xiàn)缺口、錯誤,導致組裝的結果偏?。?。因此通常會需要適當增加測序深度以覆蓋這些復雜的區(qū)域。③基因組的倍性和倍型。難易程度由易至難分別為:二倍體>異源多倍體>同源多倍體。
Question03:如何知道物種基因組大小?
Answer:①已發(fā)表過基因組的可通過NCBI網站查詢:https://www.ncbi.nlm.nih.gov/②未發(fā)表基因組的通過流式網站查詢:植物–https://cvalues.science.kew.org/?;動物:http://www.genomesize.com/③進行流式、survey(調研圖)進行分析
Question04:Survey是什么?可否不進行?
Answer:①Survey以二代測序技術為基礎,基于小片段文庫進行低深度測序,通過K-mer分析,快速獲得基因組大小、雜合度、重復序列比例等基本信息的研究方法。為制定該物種的全基因組de novo測序策略提供有效依據。②survey的二代數(shù)據具有糾錯和評估的重要作用,除非是已知基因組大小的單倍體等背景較為清晰的物種情況下,通過HiFi模式組裝,并且不需要做二代數(shù)據評估,可以考慮不進行,否則建議為必須進行。
Question05:為什么三代測序樣品要與二代survey測序樣品來自同一個個體?
Answer:①不同個體間會存在一定差異,若選材差異大可能會影響到三代測序策略的制定②二代數(shù)據需為Nanopore/Pacbio CLR模式基因組進行糾錯,避免因個體間序列差異影響糾錯效果③二代數(shù)據需回比組裝完成的基因組來評估該基因組組裝的完整性,避免因個體間序列差異降低比對率。
Question06:是否必須等Survey分析完之后才能啟動三代測序?
Answer:針對已知倍型倍性、已明確基因組大?。ㄍㄟ^流式等方式)或已經發(fā)表過同品種、近緣種材料的項目,可以同時啟動survey與三代測序,節(jié)約時間成本,使項目更快的推進。
若物種背景尚不完全明晰,需要先完成survey,再開展三代測序組裝。基于該物種基因組的大小、雜合及重復序列比例來制定合適的三代測序深度與數(shù)據量。
Question07:什么是HiFi測序?跟以前傳統(tǒng)的測序模式有什么區(qū)別?
Answer:目前PacBio Sequel II平臺可提供CLR library和HiFi library兩種模式,CLR文庫是傳統(tǒng)的組裝時構建的文庫類型,采用20 Kb、30 Kb等長片段類型的DNA進行文庫構建,獲得Subreads,單堿基準確率在85%左右,因此在基因組組裝前,需要通過canu等軟件進行數(shù)據糾錯后用于下一級應用。HiFi reads(High fidelity reads)是兼顧長讀長和高準確度的測序序列,即15Kb-20Kb片段文庫,進行單一片段多輪測序的方式來提升準確性,單堿基準確率可達99%。HiFi測序結合Hifiasm及HiCanu等軟件,可在較少的資源消耗下快速完成基因組的組裝,并保證結果的高準確性和連續(xù)性,尤其是對超大、超高雜合等復雜基因組具有明顯優(yōu)勢,同時也為高精度基因組注釋、變異檢測等應用提供了更有利的支持。
Question08:為什么PacBio HiFi測序只用幾十乘深度即可滿足分析需求
Question09:什么是染色體版本基因組?如何構建染色體水平的基因組?
Answer:染色體版基因組是指:將三代測序等方式拼接到的基因組序列分配至染色體組中,明確位置與方向向,使組裝的基因組達到染色體水平。常用的方式主要為Hi-C、遺傳圖譜或光學圖譜。
Question10:為何使用Hi-C進行染色體的掛載?其原理是什么
Answer:Hi-C技術將線性距離遠、空間結構近的DNA片段進行交聯(lián)富集后Pair-end測序,根據同一條染色體上的染色質片段互作頻率更高,不同染色體間的互作頻率較低的特點,推導出基因組的三維空間結構和基因之間可能的調控關系。利用Hi-C測序數(shù)據將Draft genome序列進行染色體群組的劃分,并確定各序列在染色體上的順序和方向,使基因組組裝組裝水平提升到染色體水平。
與其他技術相比,Hi-C具有以下優(yōu)點,因此具有更廣闊的發(fā)展①無需群體,單個個體就能實現(xiàn)染色體掛載;②標記密度更大,錨定染色體效率高,掛載率≥90%;③可以對已組裝的基因組進行糾錯;④分析周期短,準確性高
Question11:哪些參數(shù)可以評估構建的基因組?
Answer:①基因組大小及連續(xù)性(N50):基因組組裝大小與調研圖一致、N50值越高越好。(通常contigN50值≥1Mb即可滿足絕大多數(shù)分析需求)②二代回比率:將二代高通量測序得到的短序列與組裝得到的基因組比對,通過統(tǒng)計比對率,可評估組裝基因組的完整性。③Busco/Cegma等數(shù)據庫評估:在組裝得到的基因組上查找軟件數(shù)據庫中的保守基因,通過找到的保守基因比例,評估基因組上基因組裝的完整性。④LAI評估,鑒定完整LTR-RTs占比。
Question12:為什么做基因組需要測RNA?還需要提供混組織的樣品?
Answer:在基因組組裝完之后需要對基因組的結構與功能進行預測與注釋。目前基因預測是從頭預測(基于結構)、同源預測(基于近緣物種)、轉錄組(基于表達基因)三部分結合進行研究,轉錄組所表達的即為最真實的情況,因此在基因預測的過程中具有重要的作用。而由于轉錄表達的時空特異性與組織特異性,為了獲得更全面的信息是需要進行多個組織部位混合檢測。
Question13:基因組做完之后可以開展什么研究?
Answer:基因組完成后可以進行比較基因組學分析,與近緣物種進行宏觀進化研究,其內容主要包括:(1)?基因家族聚類,分析特有、共有基因和基因家族;(2)?基因家族擴張收縮分析;(3)?系統(tǒng)發(fā)育樹的構建;(4)?物種分化時間推算;(5)LTR形成時間估算(一般為植物基因組的分析項);(6)全基因組復制事件(一般為植物基因組的分析項);(7)選擇壓力分析;(8)共線性分析。具體可見漲知識啦!比較基因組學研究那些事
尾聲
百邁客自2009年成立以來深耕于群體遺傳研究,同時具有近10年基因組分析經驗?,F(xiàn)已在基因組、Hi-C、遺傳圖譜等技術上擁有實驗+生信分析雙保障。并與國內外70余所科研單位在國際期刊合作發(fā)表500余篇高質量文章,累計影響因子3000+。若您也對基因學研究感興趣,或是還有其他問題想進一步的了解,可以聯(lián)系當?shù)劁N售經理或致電400-600-3186
百邁客特在年末之際,推出多項優(yōu)惠活動,助力科研!