狠狠色综合7777久夜色撩人Ⅰ,亚洲日本乱子伦XXXX,日韩高清在线观看播放,亚洲综合欧美综合,亚洲成AV 人片在线观看无码

 分類: 基因組測序
為什么要做調研圖
基因組測序現在已經成為生物學研究的一個重要手段,基因組的雜合度和重復序列對后續(xù)基因組組裝有很大的影響。高雜合的基因組往往無法合并姊妹染色體,導致組裝的結果偏大,而重復序列在組裝中會被折疊,使組裝中出現缺口、錯誤,導致組裝的結果偏小。不同的生物體的基因組之間雜合率和重復序列含量差異巨大,因此在進行基因組測序前往往需要對基因組的特征進行調研,以確定測序方案,周期等。目前常用的調研手段有三種:
  1. 用流式細胞儀測定細胞核內的DNA總量
  2. 用核型分析方法,識別染色體數量、倍性
  3. 用調研圖,通過二代測序,估算基因組大小、雜合度、重復序列比例、GC含量等。
不同的技術手段有不同的側重,其中調研圖以低成本,低難度和更多的評估內容成為使用最多的技術手段,同時調研圖所測的二代數據還可以用于回比基因組,以評估組裝質量。
調研圖是基于數學統(tǒng)計學手段獲取物種信息的方式,因此對于已經研究的較為清晰的物種——主要是普通二倍體和簡單多倍體,其染色體條數、倍性、大概基因組大小是已知的,此時僅選擇調研圖就足以滿足了解基因組特征的需要,但對于多倍體復雜基因組更推薦補充核型分析和流式的結果,以和調研圖相互印證補充。
調研圖原理(二倍體調研圖為例)
評估基因組大小

調研圖最重要的用處是對基因組的大小進行估計。,對于沒有測序錯誤的理想情況下,用測序數據估算基因組大小可以按照這個公式:基因組大小=測序量/reads平均覆蓋深度。但由于測序錯誤的存在,較長的reads非常容易受到錯誤的影響,而將reads切碎為“長度為k的片段”,即k-mer,能大大減輕這個問題,因此調研圖繪制的是k-mer的深度-頻率分布圖。此時估算基因組大小的公式就變成了:基因組大小=正常kmer數量/k-mer平均覆蓋深度。因為錯誤總是隨機出現的,所以這里正常的k-mer數是過濾掉過低頻率的k-mer(即錯誤)后得到的數量。
在理想狀態(tài)下,K-mer曲線服從泊松分布,即只會出現一個明顯的主峰。但對于一個雜合二倍體,主峰前1/2出會出現一個雜合峰,在雜合度較高的時候可能出現高過主峰的情況。下圖即為一個高雜合二倍體kmer的頻率-深度分布圖。主峰后二倍位置內的峰為重復峰。但如果雜合度很低,可能分布圖中只有一個峰存在。主峰所代表的就是k-mer平均覆蓋深度,用主峰深度代替公式中的k-mer平均覆蓋深度即可算得該基因組的大小。

Figure 1,一個二倍體的kmer頻率-深度分布圖,橫軸為深度,縱軸為kmer出現的頻率,主峰位于深度100左右,雜合峰位于深度50左右
k-mer也并不是切的越小越好,過短的k-mer將無法保證多數k-mer在基因組中只出現一次,導致主峰深度估計偏大,而較長的k-mer具有跨越更長重復片段的能力,因此k-mer的選擇其實是一個平衡錯誤和重復的過程。通常k的選擇為15到21的奇數,既能夠保證k-mer的種類能覆蓋基因組,又足夠小以避免錯誤的影響?;蚪M中往往還存在一些重復序列,這些重復序列也會引起kmer的重復,但這些重復的存在雖然會削低主峰的高度,卻不會改變主峰的位置,上圖主峰后的小峰即為重復峰。
估雜合率和重復序列
前面已經提到了雜合率的高低對基因組的組裝有非常大的影響,那么如何計算基因組的雜合率和重復率呢?通常有兩種不同的方法,一種是直接計算峰的面積,即上圖中雜合峰和重復峰的面積占總面積的比例,從而估算出雜合率和重復率。另一種是通過模型擬合各個峰
genomescope21就是一個通過負二項分布擬合基因組k-mer分布來評估基因組特征的工具,其結果被普遍認可。以下圖為例,一個二倍體的genomeScope分析結果。
  • 藍色柱子是kmer的觀測值;
  • 橙紅色擬合線部分對應著深度過低的kmer,這些kmer被認為是測序錯誤引入的;
  • 黑色擬合線是除去被認為是錯誤的部分(橙紅色擬合線部分)之后剩下的所有k-mer,這些被認為是可靠的kmer數據;
  • 黃色擬合線被認為來自基因組非重復區(qū)域的K-mer分布;
  • 垂直的黑色虛線為預測最低深度峰的整數倍覆蓋度;

Figure 2一個二倍體的調研圖,橫軸是測序深度(覆蓋度),縱軸是k-mer出現的頻率,主峰位于100左右。
多倍體調研圖
多倍體又分為異源多倍體和同源多倍體,其調研圖的情況更為復雜。以四倍體為例,異源四倍體又被稱為雙二倍體,從k-mer分析的角度來說,其調研圖和二倍體并無太大差異。雖然如此,他們的染色體之間仍然存在一定的相似性,所以在主峰二倍的位置上往往存在一個小的凸起,這樣的凸起和高重復率的二倍體調研圖非常接近。如下圖是一個異源四倍體的調研圖:

Figure 3一個異源四倍體的調研圖,主峰位于212深度,三個峰的比例為1:2:4
同源四倍體的兩套亞基因組之間的區(qū)別比異源四倍體更為接近,體現在調研圖上就是在主峰的二倍位置處有一個明顯隆起的峰。如果存在一定的雜合率,調研圖上就會存在三個比例為1:2:4的峰,但如果基因組的雜合率很低,雜合峰不明顯,此時調研圖看起來和二倍體仍然非常接近。
不同的倍性對整套基因組的大小影響不大,所以面對多倍體時,調研圖的結果盡量同時結合流式細胞儀或者核型來判斷。對于雜合率約在0.5%~20%左右,重復序列不超過約40%的物種,也可以利用smudgeplot軟件1對雜合k-mer進行分析,得到可能的物種倍性,從而輔助基因組雜合率和重復序列的估計。
Smudgeplot通過尋找雜合k-mer來研究基因組的倍性,其定義的雜合k-mer對指的是一對k-mer之間只相差一個堿基,且沒有第三個k-mer與他們再相差一個堿基(如ATGATCA, ATGCTCA, ATGGTCA)。對于一個AB形式的雜合,smudgeplot試圖從所有k-mer中尋找一對雜合k-mer,而對于一個AAB形式的雜合,smudgeplot試圖尋找兩條相同的k-mer和一條它們的雜合k-mer,在圖中表示為更高的亮度。如下圖對一個四倍體的smudgeplot分析,可以明顯的看出AABB雜合模式附近的k-mer數量明顯高于其它k-mer,左上角也描述了這個結果。

Figure 4一個四倍體的smudgeplot分析結果,橫軸是雜合k-mer對的深度占總深度的比例,縱軸是所有k-mer對的總深度,二者的交點即代表了不同的雜合結構。交點的亮度代表了落入其中的k-mer數。
需要注意的是,調研圖一般需要50x以上的數據對基因組進行評估,在測序深度不足的情況下,調研圖可能無法很好的形成真正意義上的峰,此時好的選擇是加測數據,重新繪制調研圖進行評估。

[1] ?Ranallo-Benavidez, T.R., Jaron, K.S. & Schatz, M.C. GenomeScope 2.0 and Smudgeplot for reference-free profiling of polyploid genomes. Nat Commun?11,?1432 (2020).

最近文章