納米孔測(cè)序是一種由ONT(Oxford Nanopore Technology)研發(fā)的單分子測(cè)序技術(shù)。在轉(zhuǎn)錄組測(cè)序應(yīng)用中,相比于傳統(tǒng)二代RNA-Seq測(cè)序技術(shù),長(zhǎng)讀長(zhǎng)的納米孔R(shí)NA測(cè)序可以在無需打斷的條件下得到全長(zhǎng)序列并進(jìn)行定量,同時(shí)直接RNA測(cè)序還可以檢測(cè)多種堿基修飾,且測(cè)序無需擴(kuò)增,減少了PCR過程引入的堿基偏倚。
ONT測(cè)序技術(shù)在多個(gè)方面具有非常強(qiáng)悍的優(yōu)勢(shì),然而,一份合格的下機(jī)數(shù)據(jù)才是科研成功研究的基礎(chǔ),為保證得到準(zhǔn)確的轉(zhuǎn)錄組結(jié)構(gòu)分析和定量結(jié)果,需要對(duì)測(cè)序數(shù)據(jù)進(jìn)行嚴(yán)格的質(zhì)控評(píng)估。那么我們今天一起學(xué)習(xí)一下《Summary statistics and QC tutorial》,ONT官方提供的對(duì)測(cè)序raw?data進(jìn)行全面數(shù)據(jù)質(zhì)控的教程。
介紹
此教程適用于指導(dǎo)對(duì)單個(gè)nanopore測(cè)序芯片產(chǎn)出的數(shù)據(jù)進(jìn)行評(píng)估,評(píng)估的主要內(nèi)容如下所示:
1、測(cè)序產(chǎn)出(測(cè)序得到多少reads,多大數(shù)據(jù)量);
2、測(cè)序數(shù)據(jù)的質(zhì)量和長(zhǎng)度分布;
3、如果加入了barcode序列進(jìn)行混樣建庫(kù),測(cè)序數(shù)據(jù)在不同樣品的分布。
準(zhǔn)備
直接到教程的github頁(yè)面下載或通過git命令下載:
git clone https://github.com/nanoporetech/ont_tutorial_basicqc.git QCTutorial
后續(xù)分析會(huì)用到下載目錄QCTutorial下的以下內(nèi)容:
1) Nanopore_SumStatQC_Tutorial.Rmd:Rmarkdown文件,說明文檔和用于執(zhí)行分析。
2) RawData/lambda_sequencing_summary.txt.bz2:示例文件,Guppy對(duì)測(cè)序reads進(jìn)行堿基識(shí)別生成的相關(guān)信息文件。
3) RawData/lambda_barcoding_summary.txt.bz2:示例文件,用于區(qū)分混樣建庫(kù)時(shí)多樣品的barcode信息。
4) environment.yaml:指定分析所需軟件包及計(jì)算環(huán)境的文本文檔。
5) config.yaml:配置文件,用于指定分析所需的輸入。
2、創(chuàng)建Conda環(huán)境
為了方便執(zhí)行分析所需軟件包及其依賴的安裝及管理,需要安裝Conda并創(chuàng)建用于此分析的環(huán)境。
1)?Conda安裝(Python3版本的Miniconda):
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
bash
2)?創(chuàng)建Conda環(huán)境及環(huán)境激活(第1步中下載的environmen.yaml用于環(huán)境初始化):
創(chuàng)建環(huán)境:conda env create –name BasicQC –file environment.yaml
激活環(huán)境:source activate BasicQC
分析
進(jìn)行分析之前需先準(zhǔn)備配置文件,通過修改準(zhǔn)備步驟下載的config.yaml中相應(yīng)的參數(shù)來完成,需要修改的內(nèi)容主要有:
修改內(nèi)容 | 內(nèi)容說明 | 示例 |
---|---|---|
inputFile | 堿基識(shí)別的統(tǒng)計(jì)信息 | sequencing_summary.txt.bz2 |
barcodeFile | 混樣建庫(kù)的barcode信息 | barcoding_summary.txt.bz2 |
basecaller | 堿基識(shí)別工具 | Guppy 2.1.3 |
flowcellId | 測(cè)序芯片ID | FAK41706 |
注:如為單樣品測(cè)序無barcode信息,則barcodeFile部分為空。
準(zhǔn)備完成后,可以通過命令行啟動(dòng)分析,命令如下:
R –slave -e ‘rmarkdown::render(“Nanopore_SumStatQC_Tutorial.Rmd”, “html_document”)’
如果習(xí)慣圖形界面操作,也可以通過Rstudio載入Rmarkdown文件執(zhí)行分析:
結(jié)果
上述分析完成后會(huì)將分析結(jié)果存放至HTML文件,可用瀏覽器打開Nanopore_SumStatQC_Tutorial.html進(jìn)行查看。對(duì)單個(gè)芯片約1M reads分析的部分結(jié)果展示如下(結(jié)果來自教程,堿基識(shí)別使用Guppy 2.1.3,根據(jù)識(shí)別序列的平均質(zhì)量值將其分為pass和fail兩種,質(zhì)量值閾值默認(rèn)為7):
1、總結(jié)
展示了數(shù)據(jù)產(chǎn)出的總體情況(如下圖,本分析中堿基識(shí)別共產(chǎn)出991,715條序列,14.6G堿基)。
2、質(zhì)量長(zhǎng)度
此部分展示了對(duì)識(shí)別出的所有序列質(zhì)量和長(zhǎng)度信息的統(tǒng)計(jì)結(jié)果,包括序列的平均長(zhǎng)度,N50和平均質(zhì)量,序列長(zhǎng)度和質(zhì)量的密度分布等
3、測(cè)序表現(xiàn)
此部分內(nèi)容統(tǒng)計(jì)了隨測(cè)序時(shí)間變化,測(cè)序累計(jì)序列個(gè)數(shù),堿基個(gè)數(shù),測(cè)序速度和有效工作納米孔數(shù)等指標(biāo)的變化情況。
4、區(qū)分混樣
在加入barcode序列混樣測(cè)序的情況下,barcode識(shí)別區(qū)分的結(jié)果展示如下,包括barcode識(shí)別效率,區(qū)分的文庫(kù)個(gè)數(shù)及每個(gè)文庫(kù)中序列個(gè)數(shù)占比和長(zhǎng)度信息等。
上面展示了分析結(jié)果的部分內(nèi)容,更多細(xì)節(jié)的內(nèi)容可參考底部的相關(guān)鏈接。
rawdata的質(zhì)控評(píng)估只是整個(gè)信息分析的開始,是為了對(duì)測(cè)序數(shù)據(jù)有大致的整體認(rèn)識(shí),以便更好地指導(dǎo)后續(xù)分析。然而分析的每個(gè)環(huán)節(jié)都會(huì)對(duì)最終結(jié)果產(chǎn)生影響,因此每一步的處理都要深思熟慮。
小編寄語
2018年8月牛津納米孔公司與百邁客公司達(dá)成長(zhǎng)期合作,擁有MinION、GridION X5和PromethION三種型號(hào)全套納米孔測(cè)序儀。至今已積累了豐富的項(xiàng)目經(jīng)驗(yàn),全長(zhǎng)轉(zhuǎn)錄組成功案例先后發(fā)表在《Plant Biotechnol J》、《J Hazard Mater》、《Biotechnol Biofuels》、《Sci Rep》、《Fish & Shellfish Immunology》等國(guó)際知名期刊,已發(fā)表文章研究物種分別有楊樹、吳松草、風(fēng)箏果、甘薯、野生甘薯、兔子、跳甲、花羔紅點(diǎn)鮭和辣椒,覆蓋領(lǐng)域分別為林木、哺乳動(dòng)物、昆蟲、水產(chǎn)和作物等。
如您有任何全長(zhǎng)轉(zhuǎn)錄組等相關(guān)問題,歡迎點(diǎn)擊下方按鈕,我們將竭盡全力為您答疑、設(shè)計(jì)方案和提供高分成功案例等。
參考鏈接:
https@//github.com/nanoporetech/ont_tutorial_basicqc(@換成:)
https@//community.nanoporetech.com/knowledge/bioinformatics(@換成:)