In precisionFDA Challenge, PacBio HiFi Reads Outperform Both Short Reads and Noisy Long Reads | PacBio

從 precisionFDA 真實挑戰賽,看看誰才是定序技術群雄裡的頂尖高手?

precisionFDA 真實挑戰賽是用來評比哪些定序技術與生物資訊分析策略,可以更加精確檢測出人類基因體序列變異的競賽。在今年五月舉辦的最新一屆 precisionFDA Truth Challenge V2 賽事中,Pacific Biosciences (PacBio) 公司的 HiFi 定序技術脫穎而出,無論是在全基因體、重複序列區域或 MHC 基因區域,皆具有最佳的變異檢測準確度與結果再現性。其中 PacBio HiFi 定序結果與 Google DeepVariant 分析軟體的組合,其檢測準確度不僅優於當前主流的 Illumina 定序結果與 GATK 分析軟體的組合,更遠勝過 Oxford Nanopore Technologies (ONT) 定序結果與 DeepVariant 分析軟體的組合。以下就讓我們帶您一同來了解比賽詳細內容與競賽結果。

precisionFDA 是由美國食品藥物管理局 (Food and drug administration, FDA) 因應美國前總統歐巴馬於 2015 年啟動「精準醫療 (Precision medicine) 計畫」所架設的基因體研究社群雲端分享平台。在這個平台中,來自全球各地的研究團隊可以自由分享序列資料與交流研究心得,並測試、評估、驗證自己所採用的分析策略與生物資訊軟體的效能與正確性。

隨著 precisionFDA 合作夥伴「瓶中基因體 (Genome in a Bottle, GIAB) 聯盟」即將釋出最新版本的 HG003 與 HG004 參照基因體序列變異資訊,precisionFDA 決定順勢於今年 5 月 1 日推出 precisionFDA Truth Challenge V2 挑戰賽。在這場賽事中,參賽者可以自由選用 precisionFDA 所提供的任一(或多個)序列資料參與比賽(序列資料來源分別來自 Illumina、PacBio HiFi 與 ONT 定序技術),並在 6 月 15 日截止時間前,將分析出的序列變異結果報告上傳至活動網頁。競賽結果則在 GIAB 釋出最新版本的 HG003 與 HG004 參照基因體序列變異資訊的隔日,即 2020 年 7 月 10 日公佈。

此次競賽總共收到 64 個分析結果報告(分別來自 20 組研究團隊)。在 64 個參賽報告中,檢測準確度最高的前 12 名優勝者全都使用了 PacBio HiFi 數據參與比賽,其中有 3 名是僅使用 PacBio HiFi 數據、而另 9 名則是聯合使用了 PacBio HiFi 與其他定序技術的數據;若是從排名前 26 名來看,近乎全體(25 名)採用 PacBio HiFi 數據。整體而言,使用 PacBio HiFi 數據可以達到最佳的基因序列變異檢測效果,特別是在重複序列或 MHC 基因等難檢測區域(圖 1)。

圖 1﹑precisionFDA Truth Challenge V2 挑戰賽所有前 12 名優勝者,全都使用 PacBio HiFi 數據進行分析,無論是單獨使用(粉紅色方塊)或是與其他定序技術數據一同使用(橘色方塊)。Overall submission rank varied by technology and stratification (F1 % for stratifications evaluated, higher is better). Data points represent submission performance for the three stratifications (difficult-to-map regions, all benchmark regions, MHC), and lines connect submissions. Category top performers are indicated by diamonds with "W". Generally, submissions that used multiple technologies (MULTI) outperformed single technology submissions for all three genomic context categories. IMAGE © precisionFDA.

若是將僅使用單一定序技術序列資料作為數據分析來源的檢測報告拉出來進行比較,以 PacBio HiFi 與 Google DeepVariant 分析軟體的組合具有最佳的全基因體序列變異檢測準確度(以此次競賽而言,專指單核苷酸變異 (Single-nucleotide variants, SNV) 與插入缺失變異 (Indels) 的檢測準確度)。PacBio HiFi 與 Google DeepVariant 的組合,比起當前主流的 Illumina 與 GATK 組合,在檢測錯誤數量上少了 5.8 倍,比 Illumina 與 DeepVariant 組合少了 2.5 倍、比 ONT 與 DeepVariant 組合少了 30.4 倍(圖 2)。您可以透過 PacBio 首席科學家 Aaron Wenger 所製作的精簡短片,更清晰快速地掌握 precisionFDA Truth Challenge V2 競賽結果。

圖 2﹑比較不同定序技術與演算軟體對於序列變異的檢測性能差異。結果顯示,PacBio 與 DeepVariant 的組合具有最佳的準確度,其檢測錯誤數量比 Illumina 與 GATK 的組合少了 5.8 倍,並遠低於 ONT 與 DeepVariant 的組合。Total errors – the sum of SNV and indel false positives (FP) and false negatives (FN) – in a DeepVariant callset from 35× PacBio HiFi read coverage (Sequel II System, Chemistry 2.0); a DeepVariant callset from 35× Illumina NovaSeq; a GATK 4 callset from 35× Illumina NovaSeq; and a PEPPER-DeepVariant callset from 60× ONT PromethION R9.4.1. Performance is measured with hap.py against the Genome in a Bottle small variant benchmark v4.2 used in the precisionFDA Truth Challenge V2. IMAGE © Pacific Biosciences.

關於 HiFi 定序技術

一般 HiFi 定序技術的序列讀取長度最長可達 25 kb,其序列準確度高達 >99.9%(亦即在 20 kb 左右的 HiFi 序列資料中,僅會出現 8 個鹼基錯誤)。然而是什麼讓 HiFi 定序技術能夠迥異於一般長讀取定序技術 (Long-read sequencing),在提供長讀取的同時,還能擁有近乎 NGS 等級的準確度呢?這個問題可以從 HiFi 定序技術運作原理裡找到解答(圖 3)。

圖 3﹑HiFi 定序技術運作原理。在進行 HiFi 定序時,待測 DNA 序列兩端會先銜接上一段序列 (Adapter) 使其形成環狀 DNA。透過 PacBio Sequel II 定序系統獨有的循環共識定序模式 (Circular consensus sequencing, CCS),讓待測 DNA 在定序過程中能夠被反覆測序。藉由比對反覆測序的序列結果,定序錯誤將可以得到修正,最終呈現出高準確度的定序結果。

HiFi 定序技術獨有的長讀取加上高準度特性,使其成為多項基因體研究計畫的核心技術,包含 All of Us Research Program、Darwin Tree of Life、Human Pangenome Reference Consortium、NHGRI Human Genome Reference Program、SOLVE-RD Project、Telomere-to-Telomere Consortium 等。

PacBio 線上全球高峰會議

若您想進一步了解 HiFi 定序技術,歡迎報名參加於 2020 年 11 月 17-18 日 (太平洋標準時間) 舉辦的【PacBio Virtual Global Summit 2020】。本活動集結了多位來自美國國家衛生研究院、華盛頓大學、威康信託基金會桑格研究所 (Wellcome Trust Sanger Institute)、HudsonAlpha 生物技術研究所 (HudsonAlpha Institute for Biotechnology)、Google 等知名基因體研究學者與生物資訊專家,您可以在此會議中了解 HiFi 定序技術的最新應用與進展、並與講員進行交流討論,機會難得歡迎踴躍參加。更多產品資訊與最新活動訊息,歡迎洽詢 PacBio 台灣代理 — 伯森生技。

伯森生物科技股份有限公司 前往 PacBio 官方網站

伯森生物科技(股)公司 Blossom Biotechnologies, Inc.
網址 www.blossombio.com 客服 0800-059668
[ 📝 線上留言諮詢 ] [ ☎ 伯森業務專員聯絡資訊 ]

加入伯森生技 Line 好友 (@blossom_biotech)  前往伯森生技 FB 粉絲專頁 (@blossombiotechnologies)