作者:陳崇斌/有勁生物科技
近幾年定序技術的發展迅速,越來越多人使用次世代定序(NGS)進行基因檢測,試圖找尋個體中基因的變異,藉此來了解未來患病的風險或是患病的原因;如何詮釋基因上的變異,是當今最重要的課題之一;由下圖 (Fig. 1)預估的數值,在NGS的費用上,成長最多的有三項,分別是 Biological interpretation、Data Management與Experimental design;反之,定序所佔的比重下降許多,從百分之30下降到百分之5。簡而言之NGS是未來的趨勢,而Biological interpretation (詮釋)、Data Management與Experimental design又是趨勢中的趨勢,很難忽視其重要性。
Fig 1. NGS 費用所佔比重變化。 Source: Yale University; Frost & Sullivan
然而,在biological interpretation尚未有一個統一且適用性高的標準,因應這樣的情況,2013年美國醫學遺傳學暨基因體學學會(ACMG, American College of Medical Genetics and Genomics)與分子病理學學會(AMP, Association for Molecular Pathology AMP)探討如何解讀新一代的定序技術之基因檢測結果,並將其結論與建議,整理成" Standards and guidelines for the interpretation of sequence variants",並發表在2015年5月的《Genetics in Medicine》上,這個標準可運用在各類孟德爾遺傳的基因檢測項目上 (註1),並將其變異進行分類與結果詮釋。全文大約可以分為兩個部分,一個部分是所需要注意的事項,例如,文獻引用、data base 與predict software使用,第二個部分是判斷準則與計分方式,將變異點位的證據加成並權衡後,再將變異點位的類型分為Pathogenic(致病)、Likely pathogenic (可能致病)、Uncertain significance (不明確) 、Likely benign (可能良性)與Benign (良性)總共5種類型。這兩個部分相輔相成,判斷準則與記分方式必需要基於的一個部分的原則,才能夠有準確的判斷結果。
1. 變異點位標註準則
所有找到致病的變異需註明其遺傳方式,並依據人類基因變異學會Human Genome Variation Society (HGVS)對描述變異所立下的規範,來描述變異,例如,c.1521_1523delCTT,是代表在DNA序列第1521到1523的位置上的CTT發生了缺失 (del / deletion);除了缺失以外還有置換(substitutions),重複(duplications),插入(insertions),缺失/插入(deletion/insertions,indels),倒置(inversions),轉換(conversions),易位(translocations),一個基因或/和染色體上兩個或更多變異(two or more changes in one gene or/and chromosome),重複序列(repeated sequences),複雜變異(complex)等各種類型的變異。這部分細節可以參考 http://www.hgvs.org/mutnomen。
Reference geneome需參考國際標準基因組組裝序列,例如hg19,此外,參考序列建議採用以下資料來源,且須標註其版本。
(1) National Center for Biotechnology Information RefSeq database (http://www.ncbi.nlm.nih.gov/RefSeq/)
(2) Locus Reference Genomic database (http://www.lrg-sequence.org)
(3) Locus Reference Genomic
(4) Consensus CDS Database
(5) Human Gene Mutation Database (http://www.hgmd.cf.ac.uk)
(6) ClinVar (http://www.ncbi.nlm.nih.gov/clinvar)
2. 資料庫與文獻使用注意事項
現在訪間有許多資料庫 (table 1)與文獻可以提供我們進行資料的查詢,對於基因序列變異的註解,也需要透過這些資料庫或文獻,尤其資料庫讓我們在查詢資料時,有很大的便利,不用一篇一篇得去閱讀文獻,然而,在使用前須要特別留意資料庫是否適用;依據資料庫的用途可分為三類 (table 1),Population database (例如: 1000 genome project)、Disease database(例如:OMIM與HGMD)與Sequence database (例如:NCBI genome database)。
Population database可以提供人群中的變異頻率,這當中包含健康個體的變異與致病的變異,但是,無法提供以下資訊,此變異會影響的功能是甚麼?相對應的表現型又是甚麼?此外,在使用Population database時,還需要注意,是使用健康還是疾病群組的資料?資料中是否有多筆資料來自同一個家族?年齡的範圍?這些都會影響我們對變異點位的解讀。Disease database雖然可以提供與疾病相關的變異資訊,但是,由於常常沒有去確認其致病性的證據,尤其是在文獻資料上的確認,造成許多資訊的分類錯誤。在使用所有資料庫實都應該要留意以下幾點,
(1) 資料庫更新頻率與其支援管理的資訊。
(2) 是否使用HGVS命名,是否使用參考基因組組裝。
(3) 資料是否經過驗證,為了確認資料的品質,可能會需要去閱讀相關的文獻。
(4) 需確認資料的來源與獨立性。
而使用引用文獻時,要留意以下幾點,
(1) 使用舊時的命名和分類原則的文獻,且避免使用只基於一個觀察報告所下的結論。
(2) 需要留意確診患者的方式。
(3) 如果要拿多篇文獻作為多方的證據時,需要確認這些文獻與證據是獨立的,因為患者和相關個體或家族可能被多篇文獻報導,這樣會導致我們高估其變異頻率,可以藉由確認其文獻作者與研究單位,來降低高估變異頻率的狀況,這些文獻的作者很可能有重疊,或者有合作關係。
Table 1. 常見的database與其特性
3. 預測軟體 (Predict software)的使用
主要是預測變異所造成的影響,預測軟體大致可分為兩大類,一類是來預測是否missense變異而造成蛋白質的功能與結構改變,另一類是對splice site的影響做預測,如下所示(table 2)。建議採用多個軟體對序列變異進行解讀,因為不同的軟體有各自的優缺點。雖然這些預測軟體都有一定的準確度,然而,畢竟只是預測,不建議單憑預測的結果來做臨床論證。
Table 2. 常見的預測軟體 (Predict software)與其演算法類型
4. 詮釋解讀變異的標準
這個標準可運用在各類孟德爾遺傳的基因檢測項目上,並將其變異進行分類與結果詮釋。將變異點位的等級分為Pathogenic(致病)、Likely pathogenic (可能致病)、Uncertain significance (不明確) 、Likely benign (可能良性)與Benign (良性)總共5種。文中也有提及這份規範對於致病性(pathogenic)的變異點的判定標準會比較嚴格,許多被認為是致病性(pathogenic)的變異點,會因為證據並沒有很充分而被歸類為Uncertain significance (不明確),因為,一旦將某個變異點位判定為致病性(pathogenic),將會造成醫護人員對醫療策略的改變,因此,這部分需要比較謹慎。
此標準的使用方式,是偵測到的變異點後,去收集此變異點位相關的資訊,資訊的來源可包含Population Data、Computational and predictive data、Functional data、Segregation data、Allelic data等,再將收集到的資訊做證據類型的區分,證據類型可分為兩大類,致病性(Pathogenic)和良性(Benign)。
致病性的證據依照其強度可分為
(1) 非常強 (very strong),證據類型為PVS1。
(2) 強(strong),依據其不同的證據來源可分為PS1, PS2, PS3, PS4等4種。
(3) 中等(moderate),依據其不同的證據來源可分為PM1, PM2,PM3, PM4, PM5, PM6等6種 。
(4) 支持(supporting),依據其不同的證據來源可分為PP1, PP2, PP3, PP4, PP5等5種。
良性變異證據可分為
(1) 獨立(stand-alone),證據類型為BA1。
(2) 強(strong ),依據其不同的證據來源可又分為BS1, BS2, BS3, BS4等4種。
(3) 支持(supporting ) 依據其不同的證據來源可又分為BP1, BP2, BP3, BP4, BP5 BP6等6種。
如何將收集得的資訊來進行證據類型的區分,必須依照table 3(致病性的證據)與table 4(良性的證據)來執行,以PVS1為例,PVS1是致病性的證據分類中證據力最強的,因此,一定是會嚴重破壞基因功能的變異才會歸類在此,例如,nonsense變異、frameshift、splice site變異、initiation codon變異,單一exon或多個exon缺失…等。這類變異會造成基因完全無法進行轉錄,或者,雖然可以形成mRNA但是有nonsense mutation的存在,造成轉譯提早終結,因此對基因表現的影響也是最大的。然而,在對這些變異的影響程度進行評估時,還需留意以下幾點:
(1) 要歸納為致病的變異類型時,需要瞭解此變異是否有明確的致病機轉,以及是否與此疾病的遺傳模式相符。例如,有一些基因在heterozygous missense時引發疾病,反而heterozygous nonsense狀態時是不會引發疾病(例如,與肥厚型心肌病相關的基因),所以,如果在MYH7基因 (一個與肥厚型心肌病相關的基因)上檢測到一個新的heterozygous nonsense變異,不能單單因為nonsense變異,就將它歸類為致病的類型,然而,相同的狀況出現在CFTR基因上時,則會傾向將它歸為隱性的致病變異。
(2) 一般在文獻上,3’truncating變異一般是認為是屬於致病類型的變異,(由於變異導致RNA翻譯終止,而導致蛋白縮短)。如果預測的stop codon在最後一個exon或者在倒數第二個exon的最後50bp的範圍內,不會將其歸為nonsense變異,另外,此protein的表現機會是很高的;不過,這樣長度的截短蛋白也被歸類為致病,但是需要透過蛋白質的功能測試來驗證。
(3) splice site變異有可能會引起exone的遺漏(skip)、縮短、或者包含intron。雖然這一類變異是被預測為null variants的,但是,需要通過RNA或蛋白功能分析來確認其影響。此外,還要確認其是否為in frame deletion/ insertion,因為這類的變異有可能蛋白質仍然保有的關鍵domain,而對疾病不會有影響 。
其餘類型的證據在文中皆有相關規範,PS1-PS4等,在此就不在贅述。
Table 3致病性(Pathogenic)的證據類型分類原則
Table 4良性(Benign)的證據類型分類原則
將證據類型分類完成後,再依據Table 5來進行分數的統計並判定是其等級,Pathogenic致病、Likely pathogenic 可能致病、Uncertain significance不明確、Likely benign可能良性與Benign良性等,例如,某個變異點位,有一個PVS1和PS1的證據,則可判定為pathogenic。
Table 5 證據統計表
雖然ACMG與AMP集合了許多專家擬了這份標準,然而,這分標準目前只適用於孟德爾式的遺傳疾病,對於一些常見的複雜疾病,例如,第二型糖尿病、高血壓、癌症等,複雜疾病基因變異的分類是依據population data分析後的結果而定,經過大量的GWAS研究,已經獲得超過1200個常見複雜疾病的風險位點(risk allele)。大部分的變異點位不是座落在基因的區域,因此,還需要其他研究來確認是否為直接原因,例如,透過基因的調控而致病。即使是在高遺傳性的疾病中,風險位點也只能解釋10%的變異。因此,對這些變異分類方式,相較於使用"pathogenic",用"established risk allele","likely risk allele",或者"uncertain risk allele"來做區分會比較適當。
相較於複雜疾病,癌細胞的變異又更加的複雜,因為,allele frequency在不同樣本間差異程度很大,雖然,基因檢測有助於我們去選擇適合的治療方式,預測治療效果與預後生存率的評估,但是,需要了解檢測方法的限制與極限,尤其是在對陰性結果的判定需要更加留意,例如,多少allele frequency以下是偵測不到的,檢測範圍是哪些基因等,此外,還需要留意樣品腫瘤細胞的含量,"somatic variant"相對於 "germ-line variant" (本文中絕大多數的篇幅都是在說明germ-line variant),用"responsive ","resistant","driver和"passenger"來做區分會比較適當。要確認變異點是否為somatic variant則需要與個體本身的germ-line DNA序列資料比對後才能夠確認。總之,我們需要另外一套標準,來針對腫瘤檢體的基因檢測結果進行詮釋,這部分AMP已經開始著手進行制定相關的規範與準則。
對於基因檢測要實際運用在醫療上,除了仰賴資訊的更新與進展外,相關法規與規範,也需要完成,因此,美國歐巴馬總統推動的精準醫學計畫中,其實有部分的金費,就是要拿來制訂基因檢測相關的規範,正是因為基因檢測的用途廣泛,因此,無法用一套準則來去規範所有的檢測項目,對於單究基因變異詮釋的規範,至少就需要被區分為三類,孟德爾是遺傳疾病的基因檢測、複雜疾病的基因檢測、腫瘤基因檢測等,相信相關的準則會陸續被提出來,在基於嚴謹的準則下,才能夠有高度的醫療價值。
註1 : ACMG與AMP也評估其他的標準,例如,大腸癌、囊胞性纖維症等,然而這些變異準則只在特定條件下才適用,並不適用於所有類型的基因檢測。
參考文獻 : Standards and Guidelines for the Interpretation of Sequence Variants: A Joint Consensus Recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 2015 May;17(5):405-24.
留言列表