作者:林志鵬 /有勁生物科技 

 

自2000年6月26日,美國總統柯林頓與英國首相布萊爾共同宣布人類基因組計劃 (Human Genome Project, HGP)工作草圖完成後,人類的染色體序列至今依然持續進行改版。這其中原因包含了:1. 人類的基因體中仍有許多的區域尚未獲得定序結果、2. 定序資料有誤以及 3. 註解資料的更新修正。無法獲得定序結果的原因主要來自於染色體的重複序列:例如染色體的中心區域 (centromere)及染色體末端區域 (telomere)就含有大量重複DNA序列。此種序列受到現今的定序技術限制,無法進行精確定序。此外,人類好幾個染色體區域,在不同人之間會出現一定程度的變異性,例如MHC region。這些區域序列是無法使用單一標準序列來代表。因此每當定序技術有所改進或是註解資料有所更新,人類的染色體序列便會持續進行改版。

 

當我們完成一個關於人類染色體的定序後 (全基因體定序 whole genome sequencing、全外顯子定序 whole exome sequencing、目標區域定序 target sequencing),下一步就是進行定序資料與人類參考序列之間的比對,找出實驗樣品與參考序列之間的差異。要選擇適合的人類參考序列,我們必須考量本次分析內容是否需要與過往的資料一致以及目前軟體分析方法的設定,因此人類參考序列版本不一定越新越好。

 

做為一個現今大家最關心的物種(?),人類的參考序列的版本相當多。其中大家最常見到的就是 Genome Reference Consortium (此聯盟包含 The Wellcome Trust Sanger Institute, The McDonnell Genome Institute at Washington University, The European Bioinformatics Institute, The National Center for Biotechnology Information),此版本的發佈日期為2009年2月,為現今最流行的版本。同時,UCSC Genome Browser也在他們的網站上依據此版本發佈了 hg19。許多人往往認為這兩個版本是一模一樣的,但是其實兩者依然有所差異,如下述,

 

相同處:

  • 1. main assembly (主要的染色體,例如:染色體1號、染色體2號….)
  • 2. unlocalized sequences (知道是來自於哪個染色體,但是不知道是在染色體的哪個位置)
  • 3. unplaced sequences (不知道是來自於哪個染色體)
  • 4. alternate sequences (染色體上有某些區域因為具有高度的變異性,使得無法用單一參考序列代表)

 

相異處:

  • 1. 序列命名:GRCh37在主要的染色體上的命名方式為 1, 2, 3, 4, ….X, Y, MT。hg19的命名則為 chr1, chr2, chr3, chr4, …..chrX, chrY, chrM。除此之外,在unlocalized sequences、unplaced sequences以及 alternate sequences的命名也有所不同。
  • 2. 粒線體:這是兩者最大的差異,並且會導致錯誤的分析結果GRCh37的粒線體在RefSeq的版本為 NC_012920,而hg19的粒線體版本則為 NC_001807。意即hg19的粒線體序列為舊版。因此兩者在序列內容上是有差異的。

 

2013年12月,Genome Reference Consortium (GRC)發佈了人類染色體第38版本 (GRCh38),而UCSC Genome Browser 為了避免過往版本號碼不一致 (GRCh37 vs. hg19)而造成混淆,變將其版本號碼跳動至hg38。至此,兩者的序列內容達到完全一致,不過序列命名上依然還是使用各自的規則。

 

參考資料:

1.《Human Genome Browser - Hg19 Assembly.》 2017, UCSC, Genome Browser Gateway. (http://genome-asia.ucsc.edu/cgi-bin/hgGateway?db=hg19)

2.《Assembly Terminology》NCBI, Genome Reference Consortium (https://www.ncbi.nlm.nih.gov/grc/help/definitions)

 

 

 

官網用CC創用_SA.png

arrow
arrow

    Yourgene Health 發表在 痞客邦 留言(0) 人氣()