現階段NGSmapping軟體裡,BWA可以說是相當知名的一個。在BWA aln裡有一個參數-n,其程式內部說明如下:

 

Options:

-n NUM    max #diff (int) or missing prob under 0.02 err rate (float) [0.04]

 

一般使用者可能會誤以為此參數代表「僅允許reads reference genom之間的差異為4%」,故假如想要進行更嚴格的mapping限制,有可能會將其值設定為0.01(1%)但根據筆者進行更深入的搜尋,所得到的正確敘述應該如下:

在服從波式分佈(poisson distribution)且在錯誤率(期望值)0.02的條件下

在機率高於0.04的條件下,最多可出現幾次mismatch

 

答案:read length100的條件下,最多為4mismatch

 

R裡,我們可以用以下指令去測試:

ppois($mismatch_no,lambda=$error_rate*$read_length, lower.tail=FALSE)

 

執行結果如下:

> ppois(2,lambda=0.02*100, lower.tail=FALSE)

[1] 0.3233236

> ppois(4,lambda=0.02*100, lower.tail=FALSE)

[1] 0.05265302

> ppois(5,lambda=0.02*100, lower.tail=FALSE)

[1] 0.01656361

 

從以上可知,原始設定0.04read length100的條件下,允許4mismatch。假如設定為0.01則變成允5mismatch了。故使用此參數需小心,以免發生預期外的錯誤。

 

 

 

 

Yourgene Bioscience 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()