現階段NGS的mapping軟體裡,BWA可以說是相當知名的一個。在BWA aln裡有一個參數-n,其程式內部說明如下:
Options:
-n NUM max #diff (int) or missing prob under 0.02 err rate (float) [0.04]
一般使用者可能會誤以為此參數代表「僅允許reads 和reference genom之間的差異為4%」,故假如想要進行更嚴格的mapping限制,有可能會將其值設定為0.01(1%)。但根據筆者進行更深入的搜尋,所得到的正確敘述應該如下:
在服從波式分佈(poisson distribution)且在錯誤率(期望值)為0.02的條件下
在機率高於0.04的條件下,最多可出現幾次mismatch?
答案:在read length為100的條件下,最多為4個mismatch
在R裡,我們可以用以下指令去測試:
ppois($mismatch_no,lambda=$error_rate*$read_length, lower.tail=FALSE)
執行結果如下:
> ppois(2,lambda=0.02*100, lower.tail=FALSE)
[1] 0.3233236
> ppois(4,lambda=0.02*100, lower.tail=FALSE)
[1] 0.05265302
> ppois(5,lambda=0.02*100, lower.tail=FALSE)
[1] 0.01656361
從以上可知,原始設定0.04在read length為100的條件下,允許4個mismatch。假如設定為0.01則變成允許5個mismatch了。故使用此參數需小心,以免發生預期外的錯誤。