當我們需要記錄DNA、RNA和蛋白質的序列時,我們常用一種稱為FastA的檔案格式。其檔案範例如下:
>Annotation….
ATGCGGATCGATCGA
AAACCCTGA
TTTCGCGCAAAAAA
在這個範例裡,大於符號「>」即代表一條序列記錄的開始。而在大於符號「>」後面所有的文字,均用來代表針對這條序列的註解資料,註解資料沒有任何的限制,可以無限的一直擴充,但只要鍵盤一輸入「Enter」(換行符號)即代表註解結束。緊接著下面所有的文字均代表DNA、RNA或蛋白質序列,且在序列內容裡可以接受換行符號。
由於FastA是利用大於符號「>」來辨識每一條序列的記錄,因此我們可以在一個FastA的檔案裡,記錄超過一條以上的序列內容,其檔案範例如下:
>Sequence1, annotation1…..
ATCGTATCGGGAAATCTATCGATCAAAAA
AAAACCCGTGATCGATCGATCA
CGAGCGATCGATCGATTTT
>Sequence2, annotation2….
CCGCGCGCGCGGGGCCCCAAATCGACTAGCAGCTA
ATCTAGGGGACTTAGCGAGCCAAAA
AATTCGATCAGATCAAA
AAAAAAAAAAACGTTCGATTCGGGGATCGATACGATC
以上的範例即代表了兩條序列。
全站熱搜