Uzantı |
.fasta .fa |
---|---|
MIME türü | metin / düz |
Tarafından geliştirildi | William R. Pearson |
Biçim türü | Metin dosyası |
Menşei | FASTA program paketi |
Şartname | Açık format |
FAŞTA (veya Pearson ekran ) a, ekran arasında metin dosyası depolamak için kullanılan biyolojik sekansları , örneğin bir nükleik ya da protein . Bu diziler , IUPAC terminolojisine göre nükleik asitleri veya amino asitleri kodlayan bir dizi harfle temsil edilir . Her diziden önce bir ad ve açıklamalar gelebilir. Bu biçim kaynaklanan programların FAŞTA paketi nedeniyle yaygın kullanımına yol, ancak, bir haline gelmiştir fiili standart içinde biyoinformatik .
FASTA formatının basitliği, kelime işleme araçları ve Python , R , Ruby veya Perl gibi komut dosyası dillerinin kullanımı yoluyla dizileri işlemeyi ve okumayı (veya ayrıştırmayı ) kolaylaştırır .
FAŞTA formatındaki bir dosya, geleneksel olarak bir uzantı .fastaveya .fa.
FAŞTA formatı, FAŞTA programı için William R. Pearson tarafından geliştirilmiştir . Ancak kullanımı bu basit programın ötesinde benimsenmiş ve BLAST programı tarafından diğerleri arasında popüler hale getirilmiştir .
FAŞTA biçimi de biçiminde doğurmak için gelişmiştir fastq , FAŞTA ve kombinasyonu QUAL büyüklüğü , yaygın olarak alanında kullanılan sekanslama arasında DNA bant.
Bir FAŞTA dosyası en az iki satırdan oluşur. Satır 1, ">" işaretiyle başlayan diziyi ve hemen ardından sıra tanımlayıcısını ve tanımlayıcıdan bir boşlukla ayrılmış bir açıklamayı açıklar. ">" İşareti zorunludur ancak tanımlayıcı ve yorum isteğe bağlıdır, iyi biyoinformatik uygulamalarına ilişkin sorular için diziye en az bir tanımlayıcı eklenmesi şiddetle tavsiye edilse bile . Tanımlayıcı ve açıklama , satır sonunu kodlayanlar dışındaki kontrol karakterleri dışında herhangi bir karakter türünü içerebilir .
Satır 2, dizideki nükleik asitleri veya amino asitleri temsil eden harflerden oluşur . Bununla birlikte, bu çizginin maksimum uzunluğu 120 kalıntıdır: daha uzun herhangi bir dizi, birkaç satıra bölünmelidir. İlk DEC-VT ekran görüntüleriyle bağlantılı tarihsel nedenlerden ötürü , genellikle karşılaşılan bölme, o sırada izin verilen satır başına 80 karaktere karşılık gelen 80 karakterdir (okunması daha zor olan 132 moduna paralel olarak). 60 veya 70 karakterlik bölmeler de yaygın olarak kullanılmaktadır, ancak bu bölme aslında 120 karakterden daha az veya buna eşit herhangi bir karakter dizisi uzunluğu ile gerçekleştirilebilir . Sekans, IUPAC terminolojisine uymayan boşluklar, sekmeler veya karakterler içeriyorsa , bunlar dikkate alınmaz.
Dolayısıyla bir FAŞTA dosyası aşağıdaki biçimdedir (X'ler nükleik asitleri veya amino asitleri temsil eder):
>Identifiant Commentaire XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXFAŞTA formatı, ";" işaretinin kullanımını standartlaştırır. yorumlar için satırın başında (bu satırlar göz ardı edilmelidir).
Çok dizili veya çok girişli bir FASTA dosyası, tek bir yapıdaki (nükleik veya protein) birkaç diziyi içeren bir dosyadır ve her diziden önce tanımlama satırı bulunur. Bu dosya türü oluşturulabilir initio ab veya bir sonucu olabilir birleştirme bir veya daha fazla dizilerin oluşan FASTA dosyaları. Öncekiyle aynı biçimlendirmeye saygı duyar, bir dizinin sonu daha sonra başka bir dizinin tanımlama satırının başlangıcını belirten ">" işaretinin tekrar karşılaşmasıyla yorumlanır. Dosyaları daha kolay insan okuması için, dizinin sonu ile sonraki ">" işareti arasına boş bir satır eklemeniz önerilir.
İşte bir nükleik asit dizisi örneği:
>gi|373251181|ref|NG_001742.2| Mus musculus olfactory receptor GA_x5J8B7W2GLP-600-794 (LOC257854) pseudogène on chromosome 2 AGCCTGCCAAGCAAACTTCACTGGAGTGTGCGTAGCATGCTAGTAACTGCATCTGAATCTTTCAGCTGCT TGTTGGGCCTCTCACAAGGCAGAGTGTCTTCATGGGACTTTGATATTTATTTTTGTACAACCTAAGAGGA ACAAATCCTTTGACACTGACAAATTGGCTTCCATATTTTATACCTTAATCATCTCCATGTTGAATTCATT GATCAACAGTTTAAGAAAAAAAGATGTAAAAATGCTTTTAGAAAGAGAGGCAAAGTTATGCACAATAACT TCTCATGAAGTCACAGTTTGTTAAAAGTTGCCTTAGTTCACAATAAATAATTATGTATGCTCTATAATTT CAGTGAİşte bir protein dizisi örneği:
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY">" İşaretiyle başlayan tanımlama satırı, belirli bir diziye benzersiz bir tanımlayıcı içerebilen bir adın yanı sıra yorum olarak kabul edilen birçok başka bilginin verilmesine izin verir. Pek çok sekans bankası , bu satırlarda bulunan verilerin otomatik olarak çıkarılması için faydalı olabilecek standartlaştırılmış tanımlama hatlarını kullanır. Eski hale gelen bir uygulama, birkaç tanımlama satırının Başlığın Başlangıcı kontrol karakteri ( ASCII kodu 1) kullanılarak tek bir satırda birleştirilmesine izin verdi .
";" İşaretiyle sunulan yorum satırları ve FAŞTA formatının ilk versiyonlarında bulunan bir seçenek olan tanımlama satırı ile ilişkilendirilebilen , NCBI FAŞTA dosyalarının spesifikasyonlarına göre sekans bankaları ve belirli biyoinformatik programlar tarafından tanınmaz .
NCBI benzersiz dizi künyeleri (üretimi için bir standart tanımlamıştır SEQ ID tanımlama hattı için). Manuel ait formatdb konuyla ilgili şunları söyledi: "formatdb otomatik Seq ID işlemek ve indeksleri oluşturma, ancak FAŞTA dosya tanımlama hatlarında veritabanı tanımlayıcılar kurallarını takip etmelidir FAŞTA Defline Format ".
Ancak, FASTA Defline Format ( FAŞTA ) formatının kesin bir açıklaması yapılmadı. Böyle bir format yaratma girişimi aşağıda açıklanmıştır (ayrıca bkz. "NCBI El Kitabı", Bölüm 16, BLAST Sekans Analiz Aracı ).
Veri tabanı | Tanımlama satırı biçimi |
---|---|
GenBank | gi|numéro gi|gb|numéro d'accession|locus |
Avrupa Moleküler Biyoloji Laboratuvarı | gi|numéro gi|emb|numéro d'accession|locus |
Japonya DNA Veri Bankası | gi|numéro gi|dbj|numéro d'accession|locus |
NBRF PIR | pir||entrée |
Protein Araştırma Vakfı | prf||nom |
İsviçre-Prot | sp|numéro d'accession|nom |
Brookhaven Protein Veri Bankası (1) | pdb|entrée|chaîne |
Brookhaven Protein Veri Bankası (2) | entrée:chaîne|PDBID|CHAÎNE|SÉQUENCE |
Patentler | pat|brevet|numéro |
GenInfo Omurga Kimliği | bbs|numéro |
Genel veritabanı tanımlayıcı | gnl|base de données|identifiant |
NCBI Referans Sırası | ref|numéro d'accession|locus |
Yerel Sıra tanımlayıcı | lcl|identifiant |
Yukarıdaki listedeki dikey çubuk, Backus-Naur formunun anlamı dahilinde bir ayırıcı görevi görmez, ancak formatın bir tamsayı parçasıdır. Bu dikey çubuk kullanılarak birden çok tanımlayıcı birleştirilebilir.
Bir FASTA dosyasında bulunan diziler, nükleik veya protein yapısına sahip olabilir ve dizi hizalamalarında kullanılan boşlukları veya karakterleri içerebilir . Diziler , nükleik asitler ve amino asitler için IUB / IUPAC standardı kodunda temsil edilmelidir , ancak aşağıdaki istisnalar dikkate alınmalıdır:
Sayısal işaretlere izin verilmez, ancak bazı veritabanlarında dizi içindeki konumları belirtmek için kullanılabilir.
Kabul edilen nükleik asit kodu:
Nükleik asit kodu | Anlam | Anımsatıcı ezberleme araçları |
---|---|---|
AT | AT | To Denine |
VS | VS | C ytosin |
G | G | G uanin |
T | T | T ilahi |
U | U | U racile |
R | A veya G | pu R ine |
Y | C, T veya U | p Y rimidinler |
K | G, T veya U | keton içeren bazlar ( İngilizce K etonlar ) |
M | A veya C | bir M ine grubu içeren bazlar |
S | C veya G | güçlü etkileşim ( İngilizce'de S trong ) |
W | A, T veya U | zayıf etkileşim ( W eak in English) |
B | A'dan farklı (yani C, G, T veya U) | B , A'dan sonra gelir |
D | C'den farklı (yani A, G, T veya U) | D C'den sonra gelir |
H | G'den farklı (yani A, C, T veya U) | H , G'den sonra gelir |
V | ne T ne de U (yani A, C veya G) | V , T ve U'dan sonra gelir |
DEĞİL | A, C, G, T veya U | N ' her yerde N ucléotide |
X | maskeli nükleik asit | |
- | boşluk |
Amino asit kodu (amino asitler için 24 kod ve 3 özel kod):
Amino asit kodu | Anlam |
---|---|
AT | Alanin |
B | Aspartik asit veya Asparagin |
VS | Sistein |
D | Aspartik asit |
E | Glutamik asit |
F | Fenilalanin |
G | Wisteria |
H | Histidin |
ben | İzolösin |
K | Lizin |
L | Lösin |
M | Metiyonin |
DEĞİL | Kuşkonmaz |
Ö | Pirolizin |
P | Proline |
Q | Glutamin |
R | Arginin |
S | Serin |
T | Treonin |
U | Selenosistein |
V | Valin |
W | Triptofan |
Y | Tirozin |
Z | Glutamik asit veya Glutamin |
X | herhangi bir şey |
* | kodonu durdur |
- | boşluk |
FAŞTA'da biçimlendirilmiş dizileri içeren metin dosyaları için resmi bir dosya uzantısı yoktur . Aşağıdaki tablo, kullanılan farklı uzantıları ve bunların anlamlarını listelemektedir.
Uzantı | Anlam | Yorumlar (değiştir | kaynağı değiştir) |
---|---|---|
.fasta .fas .fa |
Jenerik FAŞTA | Herhangi bir oruç. Bu tür dosyaları da uzantısı (için .seq olabilir dizisi için () ve .fsa FAŞTA dizi hizalama ) |
.fna | fasta nükleik asit | Bir nükleik asit dizisi içeren FAŞTA dosyası . Dizileri için kodlama dizilerini bir genomuna özgü, uzatma .ffn tercih edilecektir. |
.ffn | fasta fonksiyonel nükleotid | Bir genomun kodlama bölgesinin nükleik asit dizisini içeren FAŞTA dosyası. |
.faa | fasta amino asit | Bir amino asit dizisi içeren FASTA dosyası . Birden çok sekans içeren bir dosya, daha spesifik bir mpfa uzantısına sahip olabilir . |
.frn | fasta RNA kodlamayan | Bir genomun ( tRNA veya rRNA gibi ) kodlayıcı olmayan bir RNA dizisini içeren, ancak DNA kodunun isimlendirmesinde yazılmış ( urasil timin ile değiştirilir ) FASTA dosyası . |
FAŞTA dosyaları, bazıları ücretsiz olmak üzere belirli programlar kullanılarak çok sıralı FAŞTA dosyalarına veya dosyalarından toplu olarak dönüştürülebilir . Programlar aynı zamanda ABI veya SCF formatlarındaki elektroforogram dosyalarının FAŞTA formatına toplu olarak dönüştürülmesine de izin verir .