FAŞTA (dosya formatı)

FAŞTA Özellikler

Uzantı	.fasta .fa
MIME türü	metin / düz
Tarafından geliştirildi	William R. Pearson
Biçim türü	Metin dosyası
Menşei	FASTA program paketi
Şartname	Açık format

FAŞTA (veya Pearson ekran ) a, ekran arasında metin dosyası depolamak için kullanılan biyolojik sekansları , örneğin bir nükleik ya da protein . Bu diziler , IUPAC terminolojisine göre nükleik asitleri veya amino asitleri kodlayan bir dizi harfle temsil edilir . Her diziden önce bir ad ve açıklamalar gelebilir. Bu biçim kaynaklanan programların FAŞTA paketi nedeniyle yaygın kullanımına yol, ancak, bir haline gelmiştir fiili standart içinde biyoinformatik .

FASTA formatının basitliği, kelime işleme araçları ve Python , R , Ruby veya Perl gibi komut dosyası dillerinin kullanımı yoluyla dizileri işlemeyi ve okumayı (veya ayrıştırmayı ) kolaylaştırır .

FAŞTA formatındaki bir dosya, geleneksel olarak bir uzantı .fastaveya .fa.

Tarihi

FAŞTA formatı, FAŞTA programı için William R. Pearson tarafından geliştirilmiştir . Ancak kullanımı bu basit programın ötesinde benimsenmiş ve BLAST programı tarafından diğerleri arasında popüler hale getirilmiştir .

FAŞTA biçimi de biçiminde doğurmak için gelişmiştir fastq , FAŞTA ve kombinasyonu QUAL büyüklüğü , yaygın olarak alanında kullanılan sekanslama arasında DNA bant.

Biçim

Açıklama

Bir FAŞTA dosyası en az iki satırdan oluşur. Satır 1, ">" işaretiyle başlayan diziyi ve hemen ardından sıra tanımlayıcısını ve tanımlayıcıdan bir boşlukla ayrılmış bir açıklamayı açıklar. ">" İşareti zorunludur ancak tanımlayıcı ve yorum isteğe bağlıdır, iyi biyoinformatik uygulamalarına ilişkin sorular için diziye en az bir tanımlayıcı eklenmesi şiddetle tavsiye edilse bile . Tanımlayıcı ve açıklama , satır sonunu kodlayanlar dışındaki kontrol karakterleri dışında herhangi bir karakter türünü içerebilir .

Satır 2, dizideki nükleik asitleri veya amino asitleri temsil eden harflerden oluşur . Bununla birlikte, bu çizginin maksimum uzunluğu 120 kalıntıdır: daha uzun herhangi bir dizi, birkaç satıra bölünmelidir. İlk DEC-VT ekran görüntüleriyle bağlantılı tarihsel nedenlerden ötürü , genellikle karşılaşılan bölme, o sırada izin verilen satır başına 80 karaktere karşılık gelen 80 karakterdir (okunması daha zor olan 132 moduna paralel olarak). 60 veya 70 karakterlik bölmeler de yaygın olarak kullanılmaktadır, ancak bu bölme aslında 120 karakterden daha az veya buna eşit herhangi bir karakter dizisi uzunluğu ile gerçekleştirilebilir . Sekans, IUPAC terminolojisine uymayan boşluklar, sekmeler veya karakterler içeriyorsa , bunlar dikkate alınmaz.

Dolayısıyla bir FAŞTA dosyası aşağıdaki biçimdedir (X'ler nükleik asitleri veya amino asitleri temsil eder):

>Identifiant Commentaire XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

FAŞTA formatı, ";" işaretinin kullanımını standartlaştırır. yorumlar için satırın başında (bu satırlar göz ardı edilmelidir).

Çok sıralı dosya

Çok dizili veya çok girişli bir FASTA dosyası, tek bir yapıdaki (nükleik veya protein) birkaç diziyi içeren bir dosyadır ve her diziden önce tanımlama satırı bulunur. Bu dosya türü oluşturulabilir initio ab veya bir sonucu olabilir birleştirme bir veya daha fazla dizilerin oluşan FASTA dosyaları. Öncekiyle aynı biçimlendirmeye saygı duyar, bir dizinin sonu daha sonra başka bir dizinin tanımlama satırının başlangıcını belirten ">" işaretinin tekrar karşılaşmasıyla yorumlanır. Dosyaları daha kolay insan okuması için, dizinin sonu ile sonraki ">" işareti arasına boş bir satır eklemeniz önerilir.

Tipik örnekler

İşte bir nükleik asit dizisi örneği:

>gi|373251181|ref|NG_001742.2| Mus musculus olfactory receptor GA_x5J8B7W2GLP-600-794 (LOC257854) pseudogène on chromosome 2 AGCCTGCCAAGCAAACTTCACTGGAGTGTGCGTAGCATGCTAGTAACTGCATCTGAATCTTTCAGCTGCT TGTTGGGCCTCTCACAAGGCAGAGTGTCTTCATGGGACTTTGATATTTATTTTTGTACAACCTAAGAGGA ACAAATCCTTTGACACTGACAAATTGGCTTCCATATTTTATACCTTAATCATCTCCATGTTGAATTCATT GATCAACAGTTTAAGAAAAAAAGATGTAAAAATGCTTTTAGAAAGAGAGGCAAAGTTATGCACAATAACT TCTCATGAAGTCACAGTTTGTTAAAAGTTGCCTTAGTTCACAATAAATAATTATGTATGCTCTATAATTT CAGTGA

İşte bir protein dizisi örneği:

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY

Sıra tanımlayıcıları

">" İşaretiyle başlayan tanımlama satırı, belirli bir diziye benzersiz bir tanımlayıcı içerebilen bir adın yanı sıra yorum olarak kabul edilen birçok başka bilginin verilmesine izin verir. Pek çok sekans bankası , bu satırlarda bulunan verilerin otomatik olarak çıkarılması için faydalı olabilecek standartlaştırılmış tanımlama hatlarını kullanır. Eski hale gelen bir uygulama, birkaç tanımlama satırının Başlığın Başlangıcı kontrol karakteri ( ASCII kodu 1) kullanılarak tek bir satırda birleştirilmesine izin verdi .

";" İşaretiyle sunulan yorum satırları ve FAŞTA formatının ilk versiyonlarında bulunan bir seçenek olan tanımlama satırı ile ilişkilendirilebilen , NCBI FAŞTA dosyalarının spesifikasyonlarına göre sekans bankaları ve belirli biyoinformatik programlar tarafından tanınmaz .

NCBI benzersiz dizi künyeleri (üretimi için bir standart tanımlamıştır SEQ ID tanımlama hattı için). Manuel ait formatdb konuyla ilgili şunları söyledi: "formatdb otomatik Seq ID işlemek ve indeksleri oluşturma, ancak FAŞTA dosya tanımlama hatlarında veritabanı tanımlayıcılar kurallarını takip etmelidir FAŞTA Defline Format ".

Ancak, FASTA Defline Format ( FAŞTA ) formatının kesin bir açıklaması yapılmadı. Böyle bir format yaratma girişimi aşağıda açıklanmıştır (ayrıca bkz. "NCBI El Kitabı", Bölüm 16, BLAST Sekans Analiz Aracı ).

Veri tabanı	Tanımlama satırı biçimi
GenBank	gi\|numéro gi\|gb\|numéro d'accession\|locus
Avrupa Moleküler Biyoloji Laboratuvarı	gi\|numéro gi\|emb\|numéro d'accession\|locus
Japonya DNA Veri Bankası	gi\|numéro gi\|dbj\|numéro d'accession\|locus
NBRF PIR	pir\|\|entrée
Protein Araştırma Vakfı	prf\|\|nom
İsviçre-Prot	sp\|numéro d'accession\|nom
Brookhaven Protein Veri Bankası (1)	pdb\|entrée\|chaîne
Brookhaven Protein Veri Bankası (2)	entrée:chaîne\|PDBID\|CHAÎNE\|SÉQUENCE
Patentler	pat\|brevet\|numéro
GenInfo Omurga Kimliği	bbs\|numéro
Genel veritabanı tanımlayıcı	gnl\|base de données\|identifiant
NCBI Referans Sırası	ref\|numéro d'accession\|locus
Yerel Sıra tanımlayıcı	lcl\|identifiant

Yukarıdaki listedeki dikey çubuk, Backus-Naur formunun anlamı dahilinde bir ayırıcı görevi görmez, ancak formatın bir tamsayı parçasıdır. Bu dikey çubuk kullanılarak birden çok tanımlayıcı birleştirilebilir.

Dizilerin temsili

Bir FASTA dosyasında bulunan diziler, nükleik veya protein yapısına sahip olabilir ve dizi hizalamalarında kullanılan boşlukları veya karakterleri içerebilir . Diziler , nükleik asitler ve amino asitler için IUB / IUPAC standardı kodunda temsil edilmelidir , ancak aşağıdaki istisnalar dikkate alınmalıdır:

küçük harfler kabul edilir ve büyük harfe dönüştürülür ,
"-" işareti bir boşluğu temsil etmek için kullanılabilir ,
protein dizilerinde "U" ve "*" işaretleri kabul edilir (aşağıya bakınız).

Sayısal işaretlere izin verilmez, ancak bazı veritabanlarında dizi içindeki konumları belirtmek için kullanılabilir.

Kabul edilen nükleik asit kodu:

Nükleik asit kodu	Anlam	Anımsatıcı ezberleme araçları
AT	AT	To Denine
VS	VS	C ytosin
G	G	G uanin
T	T	T ilahi
U	U	U racile
R	A veya G	pu R ine
Y	C, T veya U	p Y rimidinler
K	G, T veya U	keton içeren bazlar ( İngilizce K etonlar )
M	A veya C	bir M ine grubu içeren bazlar
S	C veya G	güçlü etkileşim ( İngilizce'de S trong )
W	A, T veya U	zayıf etkileşim ( W eak in English)
B	A'dan farklı (yani C, G, T veya U)	B , A'dan sonra gelir
D	C'den farklı (yani A, G, T veya U)	D C'den sonra gelir
H	G'den farklı (yani A, C, T veya U)	H , G'den sonra gelir
V	ne T ne de U (yani A, C veya G)	V , T ve U'dan sonra gelir
DEĞİL	A, C, G, T veya U	N ' her yerde N ucléotide
X	maskeli nükleik asit
-	boşluk

Amino asit kodu (amino asitler için 24 kod ve 3 özel kod):

Amino asit kodu	Anlam
AT	Alanin
B	Aspartik asit veya Asparagin
VS	Sistein
D	Aspartik asit
E	Glutamik asit
F	Fenilalanin
G	Wisteria
H	Histidin
ben	İzolösin
K	Lizin
L	Lösin
M	Metiyonin
DEĞİL	Kuşkonmaz
Ö	Pirolizin
P	Proline
Q	Glutamin
R	Arginin
S	Serin
T	Treonin
U	Selenosistein
V	Valin
W	Triptofan
Y	Tirozin
Z	Glutamik asit veya Glutamin
X	herhangi bir şey
*	kodonu durdur
-	boşluk

Dosya uzantıları

FAŞTA'da biçimlendirilmiş dizileri içeren metin dosyaları için resmi bir dosya uzantısı yoktur . Aşağıdaki tablo, kullanılan farklı uzantıları ve bunların anlamlarını listelemektedir.

Uzantı	Anlam	Yorumlar (değiştir \| kaynağı değiştir)
.fasta .fas .fa	Jenerik FAŞTA	Herhangi bir oruç. Bu tür dosyaları da uzantısı (için .seq olabilir dizisi için () ve .fsa FAŞTA dizi hizalama )
.fna	fasta nükleik asit	Bir nükleik asit dizisi içeren FAŞTA dosyası . Dizileri için kodlama dizilerini bir genomuna özgü, uzatma .ffn tercih edilecektir.
.ffn	fasta fonksiyonel nükleotid	Bir genomun kodlama bölgesinin nükleik asit dizisini içeren FAŞTA dosyası.
.faa	fasta amino asit	Bir amino asit dizisi içeren FASTA dosyası . Birden çok sekans içeren bir dosya, daha spesifik bir mpfa uzantısına sahip olabilir .
.frn	fasta RNA kodlamayan	Bir genomun ( tRNA veya rRNA gibi ) kodlayıcı olmayan bir RNA dizisini içeren, ancak DNA kodunun isimlendirmesinde yazılmış ( urasil timin ile değiştirilir ) FASTA dosyası .

Biçim dönüştürücüler

FAŞTA dosyaları, bazıları ücretsiz olmak üzere belirli programlar kullanılarak çok sıralı FAŞTA dosyalarına veya dosyalarından toplu olarak dönüştürülebilir . Programlar aynı zamanda ABI veya SCF formatlarındaki elektroforogram dosyalarının FAŞTA formatına toplu olarak dönüştürülmesine de izin verir .

Referanslar

(in) Cock PJ., Fields CJ., N. Goto, Heuer ML. & Rice PM., “ Kalite puanlı diziler için Sanger FASTQ dosya formatı ve Solexa / Illumina FASTQ çeşitleri. " , Nucleic Acids Research , cilt. 38, n o 6, 2010, s. 1767-71 ( ISSN 1362-4962 , PMID 20015970 , DOI 10.1093 / nar / gkp1137 )
(en) William R. Pearson, " FAŞTA program paketinin 3.x versiyonlarının dokümantasyonu " , Center for Biological Sequence analysis'de ( 9 Şubat 2013'te erişildi )
(in) " Elle formatdb " üzerine Manned.org (erişilen 2013 9 Şubat )
(in) Tao Tao [dış bağlantı kaldırıldı] , " tek harfli nükleotit için kod " ile ilgili www.ncbi.nlm.nih.gov'da , National Center for Biotechnology Information ,24 Ağu 2011( 15 Mart 2012'de erişildi )
(in) "IUPAC kodu Tablo " ile www.dna.affrc.go.jp , NIAS DNA Bankası (erişilen 9 Şubat 2013 )

( Fr ) Bu makale kısmen veya tamamen Wikipedia makalesinden alınmıştır İngilizce başlıklı " FASTA_format " ( yazarların listesini görmek ) .

Ayrıca görün

İlgili Makaleler

FASTA program paketi
HIZLI
Stockholm dosya biçimi
Moleküler biyoloji için dosya formatlarının listesi

Dış bağlantılar

(tr) FASTA Formatı nedir? FAŞTA formatını detaylandıran site.
(tr) HUPO-PSI tarafından sunulan standart FAŞTA formatı , İnsan Proteom Organizasyonu'nun Proteomik Standartları Girişimi tarafından önerilen başka bir FAŞTA formatını açıklar .
(tr) NCBI dizilerinin FAŞTA tanımlama satırlarındaki Sekans Kimliği (SeqID) alanları , FAŞTA dosyalarının tanımlama satırlarının biçimlendirmesini açıklar.
(tr) Dosyaları FAŞTA formatına dönüştürür
(tr) www.dnabaser.com/download - Sekans uçlarının otomatik olarak temizlenmesine ve toplu dönüştürmeye izin veren ABI / SCF / Txt / MultiFasta / Fasta / Seq / GBK formatlarından / formatlarına dönüştürücü.
(tr) NCBI tarafından kabul edilen FAŞTA formatının spesifikasyonu