Un file FASTA - formato contiene una o più sequenze di nucleotidi nel DNA . Il formato FASTA avuto origine con il pacchetto software FASTA per il sequenziamento del DNA , anche se è diventato un formato standard per la rappresentazione di sequenze di DNA in bioinformatica . FASTA è un formato intuitivo sequenze facile da analizzare utilizzando linguaggi di scripting come Perl e Python . Panoramica
La base di un file è una riga che inizia con il carattere " > ", seguita da testo identificare l'origine della sequenza . La riga di intestazione è in genere meno di 80 caratteri . La linea seguendo questa linea di intestazione contiene una serie di personaggi che rappresentano nucleotidi nel DNA o di residui di aminoacidi in una sequenza peptidica .
Domestici Personaggi DNA
solo caratteri significativi sono consentiti come parte di una sequenza FASTA . Sequenze possono consistere A , C , T , G o U , corrispondente ai nucleotidi adenosina , citosina , timidina , guanina o uracile rispettivamente . Tuttavia, l'esatta identità del nucleotide può non essere sempre presente dal sequenziamento . FASTA contiene anche codici che rappresentano i possibili nucleotidi quando l'incertezza è presente. Il codice N viene utilizzato quando nessun determinazione può essere fatta e X quando il nucleotide è mascherato da altre molecole . Il "-" codice viene utilizzato per rappresentare uno spazio di lunghezza indeterminata
domestici Personaggi Peptide
Un codice alfanumerico può essere utilizzato anche per rappresentare . i 24 aminoacidi presenti in una sequenza peptidica . Se un peptide non può essere determinato , il codice X viene utilizzato , in modo simile ad una sequenza di DNA . Un "* " è utilizzato per indicare il capolinea o la traduzione sequenza di arresto di un peptide . A " - " . Viene anche utilizzato per rappresentare una lacuna nella sequenza dati per peptidi
Informazione Altre
Il NCBI imposta un ID sequenza standard , o SeqID , per l'utilizzo in linee di intestazione FASTA , anche se non esiste uno standard definitivo per l'inclusione nella riga di intestazione FASTA . Un file FASTA che contiene più sequenze è noto come un file multi- FASTA . File FASTA possono avere l' estensione " . Fasta , " " . Fna ", " . FFN , " " . FAA , " . " FRN " o " . Fas ". < Br >