Dans le cas de l'ADN, cela correspond à la séquence des bases, telle qu'on peut l'obtenir à la sortie d'un séquenceur de gène. Ceci correspond à l'information génétique brute. Dans le cas des protéines, cela correspond à la séquence des acides aminés qui peut être obtenue soit par séquençage chimique soit par la traduction de la séquence du gène correspondant sur l'ADN.
Séquences nucléotidiques
Séquences génétiques
Dans le cas d'une séquence d'ADN, le "texte" est une suite formée uniquement de 4 lettres correspondant aux quatre nucléotides formant l'enchainement d'un des brins de l'ADN : A pour adénine, G pour guanine, T pour thymine, C pour cytosine. Il faut faire attention si le sens de lecture peut être 3' vers 5' ou inverse.
Dans le cas d'une séquence d'ARN, la lettre U est utilisée pour désigner l'uracile remplaçant la thymine pour ces molécules.
Séquences protéiques (peptidiques)
Cette séquence correspond à ce qu'on appelle la structure primaire de la protéine en biochimie. On appelle traduction, l'étape de synthèse protéique à partir d'une séquence nucléotidique, cette étape peut être facilement prédite par des logiciels informatiques pour l'identification de gènes jusqu'alors inconnus. Le code génétique donne une lettre de l'alphabet pour chacun des 20 acides aminés existants, en correspondance aux différents codons. Comme un codon est formé de trois bases, la séquence protéique est trois fois plus courte que la séquence nucléique correspondante.
Voici un exemple en protéique du gène Antennipedia de Drosophile :
Des séquences comme celles-ci peuvent être utilisées en entrée (copiées/collées avec toutes leurs annotations) pour faire des analyses de séquences comme avec le programme BLAST.
D'autres programmes permettent d'effectuer des recherches de structures palindromiques.
Bluejay est un programme écrit en Java[1] permettant de transformer des données de séquences d'ADN en XML.
Annotations génomiques
Ensembl est un logiciel servant à annoter les séquences génomiques.