Bom, este post não tem o objetivo de ser um passo-a-passo de como usar os softwares para analisar ESTs, até por que eu ainda estou aprendendo e seria um livro, não um post. A idéia é descrever teoricamente a principais etapas, que podem ser feitas por diferentes softwares. É claro, este não é um processo rígido, depende de uma série de fatores como de com que espécie se trabalha e principalmente de quais são os objetivos do trabalho.
1) Trimming
O primeiro passo é fazer uma "limpeza" (trimming) das seqüências. O sequenciamento frequentemente gera alguns trechos de má qualidade, em geral, no ínicio e no final do fragmento, ou seja, onde algumas bases não puderam ser determinadas ou não o foram com muita precisão. Estes trechos devem ser removidos para não interferir nas etapas seguintes. Além disso, frequentemente, flanqueando a sequência do inserto, ou seja, do cDNA que é o que de fato interessa, há sequências de adaptadores e do vetor utilizados. Estes trechos também devem ser removidos para que no final desta etapa haja apenas a sequência do inserto com um nível de qualidade aceitável.
No entanto, apenas uma sequência pode ser analisada por vez e o programa apenas indica onde começa e termina as sequencias contaminantes. Ou seja, não serve para identificar e remover estes contaminantes de um grande número de sequências. Para isso, existem alguns softwares disponíveis: SeqClean (Free, só roda em Linux), LUCY2 (Free, roda em windows), DNA Baser (pago, 60 dias grátis para testes), entre outros. Estes mesmos softwares também pode ser utilizados para remover os trechos de baixa qualidade.
2) Clustering e contigs assembly
"Clustering" consiste em dentro do grupo de sequências, agrupar aquelas que se sobrepõe e que portanto são derivadas de um mesmo fragmento maior. Em uma segunda etapa, com base nestas sobreposições, estas sequências são agrupadas em contigs (sequencia contínua consenso que representa o fragmento maior de onde as diferentes sequencias são derivadas).Vários softwares fazem este trabalho: TGI Clustering tools (TGICL) e DNA baser, por exemplo.
3) Gene onthology: BLAST2GO
Agora que temos as sequencias "limpinhas" e organizadas, o que fazer com elas? Bom, isso depende do objetivo do trabalho! No meu caso, devo fazer um BLAST para anotar o máximo de sequencias possível. Para tanto, devo utilizar a plataforma Blast2GO que além de fazer este trabalho ainda tem várias outras ferramentas interessantes! Como eu tive uma aula com uma das criadoras deste software, Dra Ana Conesa, embora ainda não o domine, tenho um pouco a mais a dizer sobre e fica pro próximo post!
*Post sujeito a atualizações!