19 de setembro de 2009

Bioinformatics can be that cool

Ainda não aprendi a fazer todas as análises de bioinformática como eu queria, leia-se da forma mais prática, mas estou voltando as boas com a área. É muito bonito depois do trabalhão que dá chegar até um simples arquivo FASTA, ver que aquela simples sequência de nucleotídeos codifica uma proteína interessante, tem um domínio altamente conservado (como na foto abaixo) e vai ajudar a entender um pouco mais sobre o organismo que estudamos.

Domínio FRED (NCBI)

A quantidade de informação que podemos extrair de uma sequência de DNA ou proteína usando ferramentas de bioinformática e graças a internet (a 8ª maravilha do mundo) é absurda! Dois exemplos:

O NCBI tem um banco de dados de domínios conservados onde é possível buscar na sequência de uma dada proteína a existência de algum domínio conservado. Em se tratando de uma sequência de nucleotídeos, basta traduzi-la usando por exemplo a ferramenta de tradução do expasy  ou mesmo o Bioedit. Mas existem 6 possíveis traduções: 3 frames em dois sentidos. Se biblioteca de cDNA é direcional (as sequencias foram clonadas no sentido 5'3'), 3 possibilidades já podem ser eliminadas, pois conhecemos o sentido da sequencia. Entre as 3 possibilidades remanescentes, a mais provável é aquela sem um STOP codon, ou com um maior trecho sem STOP codon, mas na dúvida, não custa nada testar as três.

Como resultado, tem-se um relatório detalhado dos possíveis domínios conservados presentes na proteína. Além de informações como o valor e o score para avaliar a relevância da similaridade encontrada, é exibido um esquema indicando onde na sua sequencia está o domínio, o alinhamento de maior similaridade com um dos membros deste grupo de domínios, além de um link para a página do mesmo com várias outras informações interessantes, como estutura tridimensional, uma descrição funcional e citações na literatura. Para ver um exemplo, veja a página do domínio FRED, que achei em um dos meus clones. Muito maneiro.

Ainda vou ficar devendo um post dedicado ao Blast2GO. Eu sou fã do Blast2GO! É realmente user-friendly. Agora eles estão no twitter, pena que eu não estou mais neste miniblog irritante. Mas a segunda ferramenta interessante e que só fui usar recentemente via Blast2GO é o banco de dados Kegg Pathways que agrupa vias de reações e interações moleculares anotadas manualmente. O BlastGO identifica o código Kegg das enzimas presentes entre as sequencias anotadas e com isso é possível baixar os mapas das vias de referência das quais a enzima participa. Muito, muito maneiro também.

Update 20/09/2009:
O banco de dados de proteínas do NCBI oferece vários formatos para acessar uma dada proteína, um deles é chamado de "graphics" e é praticamente o google earth das proteínas. Mas muito mais interativo, você pode passear pelas ruas que quiser, abrir e fechar portas, olhar pela fechadura, etc, uma realidade bioquímica virtual!  


Bookmark and Share

10 comentários:

Rejão disse...

Vi você comentar sobre o uso do Blast2Go junto ao Kegg. Bem, estou precisando usar umas informações de vias metabólicas no meu TCC e gostaria de saber se você poderia me explicar como uso essas 2 ferramentas juntas.

Juliana Americo disse...

Oi Rejão,
Isso é um pouco complicado de se explicar em um comentário, principalmente, por que não sei o quanto vc já sabe sobre o assunto. Mas vamos lá: o Blast2GO é um programa para caracterizar funcionalmente sequencias de DNA ou de proteínas baseados nos resultados obtidos por BLAST (executado no blast2go). O programa segue uma fórmula (onde vários fatores pesam) para decidir se a similaridade entre a sua sequencia e aquela encontrada pelo blast é significativa. Em caso afirmativo, o blastgo permite, entre outras coisas, identificar o "enzymecode" daquele gene/proteína, caso trate-se de uma enzima, e também baixar os mapas das vias relacionadas a ela, presentes no kegg pathways. Mas isso também poderia ser feito "manualmente", no site do kegg pathways, o diferencial do blast2go é que ele permite processar não apenas uma mas até milhares de sequencias simultaneamente.
Caso te interesse, recomendo que você leia o tutorial do programa presente no site www.blast2go.org Tem uma interface bem amigpavel, lendo o tutorial, vc não deve ter muitas dificuldades. Espero ter ajudado,
Abraços,
Juliana

Rejão disse...

Esclareceu algumas coisas sim. Bom, o que eu realmente preciso é de alguma maneira extrair uma via metabolica completa. Pois preciso dessa informação pra rodar um algoritmo de comoparação. Você saberia como fazer isso??

Abraços,

Regis

Juliana Americo disse...

Acessando o banco de dados da Kegg pathways (http://www.genome.jp/kegg/pathway.html) é possível copiar mapas esquemáticos de diversas vias metabólicas, como por exemplo, o da da glicólise: http://www.genome.jp/kegg/pathway/map/map00010.html
Os números nas caixas indicam o enzime code e clicando neles pode-se obster mais informações sobre cada uma. Não sei se isto serveria para fazer o que você precisa...
Abraços,

Rejão disse...

Boa noite,

É quase isso. Mas oq eu preciso são as informações das enzimas/proteinas de uma via metabolica. Ex: http://www.genome.jp/dbget-bin/www_bget?syn:sll0851

oq preciso é dos AA Seq e NT seq.

Tentei buscar isso no KEGG mas vi q teria q pegar um a um e é muita informação pra fazer dessa maneira.


abraço.

Juliana Americo disse...

Ah, sim. Vc quer fazer o oposto do que eu faço rsrs
Bom, eu nunca fiz isso, mas acho que vale a pena tentar o banco de dados Biosystems do NCBI: http://www.ncbi.nlm.nih.gov/sites/entrez?db=biosystems
Ao menos baixar uma lista com nomes e outras informações como gene ID, sem ter que copiá-las uma a uma, é possível.
Faça uma busca por 1 via,por ex. "citrate cycle". Escolha uma entre os resultados (aparecem vias de diferentes organismos). Clicando em "sequences" e em seguida em "genes", a lista de genes que fazem parte desta via é exibida, para salvá-la, na caixa "send to" selecione "file" e a lista será salva em formato .txt
Não sei se dá para fazer o mesmo com as sequencias de nucleotídeo e de proteínas, mas talvez explorando um pouco o site você consiga descobrir se é possível...(se descobrir, me diga, por favor). Mas daria para acessar uma a uma, clicando em links > nucleotides > send to FASTA. Na via de exemplo, não são tantas sequencias, apenas 18.

Rejão disse...

Oposto é, hehe. Bom pq provavelmente sou da Computação e vc da Biologia, hehe.

O que eu preciso mesmo é os FASTA. Mas acho q mesmo assim tem q ser de um em um. Mas vou continuar procurando. Obrigado pela atenção.

abraço.

Juliana Americo disse...

de nada,
Boa sorte!
Abs,
Juliana

Anônimo disse...

Excelente seu blog! Me ajudou muito e tenho certeza que ajuda a muitas pessoas, por favor continue a postar!!! É muito difícil achar materiais tão bons (e com didática) quanto os seus, a internet é muito escassa de materiais bons de Bio Mol em português :(. E as vezes entender em inglês é complicado :$
Muito obrigado por tudo! ;D

Juliana Americo disse...

Obrigada! Seu comentário me deixa muito contente! O blog está abandonado há bastante tempo, mas tenho planos de voltar a postar em breve!
Um abraço,
Juliana