Um problema crescente que acontece quando tentamos identificar a função de um gene me lembrou uma brincadeira de criança: o telefone sem fio! Aquela brincadeira onde as crianças sentam-se uma do lado da outra e a primeira da fila diz uma mensagem (bem baixinho) no ouvido da segunda que deve repetí-la para a terceira até chegar a última que tem que dizer a mensagem em voz alta, que geralmente já está bem diferente da original! É a velha história do "quem conta um conto, aumenta um ponto"! O mesmo tem acontecido com a anotação funcional de genes, o processo de identificação das funções associadas a um gene.
Atualmente, uma quantidade enorme de sequências de DNA está sendo produzida e depositadas nos bancos de dados, que já contém um número absurdo de sequências . Vários genomas já foram concluídos, outros tantos estão em andamento, assim como muitos projetos de sequenciamento de mRNA (cDNA). Isso tudo é muito bom, é claro! Mas um dos principais problemas atuais é lidar com esta quantidade imensa de informação e identificar onde estão os genes e quais as suas funções, como já discuti um pouco aqui.
Quando o sequenciamento de DNA não era ainda um "lugar-comum" e, consequemente, a velocidade com que novas sequências surgiam não era tão grande como hoje, muitos dos genes tinham sua função estudada experimentalmente,de maneira mais minuciosa. Mas em um mundo onde milhares de sequências podem ser produzidas por dia, não é mais possível fazer isso para todas as sequências geradas.
Como a sequência de DNA determina a sequência de aminoácidos das proteínas e a função destas, em geral, depende da sua sequência, proteínas que tenham a mesma função, também devem ter a mesma sequência! Ou, ao menos, devem ser bem parecidas! E surge a era do "comparar para identificar", pois similaridade pode indicar homologia!Assim, hoje em dia ,quando identificamos uma nova sequência gênica, tentamos achar nos bancos de dados se já existe alguma outra sequência similar com uma função conhecida. O passo crucial é decidir se esta similaridade basta para dizermos que a nossa sequência até então desconhecida deve ter realmente as mesmas funções daquela com que é parecida. Para isso existem critérios, mas nem todos usam os mesmos critérios. Uns são extremamente rígidos enquanto outros deixam a coisa "correr solta".
E assim começa o problema que chamei de "telefone sem fio":
Um primeiro pesquisador deposita no banco de dados uma sequência X, à qual atribuiu a função Y através de experimentos.
Um segundo pesquisador, com uma nova sequência em mãos (Z), descobre que ela é extremamente similar ao gene X e, então, inclui a nova sequência Z no banco de dados, como um gene de função Y também.
Um terceiro pesquisador, com mais uma sequência nova (W), descobre que ela tem alguma similaridade com a sequência Z, mas esta similaridade não é tão grande assim, mas se encaixa nos "critérios" frouxos que ele estabeleceu. E ele também atribui à sua sequência W, a função Y, uma anotação possivelmente errada.
Um quarto pesquisador, por tabela, atribui à sua sequência N, extremamente similar a W, a função Y. Apesar de a similaridade ser verdadeira neste caso e de as sequências W e N serem provavelmente de fato homólogas, a função associada à elas é errada.
Cada cor representa um nucleotídeo. Notem que os genes X e Z são bem semelhantes, enquanto que os genes Z e W, não, mas mesmo assim foram designados como homólogos e como tendo a mesma função. Os genes W e N são bastante semelhantes e, provavelmente, homólogos, mas não são homólogos de Z e X e, por isso, foram erroneamente identificados com a função Y (a função original de X). Pode parecer complicado, mas é apenas uma cadeia de comparações para ver quem é parecido com quem.
E esse erro vai ser passado para frente. E novos erros podem ser introduzidos nesta cadeia. Quanto mais perto da última "criança da fila", maior a chance de estar inferindo uma função errada.
Este problema tem sido agravado por ferramentas de "anotação eletrônica", usadas para identificar a função de novas sequências através de resultados de similaridade com sequências conhecidas, sem nenhuma avaliação manual feita por um pesquisador que poderia identificar casos onde a associação feita não é verdadeira.
Isso não quer dizer que não devemos lançar mão destas ferramentas. Elas são a única saída quando se tem 100, 1000 e até centenas de milhares de sequências em mãos. Mas temos que ser cuidadosos, não relaxar nossos critérios.
O Blast2GO sobre o qual já tanto falei aqui, mas nunca expliquei bem, é uma ferramenta para a anotação funcional de genes, principalmente de organismos modelo não tradicionais, como a ostra e a vieira que estudo. Como não há projetos genoma para estas espécies e outras próximas é ainda mais difícil identificar suas sequências e os resutados das buscas por similaridades geralmente indicam sequências de organismos distantes filogeneticamente. Então, o cuidado tem que ser redobrado!
Através do Blast2GO é possível submeter as novas sequências a buscas por similaridade usando o algoritmo BLAST. O programa então identifica quais são as funções associadas às sequências similares, resultantes do BLAST, em diversos bancos de dados: os de termos de ontologia gênica (uma iniciativa bem legal, sobre a qual um dia, ainda escreverei aqui), o de domínios conservados - regiões das proteínas que são particularmente importantes para alguma função - o banco de dados de enzimas, de vias metabólicas e por aí vai...
E a última etapa do Blast2GO é anotação funcional. Anotar ou não anotar, eis a questão. E neste momento, o blast2go é inovador, com a sua "regra de anotação". Para decidir se cada sequência deve ser associada a uma ou mais funções, o programa usa uma fórmula para determinar a anotação mais específica. Esta fórmula considera não apenas a percentagem de similaridade entre as sequências, como também o código de evidência, que indica de que forma aquela função foi atribuída a sequência similar ("a criança que estava antes na fila") penalizando anotações eletrônicas e dando pontos extras a anotações experimentais. Existindo ainda outras possibilidades de evidência para as quais se pode atribuir diferentes pesos na regra de anotação.
Assim, o Blast2GO nos ajuda a lidar com o problema do telefone sem fio, permitindo que se pese as evidências antes de bater o martelo e concluir a anotação. E é claro, sem perder a praticidade, milhares de sequências podem ser processadas por vez. Mas a regra de anotação é aberta e o pesquisador pode modifica-la de acordo com seus critérios. Então, o bom senso é e sempre será essencial.
--------------------------------------
Para saber mais sobre o Blast2GO: http://www.blast2go.org
Papers:
Quando o sequenciamento de DNA não era ainda um "lugar-comum" e, consequemente, a velocidade com que novas sequências surgiam não era tão grande como hoje, muitos dos genes tinham sua função estudada experimentalmente,de maneira mais minuciosa. Mas em um mundo onde milhares de sequências podem ser produzidas por dia, não é mais possível fazer isso para todas as sequências geradas.
Como a sequência de DNA determina a sequência de aminoácidos das proteínas e a função destas, em geral, depende da sua sequência, proteínas que tenham a mesma função, também devem ter a mesma sequência! Ou, ao menos, devem ser bem parecidas! E surge a era do "comparar para identificar", pois similaridade pode indicar homologia!Assim, hoje em dia ,quando identificamos uma nova sequência gênica, tentamos achar nos bancos de dados se já existe alguma outra sequência similar com uma função conhecida. O passo crucial é decidir se esta similaridade basta para dizermos que a nossa sequência até então desconhecida deve ter realmente as mesmas funções daquela com que é parecida. Para isso existem critérios, mas nem todos usam os mesmos critérios. Uns são extremamente rígidos enquanto outros deixam a coisa "correr solta".
E assim começa o problema que chamei de "telefone sem fio":
Um primeiro pesquisador deposita no banco de dados uma sequência X, à qual atribuiu a função Y através de experimentos.
Um segundo pesquisador, com uma nova sequência em mãos (Z), descobre que ela é extremamente similar ao gene X e, então, inclui a nova sequência Z no banco de dados, como um gene de função Y também.
Um terceiro pesquisador, com mais uma sequência nova (W), descobre que ela tem alguma similaridade com a sequência Z, mas esta similaridade não é tão grande assim, mas se encaixa nos "critérios" frouxos que ele estabeleceu. E ele também atribui à sua sequência W, a função Y, uma anotação possivelmente errada.
Um quarto pesquisador, por tabela, atribui à sua sequência N, extremamente similar a W, a função Y. Apesar de a similaridade ser verdadeira neste caso e de as sequências W e N serem provavelmente de fato homólogas, a função associada à elas é errada.
Cada cor representa um nucleotídeo. Notem que os genes X e Z são bem semelhantes, enquanto que os genes Z e W, não, mas mesmo assim foram designados como homólogos e como tendo a mesma função. Os genes W e N são bastante semelhantes e, provavelmente, homólogos, mas não são homólogos de Z e X e, por isso, foram erroneamente identificados com a função Y (a função original de X). Pode parecer complicado, mas é apenas uma cadeia de comparações para ver quem é parecido com quem.
E esse erro vai ser passado para frente. E novos erros podem ser introduzidos nesta cadeia. Quanto mais perto da última "criança da fila", maior a chance de estar inferindo uma função errada.
Este problema tem sido agravado por ferramentas de "anotação eletrônica", usadas para identificar a função de novas sequências através de resultados de similaridade com sequências conhecidas, sem nenhuma avaliação manual feita por um pesquisador que poderia identificar casos onde a associação feita não é verdadeira.
Isso não quer dizer que não devemos lançar mão destas ferramentas. Elas são a única saída quando se tem 100, 1000 e até centenas de milhares de sequências em mãos. Mas temos que ser cuidadosos, não relaxar nossos critérios.
O Blast2GO sobre o qual já tanto falei aqui, mas nunca expliquei bem, é uma ferramenta para a anotação funcional de genes, principalmente de organismos modelo não tradicionais, como a ostra e a vieira que estudo. Como não há projetos genoma para estas espécies e outras próximas é ainda mais difícil identificar suas sequências e os resutados das buscas por similaridades geralmente indicam sequências de organismos distantes filogeneticamente. Então, o cuidado tem que ser redobrado!
Através do Blast2GO é possível submeter as novas sequências a buscas por similaridade usando o algoritmo BLAST. O programa então identifica quais são as funções associadas às sequências similares, resultantes do BLAST, em diversos bancos de dados: os de termos de ontologia gênica (uma iniciativa bem legal, sobre a qual um dia, ainda escreverei aqui), o de domínios conservados - regiões das proteínas que são particularmente importantes para alguma função - o banco de dados de enzimas, de vias metabólicas e por aí vai...
E a última etapa do Blast2GO é anotação funcional. Anotar ou não anotar, eis a questão. E neste momento, o blast2go é inovador, com a sua "regra de anotação". Para decidir se cada sequência deve ser associada a uma ou mais funções, o programa usa uma fórmula para determinar a anotação mais específica. Esta fórmula considera não apenas a percentagem de similaridade entre as sequências, como também o código de evidência, que indica de que forma aquela função foi atribuída a sequência similar ("a criança que estava antes na fila") penalizando anotações eletrônicas e dando pontos extras a anotações experimentais. Existindo ainda outras possibilidades de evidência para as quais se pode atribuir diferentes pesos na regra de anotação.
Assim, o Blast2GO nos ajuda a lidar com o problema do telefone sem fio, permitindo que se pese as evidências antes de bater o martelo e concluir a anotação. E é claro, sem perder a praticidade, milhares de sequências podem ser processadas por vez. Mas a regra de anotação é aberta e o pesquisador pode modifica-la de acordo com seus critérios. Então, o bom senso é e sempre será essencial.
--------------------------------------
Para saber mais sobre o Blast2GO: http://www.blast2go.org
Papers:
Stefan Götz, Juan Miguel García-Gómez, Javier Terol, Tim D. Williams, María José Nueda, Montserrat Robles, Manuel Talón, Joaquín Dopazo and Ana Conesa. High-throughput functional annotation and data mining with the Blast2GO suite.Nucleic Acids Res. 2008 June; 36(10): 3420–3435.
Ana Conesa, Stefan Götz, Juan Miguel García-Gómez, Javier Terol, Manuel Talón and Montserrat Robles. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research.Bioinformatics 2005 21: 3674-3676
6 comentários:
X, Y, Z, W, N... ficou meio confuso... especialmente pq vc falou que Y era uma função, mas na linha debaixo vc nomeou uma nova sequencia de Y... vc pode desenhar? rsrsrs
pergunta: vc tendo centenas de sequencias, vc tem que olhar uma por uma no blast?
olha, admiro imensamente vc fazer isso tudo sozinha, eu ñ ia conseguir um décimo e ia cair no choro rsrsrs
hahaha é, eu troquei as bolas com as letras! Isso que dá postar depois de uma certa hora da noite...rsrs
Já corrigi, mas depois eu desenho para você também :P
Valeu,
Bjs
Acho que também não é uma boa responder comentários as 7 da manhã hehe pois ignorei a sua pergunta.
Então, com o blast2GO eu faço o blast de todas as sequências ao mesmo tempo e ele analisa os resultados para mim (seguindo os parâmetros que eu estabeleci).
Bjs!
Pronto. Desenhei especialmente pra vc, Lia ;-)
Bjo
Boa Noite Juliana,
Tenho usado o blast2go, entretanto, nessa ultima semana ele deixou de funcionar. ele roda o blast, mas não faz o mapping ou a anotação. já olhamos as "portas", firewall, ja instalei em outra maquina e nada. Vc continua usando e está funcionando?
Obrigada,
Pedkab
Oi, Pedkab
Eu tive exatamente os mesmos problemas esta semana. No entanto, hoje, voltou a funcionar normalmente, sem que eu tenha feito nada para isso. Acredito que tenha sido um problema de acesso aos bancos de dados para a etapa de mapeamento. Espero que se resolva da mesma forma para você também.
Abraços,
Juliana
Postar um comentário