RNAse free

29 de janeiro de 2010

"Eu vejo um novo começo de era"

2010. Estamos fechando a primeira década do milênio. E para a biologia molecular, este começo foi muito bom: cada vez mais aumenta o número de variáveis avaliadas por experimento. Genomas e mais genomas inteiros são seqüenciados, experimentos com milhares de genes e proteínas são feitos. Ao invés de olhar para cada gene separadamente, agora, podemos ver como todos os genes de um organismo se comportam ao mesmo tempo. Estamos na era das ômicas.

A ciência sempre estudou as partes como meio de entender o todo. Mas nem sempre as partes se encaixam ou podem ser corretamente interpretadas quando isoladas. Quando olhamos para o todo, temos a perspectiva correta para colocar todas as peças no lugar e entender todas as conexões da complexa e dinâmica rede de moléculas que regem uma célula.

Mas para olhar para o todo e, de fato, enxergar tudo, ainda é preciso desenvolver meios melhores de manejar e, principalmente, integrar dados heterogêneos derivados do genoma, do transcriptoma, do proteoma, do metaboloma...

Parece um quebra-cabeça infinito!

Enquanto ainda estamos aprendendo a lidar com tanta informação, estão surgindo novas técnicas de sequenciamento de DNA que prometem impulsionar ainda mais este salto, das partes para o todo. Por 30 anos, o método de sequenciamento de DNA de Sanger é usado por toda a comunidade científica. Desde a sua publicação, em 1977, este método foi otimizado e automatizado ao ponto de permitir o sequenciamento de todo o genoma humano, concluído em 2003.

No entanto, em relação ao custo e principalmente a velocidade de produção de sequências, a “próxima geração de sequenciamento” deixa o método Sanger no chinelo. Para se ter uma idéia, em uma única corrida em um destes novos equipamentos, é possível produzir uma quantidade de sequências para a qual seriam necessárias 50 corridas em um equipamento pelo método de Sanger. Um pequeno genoma bacteriano poderia ser seqüenciado em uma única corrida. É um salto tecnológico sem precedentes!

É claro que nem tudo são flores, a maioria destas tecnologias produz sequências tão curtas quanto 20pb, mas outras já chegam a 400pb e, possivelmente, este número ainda deve aumentar. O maior desafio tem sido gerar ferramentas de bionformática para lidar com estes dados, mas esta corrida também já foi lançada.

Estas técnicas já estão sendo aplicadas a diferentes questões, em estudos metagenômicos, no sequenciamento de genomas e transcritptomas, como meio de inferir os níveis de expressão gênica em organismos sem qualquer sequência conhecida e mesmo para estudar o acúmulo de mutações em escala genômica ao longo das gerações de uma linhagem bacteriana. Novamente: é um salto tecnológico sem precedentes!

Para quem se interessar, recomendo a leitura destes dois artigos:

Stephan C Schuster. Next-generation sequencing transforms today's biology. Nature methods 5: 16-18 (2008).

Metzker ML.Sequencing technologies — the next generation. Nat Rev Genet. 2010 Jan;11(1):31-46.

21 de janeiro de 2010

PCR: uma boa idéia!

A PCR (reação em cadeia da polimerase) sem dúvida foi uma invenção que revolucionou a biologia molecular ao permitir a síntese de DNA in vitro. Através desta técnica, é possível produzir bilhões de cópias de um segmento de DNA específico, a partir de uma única molécula! ~~Pelo menos, em um mundo perfeito~~. Mais de duas décadas depois da sua invenção, já são muitas as variações e aplicações da PCR como no diagnóstico de doenças, na contagem de carga viral, na detecção de patógenos, em exames forenses e como ferramenta em uma quase infinita lista de abordagens de pesquisa.

Kary B. Mullis foi o cara que inventou o PCR e por isso ganhou o prêmio nobel de química de 1993. Na época, ele trabalhava em uma empresa a quem vendeu sua idéia pela quantia irrisória de 10 mil dólares. A empresa vendeu a patente por 300 bilhões de dólares! Ou seja, Kary se deu mal, mas ganhou seu 1 milhão de dólares do prêmio Nobel e, hoje, ainda ganha muito dinheiro vendendo livros e dando palestras por aí.

Na verdade, há quem diga que Mullis somente incrementou o processo já descrito por H. Gobind Khorana e Kjell Kleppe, 17 anos antes, quando conseguiram duplicar e, em seguida, quadruplicar uma pequena molécula de DNA sintético usando um par de primers e uma DNA polimerase. De qualquer forma, foi um "incremento" que fez toda diferença: usar a ciclagem de temperaturas e uma DNA polimerase resistente ao calor, uma vez que a cada ciclo é preciso aquecer o DNA a 94ºC para separar a dupla fita, o que tornava necessário adicionar mais DNA polimerase a cada ciclo.

Eis uma citação de Millis sobre como ele teve a idéia da PCR:

“Sometimes a good idea comes to you when you are not looking for it. Through an improbable combination of coincidences, naiveté and lucky mistakes, such a revelation came to me one Friday night in April, 1983, as I gripped the steering wheel of my car and snaked along a moonlit mountain road into northern California’s redwood country. That was how I stumbled across a process that could make unlimited numbers of copies of genes, a process now known as the polymerase chain reaction (PCR).”

Kary B. Mullis, Scientific American (1990) 262:36.

Eu não acredito em sorte, mas em mentes preparadas para enxergar uma nova idéia...alguns podem chamar de inspiração, mas acho que é um conjunto de fatores, não apenas conhecimento e inteligência, mas maturidade, desprendimento e persistência. É ter em mãos um punhado de coisas aparentemente inúteis e enxergar algo grande que se pode fazer com elas. E depois todos dizem, “como eu não tive esta idéia antes?”. As melhores idéias, quando expostas parecem muito simples, tão simples que ninguém nunca pensou antes! Para mim, a sofisticação está na simplicidade. Em diversos contextos. E por mais estranho que pareça, nem sempre é fácil encontrar a solução mais simples. Mas pode parecer mais inspirador ouvir que estas idéias surgem assim, como uma lâmpada que acende de repente por pura "sorte", como a "revelação" descrita por Mullis.

Anyway, obrigada Mullis! O que seria de nós sem o PCR....

15 de dezembro de 2009

Diário de uma mestranda: Perspectivas 2010

Entrando no clima de final de ano, pensei em fazer uma retrospectiva 2009 acadêmico-científica. Mas pensando bem, muita coisa seria repetição do que já escrevi aqui, outras seriam repetição de coisas sobre as quais já tenho exaustivamente pensado para desenvolver e escrever minha dissertação. Embora, academicamente, o meu ano não esteja terminando, acho que o momento é de olhar para frente e não para trás. Por isso, faço uma perspectiva 2010! Acho que a incapacidade de enxergar e entender as consequências é uma das principais coisas que nos levam a errar, em qualquer área: na ciência, na política, na vida. Por isso, é sempre bom nos planejarmos, pensarmos no depois, nas consequências. É claro que o dia primeiro de janeiro é apenas o dia seguinte do dia 31 de dezembro. Não há mágica nisso. O mundo e as pessoas continuarão sendo as mesmas. Mas não contamos o tempo á toa, aproveitemos, então, a virada de mais um ciclo para virar também velhas páginas e abrir novas...

Eu vou começar o ano fechando um ciclo de dois anos, o mestrado, e começando (assim espero) um outro ciclo, o doutorado. Entre janeiro e março, tenho que terminar de escrever minha dissertação, apresentar a prévia e a temida defesa, além de me preparar para a seleção de doutorado. Além de ser um momento tenso por si só, também é um momento que me faz pensar nas minhas escolhas. Seguir um doutorado é uma escolha importante, um compromisso de quatro anos e, em grande parte, um tiro no escuro. O que fazer depois do doutorado? Quais as possibilidades de emprego? Eu quero mesmo chegar aos 30 anos de idade como bolsista, sem 13º salário, sem assinaturas na carteira, ainda uma estudante, sem garantias de emprego, trabalhando horas extra sem receber nada a mais por isso? É claro que não era isso que eu sonhava estar fazendo aos 30 anos. Mas é o único caminho para quem quer ser cientista no Brasil. E como eu não me vejo fazendo outra coisa, é o caminho que eu vou seguir.

A situação já foi muito pior, com bolsas menores e em menor número. Mas ainda assim, considerando-se que grande parte da pesquisa no Brasil acontece em instituições de ensino públicas, os pós-graduandos e pesquisadores brasileiros são ainda muito desvalorizados. E apesar das perspectivas não serem animadoras, sigo a minha intuição de continuar fazendo aquilo que gosto.

Apesar de tudo isso, ou melhor, devido a toda esta escassez de recursos, a concorrência para ingressar na pós graduação das melhores (e poucas) universidades é grande! Então, o ano já vai começar nesse clima, mais uma vez tendo que vencer a corrida para continuar nesse longo caminho...E depois será voltar ao trabalho no projeto de doutorado e projetos paralelos, começar a pensar e escrever o artigo do mestrado...pois depois de tudo isso a única coisa que contará para conseguir bolsas de pós doc, um emprego e mesmo verbas para pesquisa é o "número de artigos publicados"! Um índice nada cientifico para indicar quem é "melhor" que quem pelas agências de fomento e universidades.

Uma das coisas que eu pretendo correr atrás durante o meu doutorado é expandir meus horizontes na biologia. Isso mesmo. Não quero terminar o doutorado sabendo muito de quase nada. Uma tendência de quem faz doutorado. Aliás, uma tendência dos cursos de doutorado que, em geral, não oferecem oportunidades de expansão mas, sempre de especialização em uma área particular de conhecimento. E pretendo começar a fugir disso pelo blog, começando a escrever cada vez mais sobre coisas não relacionadas ao que eu faço no laboratório. Quem sabe, nascerá um novo blog com um perfil diferente deste! (Pois a verdade, é que eu também gosto muito de discutir detalhes mínimos de biologia molecular que só interessam a outros biológos moleculares, assim, também gostaria de manter este blog como ele é atualmente)

Bom, mas para eu conseguir concluir minhas metas até março, vou ter que deixar o RNAse Free um pouco de lado, por enquanto...se eu resistir a escrever aqui de vez em quando. Embora os textos nunca fiquem como eu gostaria, escrever aqui é um exercício que eu gosto de fazer mas que toma alguma parte do meu tempo. Tempo que preciso gerenciar melhor nos próximos 3 meses.

Aos meus 3,5 leitores:

Boas festas! Um 2010 de sucesso, com muitas bolsas e verbas concedidas!

E podem continuar deixando comentários ou enviando e-mails.

9 de dezembro de 2009

Por que leveduras cometem suicídio?

Em organismos multicelulares, é comum a ocorrência do "suicídio celular", mais formalmente conhecido como "morte celular programada" ou "apoptose". Trata-se de um processo controlado, um mecanismo que quando ativado, leva a célula a auto-destruição. Pode parecer loucura que nossas células cometam suicídio, mas são vários os contextos nos quais este "sacríficio" é necessário para o benefício do organismo como um todo. Através da apotose, células danificadas, velhas ou apenas que se tornaram desnecessárias são eliminadas do organismo. Por exemplo, as células do epitélio da pele estão sempre se renovando. Há uma camada basal de células que estão sempre se dividindo e dando origem a células novas para renovar o tecido e, em contrapartida, as células velhas, que estão no topo, entram em apoptose, ou seja, ativam o mecanismo de morte celular programada e...morrem. Assim, embora novas células estejam sempre sendo produzidas, o número total de células no tecido permanece constante. Em equilíbrio. Outro exemplo muito bonito da dedicação das nossas células para com o bem estar do organismo como um todo é a apotose induzida pelos linfócitos T citotóxicos, um dos tipos celulares sanguíneos que cuidam da defesa do organismo. Quando ele encontra uma célula infectada por um vírus, ele faz com que ela se mate, impedindo que o vírus se reproduza e infecte outras células. A apoptose tem sido muito bem estudada e são muitos os outros contextos em que ela ocorre. Todos "justificados", as mortes não são em vão!

Antes de eu trabalhar com moluscos, eu trabalhei com leveduras, fungos unicelulares que além de serem usados como fermento são muito estudados como um modelo "mínimo" de célula eucariótica. Um dia eu me deparei com um artigo que dizia que leveduras entram em apotose e não entendi nada, pois neste caso, o organismo é uma única célula. Quais razões justificariam um indvíduo cometer suicídio? Esta pergunta ficou na minha cabeça e tempos e tempos depois achei totalmente por acaso uma revisão que discutia as possíveis razões para a apoptose em leveduras e as implicações evolutivas que fazem com que elas tenham uma boa razão pela qual morrer!

Morte em tempos de amor

Leveduras expostas a ferormônios (substâncias químicas que permitem que uma levedura reconheça outra para a reprodução sexuada) mas que não tenham achado um "parceiro" entram em apoptose. Isso sugere que a morte celular, neste caso, seja utilizada para eliminar células inférteis ou danificadas. Não reproduziu, "dançou". Isso que é seleção natural!

Morte em tempos de paz

Leveduras assim como muitos outros microrganismos podem formar comunidades chamadas "biofilmes". Por exemplo, um único esporo pode cair sobre uma fruta. Após muitas e muitas divisões celulares, todas as células ali presentes terão se originado de uma mesma célula inicial e, portanto, constituem um mesmo "clone" que coloniza a fruta. Quando a quantidade de nutrientes começa a acabar (a fruta está chegando ao fim), as células mais velhas ou que já estão danificadas entram em apoptose para assim poupar nutrientes para as células mais jovens e que têm mais chances de sobreviver! Nesse caso, o "clone" é o que importa. E vale tudo, inclusive a morte de alguns indivíduos, para que ele continue a se propagar. Este "comportamento" está de acordo com a definição clássica de altruísmo: aumenta o fitness do grupo e diminui o do invidíduo altruísta.

Morte em tempos de guerra

Sim, as leveduras podem ser altruístas...mas também podem ser assassinas! Muitas leveduras carregam vírus que produzem toxinas para as quais são imunes. Assim, quando uma determinada linhagem "assassina" está colonizando uma fruta e uma mosca pousa na mesma trazendo células de uma linhagem diferente que não carrega consigo este vírus, a linhagem assassina irá liberar toxinas e, assim, eliminar a linhagem concorrente! Baixas doses destas toxinas induzem apoptose nas células de levedura suscetíveis...levando-as a morte.

Referência:

Buttner, S., Eisenberg, T., Herker, E., Carmona-Gutierrez, D., Kroemer, G., & Madeo, F. (2006). Why yeast cells can undergo apoptosis: death in times of peace, love, and war The Journal of Cell Biology, 175 (4), 521-525 DOI: 10.1083/jcb.200608098

16 de novembro de 2009

Branqueamento de corais: o mundo menos colorido

Outro dia, me deparei com um quadro com uma foto panorâmica de uma barreira de corais. Simplesmente lindo. Mas sua importância vai muito além da beleza. Os recifes de corais são o habitat de 25% das espécies marinhas e por isso constituem o ecossistema marinho com maior diversidade biológica. Infelizmente, eu nunca vi um recife de corais, como o da foto acima, pessoalmente e do jeito que as coisas andam talvez eu nunca tenha este previlégio. Os corais são bastante sensíveis pois não toleram grandes variações das condições ambientais como a temperatura, radiação UV, salinidade, quantidade de nutrientes e transparência da água. Com isso, estes animais estão seriamente ameaçados devido a uma série de fatores que alteram o seu ambiente, como a poluição aquática. Os níveis crescentes de CO2 na atmosfera também são uma ameaça pois este gás quando dissolvido torna a água mais ácida e esta acidificação seria um sério problema para os corais formarem e manterem seus esqueletos.

Um dos problemas que afetam os corais e que tem se tornado cada vez mais frequente é o chamado "branqueamento". Os corais mantém simbiose, uma relação de "ajuda" mútua, com microalgas chamadas zooxantelas. Estas microalgas vivem no interior dos tecidos dos pólipos dos corais, onde estão ao abrigo de predadores e expostas à luz necessária para realizarem fotossíntese. Em troca, as microalgas liberam compostos orgânicos que os corais utilizam para a produção de energia. Na verdade, os tecidos dos corais são brancos e os pigmentos das zooxantelas que dão cor aos corais. O branqueamento dos corais é uma consequência da quebra da relação simbiótica existente entre estes dois organismos e pode ocorrer como resposta a diversas condições de estresse, entre as quais estão o aumento da temperatura da água e da intensidade de radiação solar, ambas consequências dos mudanças climáticas recentes. Como as mudanças climáticas afetam grandes áreas geográficas, podem resultar na morte em grande escala destes animais.

Os mecanismos moleculares e celulares envolvidos com o branqueamento de corais são ainda pouco entendidos. Acredita-se que isso ocorra como consequência de uma redução na densidade de microalgas devido a perda das células do coral onde elas estão localizadas. Outras hipóteses envolvem as vias de morte celular por necrose e apoptose das células do coral e/ou das próprias microalgas, a digestão das zooxantelas pelo coral ou ainda a liberação das microalgas por exocitose.

Um estudo publicado em 2008, na Molecular Ecology, usou um microarranjo de DNA para avaliar a expressão de 1310 genes da espécie de coral Montastraea faveolata em função do estresse térmico e do branqueamento. Baseado nos resultados obtidos, os autores sugerem que o estresse oxidativo causado pelo aumento da temperatura resulte num desequilíbrio da homeostase de cálcio, causando mudanças na adesão celular e na organização do citoesqueleto, diminuição da calcificação e iniciação da morte celular via necrose e apoptose.

Um segundo estudo publicado este ano na BMC Physiology identificou dois genes da espécie Pocillopora damicornis que estariam potencialmente envolvidos no processo de branqueamento. Um deles codifica uma proteína lectina do tipo C que atua na interação entre as zooxantelas e as células hospedeiras (do coral). O segundo gene está envolvido com a calcificação e mostrou-se reprimido durante o branqueamento, evidenciando a paralização deste processo em condições de estresse. Este estudo sugere que, sob estresse térmico, a fotossíntese resultaria em estresse oxidativo tanto nos simbiontes como nos corais. Este estresse faria com que as células do coral deixassem de reconhecer as microalgas como simbiontes e passassem a reconhê-las como algo tóxico. Esta hipótese explica qual seria o evento inicial que levaria as as células hospedereias a digerir ou expulsar as microalgas, assim como, em último caso, ativarem mecanismos de morte de celular.

Referências:

DeSalvo MK et al (2008) Differential gene expression during thermal stress and bleaching in the Caribbean coral Montastraea faveolata.Mol. Ecol., vol 17 (17): 3952-3971

Vidal-Dupiol et al (2009) Coral bleaching under thermal stress: putative involvement of host/symbiont recognition mechanisms. BMC Physiol: 9: 14.

31 de outubro de 2009

Metagenoma de...cocô humano!

Já que tenho que escrever um relatório sobre uma série de artigos para uma disciplina, vou aproveitar para comentar alguns aqui. E este título não é uma piada! Os autores fizeram uma análise metagenômica do intestino distal humano, usando amostras de fezes como fonte de DNA.

A metagenômica consiste em sequenciar o DNA de uma comunidade de microorganismos encontrados em um determinado ambiente. Por exemplo, o solo, a água de um rio ou a água presente nas fontes hidrotermais são exemplos de microambientes que poderiam ser estudados desta forma. Portanto, a metagenômica se dedica a sequenciar, ao mesmo tempo, o DNA de todos os organismos presentes em um microambiente, sem fazer distinções.

Esta abordagem é interessante, pois, é difícil isolar os microorganismos do ambiente e cultivá-los separadamente em laboratório para então estudar seus genomas. Na verdade, a maioria deles não pode ser cultivado em laboratório. E os autores do artigo que comento usaram esta abordagem para estudar os microorganismos presentes no intestino humano, sequenciando o DNA extraído de fezes, que são em grande parte formadas por bactérias que antes lá estavam.

Bom, mas o que fazer com um monte de sequências que não sabemos nem de que espécies são? Esta é a parte que achei mais interessante no trabalho. Como era de se esperar, eles avaliaram a diversidade de microorganismos presentes nas amostras, mas este não foi o foco do trabalho. Após identificar a função dos genes seqüenciados e de quais vias metabólicas participam, eles se concentraram em fazer uma análise comparativa entre o metabolismo humano e o dos microorganismos presentes no intestino distal.

E eles viram que a variedade de vias metabólicas executadas pelos nossos “microorganismos de estimação” é muito maior que aquela presente no nosso genoma. E o mais importante, que muitas das enzimas destas bactérias exercem funções importantes para o bom funcionamento do nosso organismo. Só para ter uma idéia, o nosso metabolismo não tem a maior parte das enzimas necessárias para degradar certos polissacarídeos de origem vegetal e os autores deste trabalho encontraram ao menos 81 diferentes famílias de enzimas que degradam estes compostos entre os genes dos microorganismos presentes no nosso intestino distal. Também foi visto uma grande diversidade de genes para enzimas relacionadas ao metabolismo de fibras e produção de ácidos graxos de cadeia curta, que representam até 10% das calorias que extraímos da nossa dieta por dia e que sem estas bactérias não seriam aproveitadas pelo nosso organismo. Estes ácidos graxos são a principal fonte de energia para as células do intestino e, portanto, são importantes para o fortalecimento da mucosa intestinal.

Mas este é um trabalho inicial, onde foram analisadas apenas as fezes de duas pessoas saudáveis, mas que abre as portas para muitas perguntas que poderiam ser respondidas também através da metagenômica. Como de que forma, doenças, a dieta, o consumo de remédios e outros dos nossos hábitos, influenciariam e/ou modificariam o metabolismo microbiano no intestino?

Este artigo me fez ver, ainda mais, quanta informação pode ser tirada de um punhado de sequências de DNA quando se faz a pergunta certa e se sabe quais ferramentas usar! E ,é claro, acho que ninguém mais verá seus excrementos da mesma forma! Digam "muito obrigado" antes de dar a descarga!

Gill, S. (2006). Metagenomic Analysis of the Human Distal Gut Microbiome Science, 312 (5778), 1355-1359 DOI: 10.1126/science.1124234

23 de outubro de 2009

"Genes órfãos": os mestres no jogo da evolução

Mangue (Estuário)

A diversidade biológica é algo impressionante. A quantidade de espécies explorando os mais variados ambientes é imensa. Alguns organismos vivem no fundo do oceano, a milhares de metros de profundidade, na ausência de luz, com poucos nutrientes disponíveis e suportando pressões elevadíssimas. Outros se especializaram em viver dentro de um outro organismo, como as milhares de bactérias que habitam nosso corpo, algumas causando doenças, mas a maioria mantendo conosco uma relação amigável. Outros exemplos incluem espécies que vivem em ambientes de transição entre um rio e o mar, chamados estuários. Ao contrário dos ambientes citados anteriormente, que são extremos, o estuário é um ambiente no qual é difícil de se viver por um motivo diferente: está sempre mudando, pois está sobre a influência das marés. Quando a maré sobe, há uma maior quantidade de água salgada e menor de água doce, proveniente do rio e quando baixa, esse quadro se inverte. Assim, a quantidade de sal na água varia com a maré, aumenta e baixa, mas nunca chega ser totalmente doce ou salgada, é algo intermediário, salobra. Além disso, também em função da maré, as margens ora estão expostas ao ar, ora, alagadas. Mas mesmo sendo um ambiente tão instável nele encontramos plantas, peixes, crustáceos, minhas queridas ostras e ainda muitos outros organismos que de alguma forma lidam com estas variações e ali vivem muito bem.

Diante de toda esta diversidade biológica, de qual citei apenas alguns exemplos, e de adaptações necessárias para ocupar ambientes tão diferentes era de se esperar que as sequências de DNA fossem igualmente diversas. Mas não são. E esse é um dos grandes paradoxos da biologia atual. Espécies completamente diferentes têm muito mais em comum do que se esperava. E muito se tem discutido sobre as origens genéticas da diversidade biológica. No primeiro post que escrevi sobre isso, discuti como os mecanismos de controle de expressão gênica poderiam colaborar com a geração desta diversidade.

No entanto, ironicamente, os biólogos moleculares têm dado muita atenção ao que os organismos têm em comum e pouca ou nenhuma ao que têm de diferente. Como disse no último post, muitos genomas foram ou estão sendo sequenciados. Até então, todos eles apresentam uma proporção de genes (algo em torno de 10-20%) que não se assemelham a nenhum outro gene já descrito, são os chamados "genes órfãos". Pouco se discute sobre o papel destes genes na biologia destes organismos e sobre as suas implicações evolutivas.

Um artigo muito interessante, cuja indicação peguei em um outro blog, discute a questão destes genes que são órfãos apenas da atenção dos biológos moleculares. O artigo discute alguns pontos sobre estes "genes taxonomicamente restritos" (TRGs - Taxonomically Restricted Genes), uma nomeclatura mais cuidadosa que considera a sua distribuição restrita a um táxon. O artigo discute que alguns genes seriam de fato espécie-específicos, enquanto outros estariam presentes também em outras espécies de um mesmo grupo taxonômico, mas tal homologia não teria sido ainda identificada, uma vez que a maioria das espécies não teve ainda seu genoma sequenciado.

Os TRGs estariam relacionados com as "novidades evolutivas" de cada espécie ou grupo, que são algumas das características que os taxonomistas usam para diferenciar uma espécie da outra. Diante de mudanças no ambiente, estes genes podem ter sido críticos, ao conferir alguma vantagem para o organismo explorar aquele novo ambiente e estariam relacionados com adaptações espécie-específicas. Como exemplo são citados alguns TRGs que já foram associados com os nematocistos, estruturas exclusivas dos cnidários e de grande importância na captura de presas e como mecanismo de defesa.

Portanto, os TRGs junto com os diferentes mecanismos de controle da expressão gênica podem ser a força motora que ao longo da evolução gerou a diversidade biológica que tanto nos impressiona. O grande elefante branco é sabermos quais as funções destes genes, que proteínas eles codificam e a que adaptações estão relacionados. Acredito que muitos deles devem estar diretamente ligados a forma como os organismos se relacionam e respondem a mudanças no ambiente, processos como quimiorecepção, processos imunológicos e respostas a condições de estresse.

Por ora, eu só gostaria de saber quais são as funções dos 50% de "genes órfãos" que tenho encontrado nas espécies que estudo, uma das quais habita um ambiente estuarino e que portanto pode ter adaptações interessantes até então ignoradas. Mas que no que depender de mim, estes "genes órfãos" serão "adotados" :)

20 de outubro de 2009

Telefone sem fio

Um problema crescente que acontece quando tentamos identificar a função de um gene me lembrou uma brincadeira de criança: o telefone sem fio! Aquela brincadeira onde as crianças sentam-se uma do lado da outra e a primeira da fila diz uma mensagem (bem baixinho) no ouvido da segunda que deve repetí-la para a terceira até chegar a última que tem que dizer a mensagem em voz alta, que geralmente já está bem diferente da original! É a velha história do "quem conta um conto, aumenta um ponto"! O mesmo tem acontecido com a anotação funcional de genes, o processo de identificação das funções associadas a um gene.

Atualmente, uma quantidade enorme de sequências de DNA está sendo produzida e depositadas nos bancos de dados, que já contém um número absurdo de sequências . Vários genomas já foram concluídos, outros tantos estão em andamento, assim como muitos projetos de sequenciamento de mRNA (cDNA). Isso tudo é muito bom, é claro! Mas um dos principais problemas atuais é lidar com esta quantidade imensa de informação e identificar onde estão os genes e quais as suas funções, como já discuti um pouco aqui.

Quando o sequenciamento de DNA não era ainda um "lugar-comum" e, consequemente, a velocidade com que novas sequências surgiam não era tão grande como hoje, muitos dos genes tinham sua função estudada experimentalmente,de maneira mais minuciosa. Mas em um mundo onde milhares de sequências podem ser produzidas por dia, não é mais possível fazer isso para todas as sequências geradas.

Como a sequência de DNA determina a sequência de aminoácidos das proteínas e a função destas, em geral, depende da sua sequência, proteínas que tenham a mesma função, também devem ter a mesma sequência! Ou, ao menos, devem ser bem parecidas! E surge a era do "comparar para identificar", pois similaridade pode indicar homologia!Assim, hoje em dia ,quando identificamos uma nova sequência gênica, tentamos achar nos bancos de dados se já existe alguma outra sequência similar com uma função conhecida. O passo crucial é decidir se esta similaridade basta para dizermos que a nossa sequência até então desconhecida deve ter realmente as mesmas funções daquela com que é parecida. Para isso existem critérios, mas nem todos usam os mesmos critérios. Uns são extremamente rígidos enquanto outros deixam a coisa "correr solta".

E assim começa o problema que chamei de "telefone sem fio":

Um primeiro pesquisador deposita no banco de dados uma sequência X, à qual atribuiu a função Y através de experimentos.

Um segundo pesquisador, com uma nova sequência em mãos (Z), descobre que ela é extremamente similar ao gene X e, então, inclui a nova sequência Z no banco de dados, como um gene de função Y também.

Um terceiro pesquisador, com mais uma sequência nova (W), descobre que ela tem alguma similaridade com a sequência Z, mas esta similaridade não é tão grande assim, mas se encaixa nos "critérios" frouxos que ele estabeleceu. E ele também atribui à sua sequência W, a função Y, uma anotação possivelmente errada.

Um quarto pesquisador, por tabela, atribui à sua sequência N, extremamente similar a W, a função Y. Apesar de a similaridade ser verdadeira neste caso e de as sequências W e N serem provavelmente de fato homólogas, a função associada à elas é errada.

Cada cor representa um nucleotídeo. Notem que os genes X e Z são bem semelhantes, enquanto que os genes Z e W, não, mas mesmo assim foram designados como homólogos e como tendo a mesma função. Os genes W e N são bastante semelhantes e, provavelmente, homólogos, mas não são homólogos de Z e X e, por isso, foram erroneamente identificados com a função Y (a função original de X). Pode parecer complicado, mas é apenas uma cadeia de comparações para ver quem é parecido com quem.

E esse erro vai ser passado para frente. E novos erros podem ser introduzidos nesta cadeia. Quanto mais perto da última "criança da fila", maior a chance de estar inferindo uma função errada.

Este problema tem sido agravado por ferramentas de "anotação eletrônica", usadas para identificar a função de novas sequências através de resultados de similaridade com sequências conhecidas, sem nenhuma avaliação manual feita por um pesquisador que poderia identificar casos onde a associação feita não é verdadeira.

Isso não quer dizer que não devemos lançar mão destas ferramentas. Elas são a única saída quando se tem 100, 1000 e até centenas de milhares de sequências em mãos. Mas temos que ser cuidadosos, não relaxar nossos critérios.

O Blast2GO sobre o qual já tanto falei aqui, mas nunca expliquei bem, é uma ferramenta para a anotação funcional de genes, principalmente de organismos modelo não tradicionais, como a ostra e a vieira que estudo. Como não há projetos genoma para estas espécies e outras próximas é ainda mais difícil identificar suas sequências e os resutados das buscas por similaridades geralmente indicam sequências de organismos distantes filogeneticamente. Então, o cuidado tem que ser redobrado!

Através do Blast2GO é possível submeter as novas sequências a buscas por similaridade usando o algoritmo BLAST. O programa então identifica quais são as funções associadas às sequências similares, resultantes do BLAST, em diversos bancos de dados: os de termos de ontologia gênica (uma iniciativa bem legal, sobre a qual um dia, ainda escreverei aqui), o de domínios conservados - regiões das proteínas que são particularmente importantes para alguma função - o banco de dados de enzimas, de vias metabólicas e por aí vai...

E a última etapa do Blast2GO é anotação funcional. Anotar ou não anotar, eis a questão. E neste momento, o blast2go é inovador, com a sua "regra de anotação". Para decidir se cada sequência deve ser associada a uma ou mais funções, o programa usa uma fórmula para determinar a anotação mais específica. Esta fórmula considera não apenas a percentagem de similaridade entre as sequências, como também o código de evidência, que indica de que forma aquela função foi atribuída a sequência similar ("a criança que estava antes na fila") penalizando anotações eletrônicas e dando pontos extras a anotações experimentais. Existindo ainda outras possibilidades de evidência para as quais se pode atribuir diferentes pesos na regra de anotação.

Assim, o Blast2GO nos ajuda a lidar com o problema do telefone sem fio, permitindo que se pese as evidências antes de bater o martelo e concluir a anotação. E é claro, sem perder a praticidade, milhares de sequências podem ser processadas por vez. Mas a regra de anotação é aberta e o pesquisador pode modifica-la de acordo com seus critérios. Então, o bom senso é e sempre será essencial.

--------------------------------------
Para saber mais sobre o Blast2GO: http://www.blast2go.org

Papers:

Stefan Götz, Juan Miguel García-Gómez, Javier Terol, Tim D. Williams, María José Nueda, Montserrat Robles, Manuel Talón, Joaquín Dopazo and Ana Conesa. High-throughput functional annotation and data mining with the Blast2GO suite.Nucleic Acids Res. 2008 June; 36(10): 3420–3435.

Ana Conesa, Stefan Götz, Juan Miguel García-Gómez, Javier Terol, Manuel Talón and Montserrat Robles. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research.Bioinformatics 2005 21: 3674-3676

17 de outubro de 2009

Quantos genes você tem?

Não necessariamente a mesma quantidade que eu! Nós temos todos os mesmos genes, mas não necessariamente a mesma quantidade deles. E isso pode fazer muita diferença! Deixe-me explicar.

Já sabemos que existem diferenças na sequência de DNA de diferentes pessoas. Afinal de contas, alguns de nós são altos, outros ruivos, outros tem olhos azuis enquanto muitos tem olhos castanhos. Vemos sempre nos telejornais e programas de TV que o DNA pode diferenciar você de qualquer outra pessoa na face da terra com 99,99% de confiabilidade.

Até então, sabíamos que existiam variações pequenas na sequência de DNA, ás vezes, de apenas um nucleotídeo, as "letras" do alfabeto do DNA. Sabíamos que algumas regiões do genoma poderiam estar organizadas de forma diferente em alguns indivíduos e que as pessoas podem possuir um diferente número de cópias de pequenas sequências que se repetem no genoma.

A novidade está em o quanto e como o DNA de diferentes indíviduos se distingue. Quando o projeto genoma humano foi concluído em 2003, acreditava-se que a diferença genética entre os indivíduos fosse algo em torno de 0.1-1%. Agora, a estimativa é que as diferenças cubram 5% do genoma humano. Parece pouco, mas não é, considerando-se que temos 3 bilhões de nucleotídeos constituindo nosso genoma. Mas a que se deve este aumento? A variação no número de cópias de algumas regiões do DNA.

Nós possuímos duas cópias de cada um dos 22 diferentes tipos de cromossomos chamados autossômicos, mais dois cromossomos sexuais: dois cromossomos X, se você for menina ou um cromossomo X e outro Y, se for menino. Portanto, temos 23 pares de cromossomos e a princípio herdamos duas cópias de cada um dos genes do genoma humano.

No entanto, estudos feitos nos últimos anos mostram que é bastante comum pessoas possuirem diferentes números de cópias de trechos do DNA que podem conter nenhum, um ou vários genes conhecidos. Por exemplo, nas populações européias e americanas, pessoas podem ter entre 2 e 15 cópias do gene AMY1 que codifica a amilase salivar, enzima presente na saliva e que digere amido.

Mas quais são as consequências funcionais destas variações? Depende dos genes que temos a mais ou a menos, assim como de onde as cópias extras estão localizadas no genoma, mas isso é assunto para mais um texto. No entanto, cientistas acreditam que estas variações podem aumentar a suscetibilidade dos indivíduos a doenças, como o câncer, algo que tem sido extensivamente estudado. Um exemplo das consequências funcionais deste tipo de variação é o caso do gene CYP2D6 que afeta o metabolismo de aproximidamente 50% das drogas, como analgésicos, antihistamínicos, antipsicóticos, etc, e apresenta uma grande variação de número de cópias entre indíviduos contribuindo em muito para a grande diferença observada entre as pessoas em relação ao metabolismo de tais medicamentos.

Tudo isso reforça o quanto o genoma é dinâmico, o quão pouco ainda o entendemos e que não basta apenas conhecermos a sequência de "letras" do DNA. Mas isso só significa que ainda temos muito a descobrir e muito trabalho a fazer!

Referências:

Wain, L., Armour, J., & Tobin, M. (2009). Genomic copy number variation, human health, and disease The Lancet, 374 (9686), 340-350 DOI: 10.1016/S0140-6736(09)60249-X

Dear, P. (2009). Copy-number variation: the end of the human genome? Trends in Biotechnology, 27 (8), 448-454 DOI: 10.1016/j.tibtech.2009.05.003

8 de outubro de 2009

Quebrem esta corrente!

Odeio correntes de internet. Todas elas. Sempre fico chocada com as inúmeras bobagens que circulam por aí e fico pensando como é possível alguém acreditar nestas coisas. Agora, acabo de receber um e-mail dizendo que se eu encaminhá-lo, o Bill Gates vai me pagar $243,0 para cada vez que o e-mail for novamente encaminhado. No mesmo e-mail, o "depoimento" de várias pessoas jurando de pé junto que é verdade, elas receberam um cheque com alguns milhares de dólares alguns dias depois! Para que trabalhar em um mundo em que para ficar rico basta encaminhar lixo para os amigos, não é mesmo? Mas não é o primeiro e-mail que recebo com este tipo de abobrinha. O que me chamou atenção, foi o que eles usaram nesse e-mail para dar "credibilidade" ao "fato":

"Saiu na revista Época repassem e lucre (sic), não é brincadeira"
"Muito estranho, mas recebi de várias pessoas confiáveis...
E mais, saiu na revista época!"

As pessoas acreditam na revista época (e similares como Veja, Superinteressante, etc). Embora eu não seja fã destas revistas, não estou dizendo que as mesmas só publiquem mentiras (apesar de que, quando publicam sobre ciência, as falhas serem frequentes). O problema é acreditar cegamente no que elas publicam. Falta senso crítico nas pessoas. Muita gente não se interessa por ciência a ponto de procurar por informações na internet e/ou revistas como estas e as poucas que o fazem não o fazem de forma crítica. Em parte, acredito que seja por que a maioria ainda vê a ciência com grande distanciamento, como algo que só os cientistas podem questionar ou criticar. Por isso, penso que um dos principais objetivos da divulgação científica tem que ser incentivar o questionamento e a crítica e ensinar critérios, o que, para mim, estão entre as melhores coisas que a ciência tem a oferecer e que de fato vai ajudar as pessoas a resolverem problemas e tomarem decisões de forma mais embasada no seu cotidiano....

...começando por usar de mais critérios ao escolher que e-mails encaminhar aos amigos! Correntes, não!

"A ignorância afirma ou nega veementemente, a ciência duvida"

Voltaire

4 de outubro de 2009

Bioinformática: season finale

Como está evidente nos últimos posts, tenho suado um pouco com a bioinformática. Mas finalmente achei uma ferramenta bem legal e simples de usar para análise de sequências: ESTpiper.

O ESTpiper é uma ferramenta de web para analisar sequências de DNA desde a primeira etapa, base calling, quando se extrai a sequência de nucleotídeos (e valores - scores - de qualidade do sequenciamento) a partir dos cromatogramas, passando pela etapa de trimming (que eles chamam de clearing) e que inclui remoção de trechos de baixa qualidade, de sequências do plasmídio, adaptadores e cauda poli A, indo adiante para a etapa de assembly, anotação e desenho de sondas para microarranjos.

É bem fácil: você envia seus arquivos pelo site (com atenção para os formatos compatíveis), ajusta os parâmetros conforme suas necessidades e você recebe um e-mail com o link para download dos resultados. O mais legal é que é possível submeter várias sequências de uma só vez, bastando compactá-las em formato ZIP, o que já salvou muitas horas de trabalho! Além disso, o ESTpiper usa programas como o Phred (basecalling), Lucy (trimming) e CAP3 (assembly) já amplamente utilizados para estes fins. Enfim, é um meio de usar o que há de melhor mas de um jeito bem "mamão com açúcar".

Eu estou usando o ESTpiper apenas até a etapa de assembly. Para anotação funcional, ainda fico com o Blast2GO, que tem muito mais recursos.

Referência:

Tang Z, Choi J, Hemmerich C, Sarangi A, Colbourne JK, Dong, Q (2009) ESTPiper – a web-based analysis pipeline for expressed sequence tags. BMC Genomics, 10:174.

19 de setembro de 2009

Bioinformatics can be that cool

Ainda não aprendi a fazer todas as análises de bioinformática como eu queria, leia-se da forma mais prática, mas estou voltando as boas com a área. É muito bonito depois do trabalhão que dá chegar até um simples arquivo FASTA, ver que aquela simples sequência de nucleotídeos codifica uma proteína interessante, tem um domínio altamente conservado (como na foto abaixo) e vai ajudar a entender um pouco mais sobre o organismo que estudamos.

Domínio FRED (NCBI)

A quantidade de informação que podemos extrair de uma sequência de DNA ou proteína usando ferramentas de bioinformática e graças a internet (a 8ª maravilha do mundo) é absurda! Dois exemplos:

O NCBI tem um banco de dados de domínios conservados onde é possível buscar na sequência de uma dada proteína a existência de algum domínio conservado. Em se tratando de uma sequência de nucleotídeos, basta traduzi-la usando por exemplo a ferramenta de tradução do expasy ou mesmo o Bioedit. Mas existem 6 possíveis traduções: 3 frames em dois sentidos. Se biblioteca de cDNA é direcional (as sequencias foram clonadas no sentido 5'3'), 3 possibilidades já podem ser eliminadas, pois conhecemos o sentido da sequencia. Entre as 3 possibilidades remanescentes, a mais provável é aquela sem um STOP codon, ou com um maior trecho sem STOP codon, mas na dúvida, não custa nada testar as três.

Como resultado, tem-se um relatório detalhado dos possíveis domínios conservados presentes na proteína. Além de informações como o valor e o score para avaliar a relevância da similaridade encontrada, é exibido um esquema indicando onde na sua sequencia está o domínio, o alinhamento de maior similaridade com um dos membros deste grupo de domínios, além de um link para a página do mesmo com várias outras informações interessantes, como estutura tridimensional, uma descrição funcional e citações na literatura. Para ver um exemplo, veja a página do domínio FRED, que achei em um dos meus clones. Muito maneiro.

Ainda vou ficar devendo um post dedicado ao Blast2GO. Eu sou fã do Blast2GO! É realmente user-friendly. Agora eles estão no twitter, pena que eu não estou mais neste miniblog irritante. Mas a segunda ferramenta interessante e que só fui usar recentemente via Blast2GO é o banco de dados Kegg Pathways que agrupa vias de reações e interações moleculares anotadas manualmente. O BlastGO identifica o código Kegg das enzimas presentes entre as sequencias anotadas e com isso é possível baixar os mapas das vias de referência das quais a enzima participa. Muito, muito maneiro também.

Update 20/09/2009:
O banco de dados de proteínas do NCBI oferece vários formatos para acessar uma dada proteína, um deles é chamado de "graphics" e é praticamente o google earth das proteínas. Mas muito mais interativo, você pode passear pelas ruas que quiser, abrir e fechar portas, olhar pela fechadura, etc, uma realidade bioquímica virtual!

21 de agosto de 2009

Homologia ou Similaridade? Nem tudo é o que parece.

Um dos principais objetivos da análise de sequências de DNA e proteínas é identificar sequências homólogas. Mas o que são exatamente sequências homólogas? Quando temos uma sequencia desconhecida que queremos identificar associando-a a uma família de proteínas de funções conhecidas, comparamos esta sequência com as dos bancos de dados utilizando um algoritmo como o BLAST. Em geral, como resultado obtemos uma lista, às vezes, grande de resultados. Seriam todas estas sequências "homólogas" a nossa sequência "problema"?

Em se tratando de análise de sequências de DNA e proteínas, muitos usam o termo homologia para expressar o que na verdade é similaridade. O BLAST e algoritmos semelhantes analisam a similaridade entre as sequências e nos dão uma lista de resultados contendo diferentes genes que apresentam graus decrescentes de similaridade com a nossa sequência problema. Similaridade é simplesmente uma forma de expressar o quanto duas sequências são parecidas e, por isso, faz sentindo dizer que a nossa sequência apresenta maior similaridade com o gene X do que com o gene Y; ou que duas sequências possuem 80% de similaridade, por exemplo.

No entanto, homologia é um conceito biológico essencialmente qualitativo. Homologia significa origem evolutiva comum. Duas sequências são homólogas quando se originaram de um ancestral comum. Assim, ou duas sequências são homólogas, ou não. Não existem seqüências com, por exemplo, 80% de homologia. Ou é, ou não é! E esta informação, o BLAST não dá.

Então, para que serve a similaridade medida pelos BLASTs da vida? E como podemos identificar a homologia?

Ninguém disse que similaridade não serve para nada! Sendo uma medida numérica pode ser relacionada com probabilidade e nos ajudar a inferir homologia, mas não sem critérios. É verdade que quanto maior a similaridade entre as sequências, menor a probabilidade de que ela tenha ocorrido ao acaso, sendo mais provavél que as duas tenham um ancestral comum e sejam, portanto, homólogas.

Então, genes homólogos apresentam sempre alta similaridade? A similaridade é evidência absoluta de homologia?

Você diria que 20 sequências de espécies diferentes que apresentam apenas um aminoácido em comum são homólogas? Seguindo o raciocínio acima, não. Mas não é verdade para a proteína ribossomal L36. Para a função desta proteína, mais importante que a sequência é a estrutura! Apesar de as proteínas L36 de diferentes espécies diferirem muito na sua sequência de aminoácidos, apresentando apenas um aminoácido conservado, a sua estrutura é conservada.

Portanto, nem todos os genes homólogos apresentam altos valores de similaridade. E a similaridade estrutural é uma informação valiosa que deve ser também acessada, sempre que possível. A porcentagem de similaridade não é a única informação que temos que avaliar para inferir a homologia entre dois genes. Nos casos em que se observa baixa similaridade, devemos avaliar alguns outros aspectos:

* Existe uma região onde a similaridade é maior entre as duas sequências? Esta região é funcionalmente importante? Por exemplo, está localizada no sítio ativo da enzima ou em um domínio de ligação?

* Os poucos aminoácidos conservados são essenciais para o funcionamento da proteína?

* Os aminoácidos não conservados apresentam as mesmas características físico-químicas? E assim poderiam, apesar de diferentes, exercerem o mesmo papel na proteína?

Um exemplo, são as proteínas que se ligam a calmodulina (uma sensora dos níveis intracelulares de cálcio). Estas proteínas se ligam a calmodulina através de um domínio que não apresenta uma sequência conservada, mas uma estrutura bem definida: alfa hélices anfipáticas, onde aminoácidos hidrofílicos estão localizados em um lado e os hidrofóbicos, no outro.

Concluindo, similaridade não é sinônimo de homologia, mas constitui um dado importante para inferirmos homologia e deve ser analisada com critérios. Estes critérios nos ajudam a determinar a significância biológica da similaridade observada cuja a primeira impressão, ás vezes, nos engana! Mesmo na biologia, nem sempre tudo é o que parece...

Referência:
Eugene V. Koonin, Michael Y. Galperin (2002) Sequence-Evolution-Function: Computational Approaches in Comparative Genomics.Kluwer Academic Publishers

Similarity Page at NCBI website

19 de agosto de 2009

Diário de uma mestranda com a corda no pescoço - 08/2009

Ok, ainda não estou tão com a corda no pescoço. Exagerei, como sempre! Mas estou quase lá. Digamos que a corda já está no pescoço, mas ainda não começou a apertar. Meu prazo é março. Mas para fazer a seleção de doutorado em dezembro, preciso ter a dissertação escrita. Ainda tenho que fazer uma disciplina de 120 horas, extrair, sequenciar e analisar quantos clones eu puder e...escrever a bem dita dissertação! Que ainda está nas primeiras páginas...mas as primeiras linhas são as mais difíceis e estas já foram. Mas é claro que ela ainda vai ser reescrita um milhão de vezes até chegar a versão final, não tenho dúvidas. Ao menos, encontrei finalmente um kit para extração de plasmídios em placas de 96 poços com pronta entrega. Não vou ter que esperar 3 meses, como de costume para muitos kits e reagentes, no Brasil. E vou poder extrair 100 plasmídios por dia sem entrar em coma depois! Ainda estou tentando me virar com a bioinformática. Na verdade, não tenho investido muito tempo nisso. Tenho que correr mais atrás, mas é difícil, acho que vou mesmo ter que colocar Linux. Estou me sentindo analfabeta em bioinformática. Em paralelo, este semestre vou trabalhar no RACE para o p53 e MXR usandoo protocolo que já funcionou muito bem para actina e também vou voltar aos hidden breaks que, admito, tinha largado de mão. Já se foram um ano e meio de mestrado e e se foram muito rápido!

13 de junho de 2009

EST analysis: o começo! (*)

Bom, este post não tem o objetivo de ser um passo-a-passo de como usar os softwares para analisar ESTs, até por que eu ainda estou aprendendo e seria um livro, não um post. A idéia é descrever teoricamente a principais etapas, que podem ser feitas por diferentes softwares. É claro, este não é um processo rígido, depende de uma série de fatores como de com que espécie se trabalha e principalmente de quais são os objetivos do trabalho.

1) Trimming

O primeiro passo é fazer uma "limpeza" (trimming) das seqüências. O sequenciamento frequentemente gera alguns trechos de má qualidade, em geral, no ínicio e no final do fragmento, ou seja, onde algumas bases não puderam ser determinadas ou não o foram com muita precisão. Estes trechos devem ser removidos para não interferir nas etapas seguintes. Além disso, frequentemente, flanqueando a sequência do inserto, ou seja, do cDNA que é o que de fato interessa, há sequências de adaptadores e do vetor utilizados. Estes trechos também devem ser removidos para que no final desta etapa haja apenas a sequência do inserto com um nível de qualidade aceitável.

De fato, a presença de sequências contaminantes (vetores e adaptadores) nas sequências depositadas nos bancos de dados tem se tornado um problema crescente, gerando uma série de problemas muito bem discutidos aqui. Diante disso, a NCBI criou um software online chamado VecScreen que detecta contaminação de sequencias exógenas submetendo a sequência de inetresse a um BLAST contra um banco de dados de contaminantes (UniVec)

No entanto, apenas uma sequência pode ser analisada por vez e o programa apenas indica onde começa e termina as sequencias contaminantes. Ou seja, não serve para identificar e remover estes contaminantes de um grande número de sequências. Para isso, existem alguns softwares disponíveis: SeqClean (Free, só roda em Linux), LUCY2 (Free, roda em windows), DNA Baser (pago, 60 dias grátis para testes), entre outros. Estes mesmos softwares também pode ser utilizados para remover os trechos de baixa qualidade.

Update 19/09/2009. Antes se seguir para a próxima etapa, é importante também "mascarar"(masking) regiões de baixa complexidade e de repetições que poderiam interferir no agrupamento, assim como nas etapas seguintes. O "masking" consiste em substituir estas regiões por N (base não determinada) e assim elas não serão consideradas no clustering, assembly, BLAST, etc. Um dos meios de se fazer isso é pelo site RepeatMasker.

2) Clustering e contigs assembly

"Clustering" consiste em dentro do grupo de sequências, agrupar aquelas que se sobrepõe e que portanto são derivadas de um mesmo fragmento maior. Em uma segunda etapa, com base nestas sobreposições, estas sequências são agrupadas em contigs (sequencia contínua consenso que representa o fragmento maior de onde as diferentes sequencias são derivadas).Vários softwares fazem este trabalho: TGI Clustering tools (TGICL) e DNA baser, por exemplo.

3) Gene onthology: BLAST2GO

Agora que temos as sequencias "limpinhas" e organizadas, o que fazer com elas? Bom, isso depende do objetivo do trabalho! No meu caso, devo fazer um BLAST para anotar o máximo de sequencias possível. Para tanto, devo utilizar a plataforma Blast2GO que além de fazer este trabalho ainda tem várias outras ferramentas interessantes! Como eu tive uma aula com uma das criadoras deste software, Dra Ana Conesa, embora ainda não o domine, tenho um pouco a mais a dizer sobre e fica pro próximo post!

*Post sujeito a atualizações!