Otimização e Desenvolvimento de Ferramentas para BioInformática: Pipelines Metagenômicos, com Raquel Dias

13º Fórum de Informática SETREM - Anotações da segunda noite, trabalho de mestrado de Raquel Dias.

Atividades de um "Informata" na Biologia.
Raquel é formada em Biologia e está fazendo mestrado em Computação.
Laboratório de Alto Desempenho - PUCRS
Raquel.dias.001@acad.pucrs.br
www.lad.pucrs.br

Otimizações quantitativas
Processamento paralelo e distribuído
Otimização qualitativa
 - altera a estratégia para encontrar uma solução

APLICAÇÕES DE TI NA BIOLOGIA

Genética
 - Bases de dados (NCBI, GenBank)
 - Pós-Processamento Genômico
 - Pós-processamento metagenômico
 - Análise filogenética
 - Simulações evolutivas

Bioquímica
 - Bando de dados de proteínas (PDB)
 - Modelagem molecular
 - Visualização de proteínas
 - Dinâmica molecular (reações enzimáticas)

ÁREA DO TRABALHO DE MESTRADO DA RAQUEL

Metagenômica
 - Sequenciamento genético
 - Abordagens
   - Metatranscriptônicas
   - Sequenciamento baseado no gene 16S

Inicialmente são coletadas amostras ambientais, após estas amostras passam por um sequenciador (hardware - verifica pelo PH da amostra em um solvente - pega letra por letra) que gera um TXT com os dados genéticos.
Após o sequenciamento é necessário a análise dos dados genéticos para descobrir de que organismos são as sequencias genéticas encontradas, para isso utiliza-se bases de dados como NCBI.
Também é feito uma análise filogenética verificando mutações e comparando com outros organismos da mesma amostra etc.

Illumina: Sequenciamento em larga escala

Como melhorar estas etapas necessárias para analisar os dados genéticos?

 - Dados de entrada: bases nucleotídicas, várias amostras.

 - Pós-processamento metagenômico.

 - Pipelines metagenômicos: Mothur, RDP, Galaxy, MEGAN, RAST, PANGEA.

 - Versões offline são de código-aberto, PANGEA é um dos mais completos, por isso foi escolhido para o trabalho.

 - Linguagem PERL é ótima para trabalhar com strings/textos, então foi escolhida para manipulação das sequencias genéticas.
 - C foi escolhido para cálculos, processamentos.
 - Java para visualização dos dados.

Etapas - fases de processamento
1. Entrada de dados
1.1 Filtro de qualidade das sequencias genéticas

2. Métodos de Classificação de Espécies utilizados paralelamente para chegar ao resultado:
 - BLAST
 - RDP
 - SOAP2

3. Comparação dos resultados encontrados pelos 3 métodos para chegar a consenso.

4. Pós-processamento: análise e resumo dos resultados para apresentação ao usuário.

Otimizações execução
 - Paralelização do algoritmo BLAST que é o mais demorado e completo, distribui a execução em várias máquinas/processadores.

Melhorias
 - Resultados exibidos de forma mais clara, com mais dados, náo apenas o código do banco de dados.

Resultados
 - 500x mais rápido a execução
 - 125x mais rápido leitura dados NCBI
 - Aumentou o nível de certeza dos resultados

Atividades pendentes
 - publicação: BMC Bioinformatics

Exemplo apresentado: GenomaQuest - online, modificação do PANGEA.

Interoperabilidade Windows Linux, com André Rushel

13º Fórum de Informática - Anotações da primeira noite.

A abertura da noite foi feita por Fábio Hara, de forma remota, comentando sobre o trabalho do André Rushel.

André é, atualmente, MVP, Most Valuable Professional da Microsoft, palestrou nesta noite sobre ‘Interoperabilidade de Servidores: Microsoft e o Mundo OpenSource’.

Seguem anotações:
  • http://www.microsoftvirtualacademy.com - Muitos treinamentos grátis, dica do Fábio.
  • http://lwn.net/ - Software livre, notícias etc.
  • Debian-Interix.net - Tem a ver com o SUA, não sei quem copiou de quem.
  • http://suacommunity.com/ - SUA, Linux no Windows, comandos etc.
  • VDI - Virtual Desktop Infrastructure
  • MDT - Microsoft Deployment Toolkit -> Migrar Windows XP para 7 por exemplo, instala drivers, copia arquivos, ingressa no mesmo domínio etc. Grátis.
  • MAP - Utilizado para fazer inventário hardware via rede, gera um arquivo XLS, grátis, para windows w linux.
  • ACT - Application Compability Toolkit, colocar aplicações para rodar em modo de compatibilidade, permissão de administrador... tutorial do ACT.
  • Seamless (RDP?) - utilizado para acessar apenas determinada aplicação remotamente, sem precisar acessar toda a área de trabalho, roda em Windows/Linux.
  • Hyper-V 3 
    • Live Migration (SMB 3.0): muito bom, tem um vídeo da migração de um servidor de uma máquina para outra sem parar os serviços.
    • Replication - fazer cópia de uma máquina virtual...
  • SysInternals - ferramentas top grátis, de um russo...
    • Disk2vhd - transforma máquina física para virtual
    • ZoomIt - ferramenta para dar zoom...
    • AviCode - verifica erros desenvolvimento
  • Windows To Go - Windows no pendrive, postagem do André.
  • Programa MSP - Estudantes - Microsoft Student Partners
  • Problemas: Não tem Azure no Brasil? Sistemas lentos? tem que verificar. Citrix é melhor? parece que sim, mas bem mais caro também.  
Em resumo, foram as minhas anotações....  com alguns links adicionados, breve pesquisa no Google :)

[Atualização - 2012-07-06]

Hoje recebi um e-mail da Microsoft com o certificado pela participação deste evento, legal.


CT1/NSCAD - Inscrições Abertas - Curso de Formação de Projetistas de Circuitos Integrados

Curso de Formação de Projetistas de Chips

O desenvolvimento de chips é um mercado em crescente expansão com possibilidades de trabalho em todo o mundo. Salários iniciais no Brasil variam de R$3.000,00 a R$6.500,00 para projetistas juniores, podendo chegar a R$14.000,00 para projetistas experientes.

Formados em Engenharia da Computação, Eletrônica, Elétrica, Informática e cursos afins que queiram ingressar nesse mercado de trabalho podem inscrever-se no Programa Nacional de Formação de Projetistas de Circuitos Integrados até o dia 17/06/2012 através do site www.ct1.ci-brasil.gov.br/index.php/centros-de-treinamento/ct1-rs.html

O Programa conta com 15 instrutores certificados por empresa dos Estados Unidos, líder global com mais de 20 anos de experiência no mercado. O Programa, que já formou cerca de 500 projetistas, oferece:

·         Bolsa de R$ 2.000,00 durante os 12 meses de curso
·         Aulas teóricas de projeto nas tecnologias mais atuais
·         Aulas práticas em laboratório com ferramentas comerciais
·         Projeto de chip focado em aplicação real
·         Encaminhamento para estágio remunerado ao término do curso

Muitos dos egressos do Programa de Treinamento trabalham hoje em empresas nacionais como Semp-Toshiba, Digitel, Datacom, Elo, Ceitec, Freescale e CPqD. Além dessas, outras empresas brasileiras que também utilizam mão-de-obra qualificada nesta área estão listadas em www.ci-brasil.gov.br/index.php/design-house.html. Antes de ingressar no mercado de trabalho, alguns dos egressos continuam aprimorando seus conhecimentos em países como França, Coréia do Sul, Estados Unidos e Japão.

--
Coordenação do CT1 Programa Nacional de Formação de Projetistas de CIs
Programa CI Brasil
Ministério da Ciência, Tecnologia e Inovação (MCTI)

Recebi por e-mail.