Velozes e poderosos

Supercomputadores em rede processam e compartilham a enxurrada de informação científica do século 21 e colocam a Unesp na era do grid

texto  Igor Zolnerkevic

Quando o LHC, a supermáquina que vai colidir partículas, foi ligado em 2008 na Suíça, uma de suas características que mais rendeu destaque foi a quantidade descomunal de dados que será capaz de gerar: 15 milhões de gigabytes por ano. É tanta informação que sozinhos os computadores diretamente ligados ao LHC não têm condições de processá-la. Para analisar esses dados, está em ação uma rede computacional com cerca de 60 mil máquinas espalhadas pelo mundo, funcionando em conjunto graças a uma tecnologia chamada de grid.

Guardadas as devidas proporções, a dificuldade de processar enormes quantidades de informação não é exclusiva do LHC. O experimento foi o primeiro a adotar a tecnologia de grid, bem no início de sua construção, em 1997. Mas hoje, em várias áreas da ciência, como a genômica ou a bioprospecção de candidatos a novas drogas na natureza, está se tornando cada vez mais necessário compartilhar supercomputadores via Internet para resolver os problemas de processamento.

O “super” aqui se refere tanto à memória, da ordem de milhares de gigabytes, quanto à capacidade de realizar milhares de vezes mais rapidamente tarefas que em um computador de mesa caseiro levariam meses para ficar prontas. Tudo isso em uma rede, ou grid, inteligente, que conversa entre si e decide qual é a melhor forma de solucionar cada demanda.

O Brasil colabora com alguns grids internacionais, como o do LHC, e vem construindo seus próprios, como o do Projeto Galileu, que a Petrobras deve montar para resolver problemas da exploração no pré-sal. Acaba de ganhar mais um, que promete impulsionar pesquisas nas mais diversas áreas, o GridUnesp, cujo centro computacional foi inaugurado em 25 de setembro, no câmpus da Unesp em São Paulo.

A rede será um conjunto de supercomputadores ligados por uma exclusiva rede de fibra ótica de alta velocidade. São sete centros computacionais, sendo o maior na capital. Os demais estão em cada um dos câmpus onde se verificou, em levantamento de 2004, que há pesquisadores precisando de recursos computacionais: Araraquara, Bauru, Botucatu, São José do Rio Preto, Rio Claro e Ilha Solteira. Espera-se que todos estejam operando até o fim do ano.

Isso não significa, no entanto, que só poderão fazer uso das supermáquinas os pesquisadores lotados em cada uma dessas unidades. Via Internet, o grid estará disponível a toda a comunidade unespiana e também a colaboradores de fora que precisarem compartilhar recursos, aumentando as chances de parcerias com outras universidades, do Brasil e do exterior. “É uma estrutura que qualquer pesquisador da universidade que tenha um projeto que demande processamento será incentivado e terá suporte para usar”, afirma o coordenador do projeto, o físico Sérgio Novaes, do IFT (Instituto de Física Teórica).

A rede de alta velocidade entre os supercomputadores do GridUnesp permitirá que eles funcionem como um só supercomputador comunitário, acessível pela web. Uma vez cadastrado, qualquer pesquisador poderá, de qualquer lugar, entrar no sistema a partir de seu computador pessoal.

Na prática, será como se a Unesp tivesse um almoxarifado geral de supercomputadores (também chamados de clusters), disponíveis ao pesquisador que precise naquele momento. Depois que ele terminou de usá-lo, o supercomputador volta instantaneamente à prateleira do almoxarifado, ficando disponível aos demais.

É por conta desse compartilhamento facilitado que, para Novaes, o grid pode promover um salto na qualidade da pesquisa na universidade. Além de atender à demanda dos pesquisadores que já manifestaram interesse em usá-lo, vai incentivar aqueles que hoje não se arriscam a investigar problemas de suas áreas que exigem grandes computações por causa da dificuldade de conseguir recursos.

Os pioneiros
O conceito de grid surgiu no final dos anos 1990, durante a primeira explosão de crescimento da Internet. Quando milhões de computadores caseiros se conectaram à rede mundial, projetos científicos apareceram para aproveitar o tempo ocioso deles. O pioneiro foi o seti@home, que distribui dados de radiotelescópios para serem processados paralelamente em PCs de voluntários, em busca de sinais de vida inteligente extraterrestre. Hoje existem projetos assim para simular mudanças climáticas (climateprediction.net), analisar dados de detectores de ondas gravitacionais (einstein@home), simular formação de proteínas (foldit@home) etc.

Nesse espírito, a ideia de grid foi desenvolvida para interligar supercomputadores nos EUA e na Europa para aproveitar seu tempo livre. Mesmo em países ricos, supercomputadores são também “super” no preço e na raridade. Era preciso descobrir uma maneira de somar o poder dos centros de supercomputação e torná-lo disponível a um número maior de pesquisadores.

A solução veio em 1994, quando um grupo de cientistas da computação norte-americanos – Ian Foster e Steven Tuecke, do Laboratório Nacional Argonne, e Carl Kesselman, do Instituto de Tecnologia da Califórnia – concebeu uma visão futurística do que poderia ser um grid.

O nome “grid” vem da comparação com a rede que distribui energia elétrica (electric grid, em inglês). Quando ligamos um aparelho na tomada, não pensamos onde a energia foi gerada, se em uma pequena usina vizinha, em Itaipu ou em várias usinas ao mesmo tempo. Quem pensa nisso para nós é a operadora da rede elétrica. O sonho dos desenvolvedores da computação em grid é fazer o mesmo, de modo que seja possível no futuro plugar um notebook e receber pela tomada o poder de processamento de dados de que se precisa, vindo de fontes remotas, mas com cuja origem o usuário não precisa se preocupar.

 

Clique para ampliar o infográfico.

 

Em 1997, Foster e seus colegas criaram o primeiro pacote de programas para gerenciar um grid de clusters, o Globus Toolkit. Conhecidos como middleware, esses pacotes são os intermediários entre o computador de um usuário e toda a rede de supercomputadores do grid. Eles ficam instalados em alguns dos vários processadores de cada cluster (essencialmente, um cluster é uma pilha de processadores arranjados em prateleiras). Os processadores com middleware atuam como gerentes dos demais, distribuindo tarefas para eles. Seu objetivo é fazer com que o software no computador do usuário “enxergue” o grid como um único grande hardware, em vez de uma coleção heterogênea de clusters.

O middleware também livra o usuário do pesadelo de precisar abrir uma conta de acesso em cada uma das dezenas de centros que podem fazer parte de um grid internacional. “Ele evita que o usuário tenha que bater à porta de um determinado centro e enfrentar a burocracia de permissão de acesso”, explica Rogério Iope, doutorando em engenharia da computação na USP e membro da equipe técnica que montou e gerencia a infraestrutura do GridUnesp. Isso inclui a instalação dos clusters em salas equipadas com a instalação elétrica e a refrigeração especial que essas máquinas precisam, além dos equipamentos que transmitem e recebem dados pelas redes de fibra ótica que interligam o grid. Esses últimos são tão importantes quanto os próprios clusters.

Alta velocidade
O poder de um grid não vem só do número e do tamanho de seus clusters, mas principalmente da velocidade da rede de fibra ótica que vai interconectá-los. Se a rede for extremamente rápida, o processo de enviar partes independentes de um problema a muitos processadores distantes quilômetros uns dos outros, esperar que eles as processem e enviar de volta os resultados vai ser mais rápido que o tempo para um único computador (mesmo um supercomputador) chegar à solução.

Aliás, é o aumento exponencial da velocidade de transmissão de dados por fibras óticas – o valor máximo da velocidade tem dobrado a cada nove meses – que valoriza cada vez mais os grids. “Esse é o próximo desafio: construir redes tão rápidas que não importa se o seu recurso computacional está aqui ou lá longe”, explica o engenheiro Gabriel Winckler, da equipe do GridUnesp. De acordo com Iope, os pulsos de luz que carregam os dados pela fibra poderão chegar a transmitir até dezenas de milhares de gigabits por segundo. Por enquanto, os mais modernos “switches óticos” são capazes de transmitir regularmente até 40 gigabits por segundo.

Os equipamentos que Iope e seus colegas estão instalando nas pontas das fibras do GridUnesp vão conectar os clusters de Bauru, Botucatu, Ilha Solteira, São José do Rio Preto e Rio Claro ao de Araraquara a uma velocidade de 1 gigabit por segundo. O cluster de Araraquara ficará conectado ao centro de computação do câmpus em São Paulo – que na verdade inclui dois clusters: o central e um menor, igual aos do interior – a 10 gigabits por segundo.

De São Paulo sairão duas conexões do GridUnesp com a Internet 2 (uma espécie de versão melhorada da Internet normal, dedicada a fins acadêmicos), ambas com velocidade de 10 gigabits por segundo.

Zetabytes
Adquirir uma conexão de Internet 5 mil vezes mais rápida que uma banda larga caseira é uma decisão crucial diante da enxurrada de dados prevista para os próximos anos. Os cientistas da computação estimam que o total de dados atualmente seja de dezenas de bilhões de bilhões de gigabytes (zetabytes). Por conta do barateamento e miniaturização de discos de armazenamento e de sensores eletrônicos, a quantidade de dados científicos disponíveis em formato digital dobra por ano. É o que se chama de crescimento exponencial.

No desafio de extrair conhecimento de tanta informação, a ciência da computação terá um papel central na atividade de todos os cientistas, da mesma forma que a matemática tem na dos físicos.

A aplicação cada vez mais corriqueira de ferramentas de computação implica que o conhecimento científico não fica mais registrado apenas na forma de artigos em revistas especializadas, mas também em bancos de dados e programas de computador, disponíveis on-line para toda a comunidade científica avaliar e usar.
Esses serviços vêm florescendo em infraestruturas de grids nacionais ou continentais, como o Enablig Grids for E-Science (EGEE) e o Open Science Grid (OSG).
Patrocinado pela União Europeia, o EGEE é o maior grid do mundo, com 290 centros em mais de 50 países, a maioria na Europa, mas com parceiros em todos os continentes, incluindo a América Latina, pelo projeto EELA, do qual participam dez grupos brasileiros. O segundo maior é o OSG, que conglomera os recursos de mais de 75 centros computacionais nos EUA e conta com colaboradores na África do Sul, na China, no México e no Brasil.

 

Clique para ampliar o infográfico.

 

O GridUnesp é um dos parceiros oficiais do OSG desde 2008, quando foi assinado um acordo inicial que permite que por cinco anos pesquisadores da Unesp usem recursos do OSG e vice-versa. O middleware do GridUnesp, por exemplo, será o mesmo usado pelo OSG.

“Trabalhando juntos, OSG e GridUnesp tornarão seus softwares e serviços mais robustos e reutilizáveis, e o conjunto de conhecimento coletivo, mais profundo e eficaz”, explica a física Ruth Pordes, diretora executiva do OSG. Segundo ela, a parceria vai incrementar a colaboração entre universidades brasileiras e americanas na comunidade de físicos que usam o acelerador de partículas Tevatron, do Fermilab, nos EUA, e o LHC, no Cern, na Suíça.

Na verdade, a Unesp já colabora com o OSG desde 2005, através do Centro Regional de Análises de São Paulo (Sprace, em inglês), um grupo de pesquisadores de física de partículas liderado por Novaes. Seu cluster, adquirido em 2003, está instalado no Instituto de Física da USP e deve em breve ser transferido para ficar ao lado do cluster central do GridUnesp.

A implantação
Ainda em 2003, Novaes levou à administração central da universidade a ideia do grid. Em 2004, a então Pró-Reitoria de Pesquisa e Pós-Graduação fez um levantamento da demanda dos pesquisadores por computadores. Baseada nesse estudo, a Unesp submeteu naquele ano uma proposta à Finep (Financiadora de Estudos e Projetos). A agência federal aprovou o projeto, para o qual destinou R$ 4,4 milhões.

Desse total, R$ 3 milhões foram investidos na compra dos oito clusters. Eles foram adquiridos da Sun Microsystems após uma rigorosa seleção. Essa operação foi muito vantajosa para a Unesp não só no aspecto tecnológico, mas também no econômico, pois o custo final foi inferior ao previsto e permitiu realizar outras despesas.

Cerca de R$ 1,35 milhão foi aplicado na compra de equipamentos de transmissão de dados para a rede de fibras óticas que interliga, em caráter experimental, vários centros acadêmicos do Estado de São Paulo pela rede Kyatera, um projeto da Fapesp para  tecnologias experimentais de transmissão de dados. Com a nova conexão, essa rede passa a estar ligada também à Internet 2. “Vamos elevar o tráfego acadêmico do Estado inteiro”, diz Novaes.

Foram necessários também mais R$ 3,6 milhões, desembolsados pela Reitoria,  para adaptação das obras durante a construção do novo prédio do IFT, aquisição de equipamentos de apoio, como os de refrigeração e de energia elétrica, além da implantação de infraestrutura nos outros seis câmpus ligados ao grid.

Os projetos de pesquisa que justificaram a instalação do GridUnesp abrangem diversas áreas do conhecimento. Em São Paulo, por exemplo, além do Sprace, há o grupo do físico Gastão Krein, do IFT, que utilizará o grid para analisar o comportamento das partículas mais elementares do núcleo atômico, integrando-se à comunidade internacional de pesquisadores, que é uma das que mais usam grids.

O Grid é capaz de realizar em 12 horas tarefas que um computador comum levaria três dias para processar. Em alguns casos, como nos cálculos de física de partículas, a perfomance da supermáquina chega a ser 5 mil vezes mais rápida

Em Araraquara, o Núcleo de Bioensaios, Biossíntese e Ecofisiologia de Produtos Naturais pretende armazenar no grid seu banco de dados de substâncias de possível interesse farmacológico extraídas de plantas, fungos e animais marinhos. O armazenamento de novos tipos de dados atômico-moleculares e o uso de técnicas computacionais da chamada “biologia sistêmica vai acelerar as análises do núcleo”.

Pelo menos quatro grupos de Bauru se beneficiarão com o superprocessamento, que simulará o comportamento de elétrons e núcleos atômicos. Isso permitirá explicar propriedades magnéticas e supercondutoras de materiais inorgânicos e reações bioquímicas de aminoácidos e DNA.

Em Rio Claro, o GridUnesp deve ser usado na construção de mapas geológicos dinâmicos em três dimensões, de árvores filogenéticas de insetos sociais e para simular a formação de proteínas a partir de sequências de aminoácidos. Em Botucatu, pretende-se usar o grid na simulação de novas técnicas de radioterapia.
Cientistas de Ilha Solteira vão simular o escoamento de materiais fluidos como líquidos e gases para aplicações em engenharia mecânica e na dispersão de poluentes em rios e na atmosfera. Em São José do Rio Preto, o grupo de segurança de redes poderá acelerar suas pesquisas para a prevenção e o rastreamento de ações cyberterroristas.

A equipe do GridUnesp espera ainda que outros pesquisadores da universidade se animem a participar. “Se um pesquisador conseguir disparar em 12 horas uma rodada de simulações de moléculas que demora três dias em um computador normal, ele vai ganhar muito”, diz Winckler.

Mudança cultural
Com a evolução da tecnologia, que exige cada vez mais o compartilhamento de recursos, a própria cultura das comunidades científicas precisa evoluir para se tornar mais colaborativa que competitiva. “O benefício de deixar seus dados disponíveis on-line é estupidamente maior que o risco de ser plagiado”, considera o bioinformata Ricardo Vêncio, da USP de Ribeirão Preto. “Na física de altas energias você tem 3 mil pessoas trabalhando em um único detector”, aponta Novaes. Se alguém comete um erro, todos saem perdendo. É um por todos e todos por um.

No final, o desafio de operar grids internacionais é mais que tecnológico: é também político e cultural.

________

 

 

Rastro de partículas elementares
O primeiro grid em escala mundial, o do LHC, foi inaugurado em 2003, com mais de 170 centros espalhados em 34 países, incluindo o Brasil, onde ficam dois deles, um na Universidade Estadual do Rio de Janeiro e outro na Unesp.

Os dados brutos do LHC são sinais eletrônicos registrados pelos seus quatro detectores. Os sinais são uma espécie de rastro deixado pelo surgimento de partículas elementares durante a colisão frontal de dois feixes de prótons acelerados quase à velocidade da luz. Os físicos descobrem novas partículas comparando esses rastros com simulações computacionais. É por isso que, mesmo antes de o próprio acelerador funcionar, o grid já vem trabalhando.

Desde 2006, o Sprace faz simulações de como as colisões serão observadas pelo detector CMS (Solenoide Compacto de Múons, na sigla em inglês).

_______________

 

Deixe uma resposta

*