The End of Theory: The Data Deluge Makes the Scientific Method ObsoleteArtigo de Chris Anderson para a Wired "Todos os modelos estão errados, mas alguns são úteis."
Assim proclamou George Box trinta anos atrás, e ele estava certo. Mas que escolha temos? Apenas modelos, de equações cosmológicas a teorias do comportamento humano, pareciam poder explicar o mundo a nossa volta. Até agora. Companhias como a Google, que cresceram numa época de dados abundantes, não tem que seguir modelos errados. Na verdade, não tem que seguir modelo nenhum.
A publicidade do Google conquistou o mundo com nada mais do que matemática aplicada. A filosofia do Google não é saber o porquê desta página é melhor do que uma outra: se as estatísticas dizem que é, isso já é o suficiente. É assim que o Google pode traduzir línguas sem realmente sabê-las. E, pelo mesmo método pode correlacionar anúncios ao conteúdo, sem qualquer conhecimento ou suposições sobre os anúncios ou o conteúdo. Esqueça taxonomia, ontologia, e psicologia. Pra que saber a razão pela qual as pessoas fazem o que fazem? O ponto é que eles fazem isso, e nós podemos acompanhar e medir com fidelidade sem precedentes. Com dados suficientes, os números falam por si.
No entanto, o grande impacto aqui não é na publicidade. É na ciência. O método científico é construído em torno de hipóteses testáveis. Estes modelos, na sua maior parte, são sistemas visualizados nas mentes dos cientistas. Os modelos são testados em seguida, para confirmar ou não experiências e modelos teóricos da forma como tudo funciona. É como a forma como ciência vinha trabalhado durante centenas de anos. Mas confrontados com enormes de dados, esta abordagem da ciência (hipótese, modelo, teste) está se tornando obsoleta. Existe agora uma maneira melhor. Petabytes (milhões de gigas) nos permitem dizer: "Correlação é o suficiente." Nós podemos parar à procura de modelos. Podemos analisar os dados sem hipóteses sobre o que poderia mostrar. Podemos jogar os números para os maiores pólos de computação que o mundo já viu e deixar algoritmos estatísticos encontrar padrões onde a ciência não pode.
Um bom exemplo desta prática é o seqüenciamento genético feito por J. Craig Venter (ver
este artigo da Veja). Possível graças a alta velocidade de supercomputadores, Venter passou de seqüenciamento de organismos individuais para a sequenciação de ecossistemas inteiros. Já descobriu milhares de espécies de bactérias anteriormente desconhecidas. É fato que Vener pouco sabe sobre a aparência e modo de vida das espécies que descobriu. Ele sequer tem o seu genoma inteiro. Tudo que ele tem é uma única seqüência de que, sendo diferente de qualquer outra seqüência no banco de dados, deve representar uma nova espécie. Tal seqüência pode ser semelhante a outras que lembram espécies conhecidas. Neste caso, Ventre pode fazer algumas suposições sobre suas descobertas.
Este tipo de pensamento está pronto para entrar no mainstream. Em fevereiro, a National Science Foundation anunciou o Cluster Exploratory (ver
http://www.nsf.gov/clue), um programa que reúne uma plataforma de computadores distribuída. O bloco será composto de 1600 processadores, vários terabytes de memória, e centenas de terabytes de armazenamento. Utilizará software da IBM e versões do Google File System e MapReduce. Os primeiros projetos deverão ser simulações do cérebro e o sistema nervoso.
As possibilidades são instigantes: a disponibilidade de enormes quantidades de dados, juntamente com as ferramentas estatísticas, oferecem toda uma nova maneira de compreender o mundo. Correlação substitui causalidade, e a Ciência pode avançar mesmo sem modelos coerentes, teorias unificadas, ou mesmo sem qualquer explicação mecanicista. Será?
(trecho de http://www.wired.com/science/discoverie ... /pb_theory)