#27PerspectivasCulturaSociedade

Dados no jornalismo

por Guilherme Felitti

As milhares de partidas de tênis profissional jogadas entre 2009 e 2015, dos challengers aos quatro Grand Slam anuais, seguiram a cobertura tradicional da imprensa: entrevistas pré-jogo, transmissões ao vivo, compactos dos melhores momentos e coletiva com ganhadores e perdedores. Esse método de cobertura destacou histórias que seguiam mais ou menos os scripts padrão de narrativa de qualquer esporte: a vitória que levava ao título, a derrota no momento errado, um renascimento após anos de dificuldades…

Havia, porém, outro ponto de vista jornalístico que só foi explorado anos depois, quando os troféus acumulavam poeira e alguns atletas já tinham se aposentado. Uma análise dos dados sobre as apostas em mais de 26 mil partidas, feito em conjunto pelo BuzzFeed e pela BBC, mostrou que 15 tenistas profissionais, todos classificados entre os 50 melhores do mundo, perderam partidas nas quais eram apontados como amplos favoritos à vitória nas casas de apostas com uma frequência suspeita.

No lugar de microfones, gravadores e máquinas fotográficas, a equipe por trás da descoberta fez jornalismo usando a linguagem de programação Python e estatística. O levantamento, publicado em janeiro de 2016, coletou dados de sete casas de apostas e criou um banco de dados cruzando as chances de cada tenista ganhar o jogo segundo as apostas e o resultado final da partida.

O que se buscava eram partidas onde o volume de apostas no provável perdedor crescia espantosamente nas horas anteriores à bolinha quicar e o amplo favorito acabava derrotado. Perder um ou outro jogo quando as apostas são altas a seu favor acontece. Derrotas regulares, porém, fazem as autoridades farejarem a ação da máfia das apostas. Os grupos, concentrados na Rússia e na Itália, oferecem uma quantia na casa das dezenas de milhares de dólares para que um jogador perca sua partida para, depois, embolsarem muito mais nas casas de apostas.

O material desengatilhou respostas raivosas de figuronas do tênis, como atletas aposentados e cartolas incomodados, e governantes prometeram investigações.

Entre centenas de outras reportagens baseadas em dados, o que chama atenção sobre a investigação envolvendo o tênis é que o furo jornalístico estava ali há anos na cara de todos, enterrado debaixo de uma montanha de números. Há também uma mudança de método. Além da reportagem, os veículos publicaram os dados brutos e o algoritmo criado para chegar à lista dos suspeitos. Você vê jornais e revistas publicando a íntegra da entrevista?

Interpretar dados para obter um entendimento mais profundo de algum assunto não é um conceito novo. Em 1854, o médico John Snow inaugurou, sem saber, o que chamamos hoje de visualização de dados, ao mapear os casos de cólera de um bairro e descobrir que todos se concentravam ao redor de bombas de água. No jornalismo, o norte-americano Bill Dedman já usava computadores em 1988 para descobrir como bancos não emprestavam dinheiro para negros na premiada série Color of money.

Hoje, filtrar, visualizar e processar dados se tornou uma tarefa rotineira em redações pelo mundo. O Brasil ainda está atrás dos Estados Unidos e da Inglaterra, por exemplo, mas tem alguns bons exemplos, como o Estadão Dados, responsável por descobrir no banco de dados do IPTU de São Paulo que o presidente Michel Temer repassou ao nome do filho de 7 anos um conjunto de escritórios avaliado em R$ 2 milhões. O arquivo do IPTU, divulgado pela gestão Fernando Haddad, tem 1 GB. Boa sorte ao tentar abri-lo com um editor de planilhas gráfico, como o Excel. Para manipulá-lo, é preciso escrever um algoritmo. O mesmo se aplica aos dados com os gastos do Governo Federal publicados mensalmente no Portal da Transparência. Cada ano de informações ocupa cerca de 3 GB. Imagine quantos furos não estão enterrados ali.

Com o aumento no número de bancos de dados públicos disponíveis para acesso da sociedade civil (com alguns problemas, a Lei de Acesso à Informação completou 5 anos em maio), a habilidade de “mergulhar” nos dados e trazer à tona informações jornalisticamente relevantes tende a se tornar ainda mais relevante. Isso exigirá um grande número de jornalistas com conhecimentos técnicos muito específicos, como criar algoritmos. Nos EUA, já existem cursos dedicados a ensinar jornalismo a programadores e vice-versa. No Brasil, os interessados ainda são obrigados a fazer uma espécie de autoeducação com livros, vídeo-aulas e a generosidade de programadores.

Há quem defenda que o jornalismo de dados abrirá espaço para um novo perfil de jornalista, ocupado em vasculhar gigabytes atrás de furos. O argumento, porém, tem suas falhas, e a investigação sobre o tênis é um ótimo exemplo. A inteligência por trás dos dados corroborou uma apuração feita pelos métodos “tradicionais” de jornalismo, como entrevistas e levantamento de documentos. É algo que Paul Steiger, fundador do ProPublica, definiu muito bem: “os dados são só o começo. Você precisa gastar a sola do sapato apurando para encontrar a história humana por trás das estatísticas”.

No fim das contas, o jornalismo de dados não se propõe a substituir o jornalismo de letras. É, na verdade, uma ferramenta a mais na caixa que todo jornalista carrega para apurar seus fatos, contradizer as histórias e descrever o que encontrou para o leitor. O objetivo do jornalista continua o mesmo.