Gerente do setor de banco de dados, Carlos Henrique Kauffmann conta sobre o projeto que custou três milhões de reais
Sem um criador específico, o Acervo Folha é uma iniciativa do jornal Folha de S.Paulo para resgatar publicações antigas e disponibilizá-las a um público mais amplo que jornalistas e pesquisadores. Atualmente com acesso gratuito, o acervo, no entanto, será mais tarde exclusivo aos assinantes – a Folha visa valorizar o consumidor do impresso com conteúdos digitais. O trabalho é feito por vários setores da empresa, como o banco de dados, gerenciado por Carlos Henrique Kauffmann. Entrevistado pelo Site, ele conta mais sobre o projeto:
Em que consiste o projeto Acervo Folha?
O Acervo Folha é um local onde nós iremos dar acesso a todas as publicações anteriores do grupo. Isso envolve não apenas os jornais que geraram a Folha de S. Paulo, mas também outras publicações que a gente pretende inserir. É um projeto em constante andamento: todo dia tem uma edição nova para ser agregada. É uma iniciativa aberta, em desenvolvimento. Foi lançada no aniversário de 90 anos do jornal, mas vai ser constantemente aprimorada. Além disso, existem novos títulos que compõem o nosso portfólio. A idéia é que nós façamos também uma revisão do trabalho atual, porque existem algumas páginas que não têm legibilidade. Nós pretendemos fazer, paulatinamente, a substituição destas páginas por imagens melhores.
Como os jornais antigos foram resgatados?
Nem sempre a edição mais antiga é a mais difícil de ler. Em algumas fases do jornal, as impressões eram feitas em papéis de pior qualidade. E há casos de problema até na própria microfilmagem. O exemplar pode não ser tão velho, mas a microfilmagem teve algum erro que gerou problemas de foco, de distorção de imagem. Além disso, existem problemas particulares com a microfilmagem que foi feita com os jornais a partir da década de 1980. Os jornais da década de 1980 e 1990 começaram a usar cores de uma forma mais intensa. Os azuis e os rosas claros nos microfilmes ficam pretos, porque ele usa bitonal – ou é branco ou é preto. Isso prejudica muito a leitura dos textos que estão dentro de artes, em boxes, fotos coloridas. Vai dar muito trabalho recompor. A informação das fotos é muito mais difícil de resgatar, por causa desse mesmo problema da microfilmagem que dá o efeito de silhueta. Muitas vezes, não se consegue enxergar o que a foto.
Os jornais mais antigos estavam encadernados e a gente optou por deixá-los assim. Então, por vezes, a lombada fica distorcida, não dá leitura na borda do jornal. Não é um problema nem da microfilmagem, nem do jornal, mas do processo usado para captar as imagens.
Como é feita a digitalização?
Há várias etapas que a Digital Pages desenvolve. Começa com o material bruto, que tem que ser o microfilme, porque o jornal de papel não tem resistência para ser escaneado. Por ele estar encadernado, não pode passar pelo scanner de tração. Tem uma série de limitações que fazem com que o jornal tenha que ser reproduzido, basicamente, nesse volume, só no microfilme. Eles têm uma espécie de projetor que passa esse filme muito rapidamente, já digitalizando cada fotograma. Depois tem uma etapa de corte, para determinar onde acaba e onde termina a página. Eles fazem a organização dos fotogramas em páginas e em cadernos. As imagens são salvas no formato TIF, cruas, e lidas por um software de reconhecimento de caracteres. Tudo que está escrito lá dentro. A imagem vira texto bruto, que é um texto sujo que o software vai ler, mas vai ler e ter dúvidas. Esse é um texto tão sujo que a gente optou por não mostrá-lo ao usuário. Ele funciona apenas como índice de busca, o qual é feito no software com a imagem. Assim, é criado um PDF que vai juntar as duas coisas. Esse PDF vai associar imagem e texto. O texto também está referenciado na página, a palavra tal está em tal posição na página, ele marca, ele tem essa memória da localização. Tanto que, se você fizer uma busca no site ele vai aparecer grifado o resultado.
A empresa fica encarregada de montar um índice baseado no banco de dados para as pessoas realizarem buscas já num ambiente de visualização. É um desejo nosso também ter uma busca boa e detalhada, que pudesse buscar qualquer palavra. Não apenas aquelas que estão vinculadas a datas ou ao título, aquela indexação mais básica, que no fundo é a indexação do microfilme.
Qual é a finalidade do Acervo Folha?
A finalidade é dar acesso a uma coleção que estava muito restrita, no papel e no microfilme. O papel, pela antiguidade, é um material que está perdendo vida útil, então, o acesso aos terminais de consulta dos impressos foi praticamente interditado. Já o microfilme tem um número de cópias muito baixo e só pode ser consultado em equipamentos específicos. Aqui na Folha, por exemplo, só há três máquinas e os jogos de microfilmes são apenas dois: um para uso e outro original que é guardado fora do prédio, para preservação. A cópia prata, que é a primeira geração do microfilme, não é usada. Nós utilizamos uma cópia da matriz.
O microfilme se conserva muito mais que o papel. Enquanto a vida útil do papel é de 100 anos, a do microfilme é de 500, isso levando em conta a possibilidade de se fazer cópias sem perder a qualidade. A finalidade é ampliar o acesso, que antes era restrito, a todos os usuários e interessados, inclusive jornalistas. Os jornalistas estavam precisando de uma ferramenta como essa, porque a gente viu o próprio volume de consultas aumentar dentro da redação. Cada vez mais a informação precisa chegar ao terminal do computador do próprio repórter. Está se modificando o comportamento do jornalista vir até aqui e fazer uma pesquisa. Normalmente é a gente que leva a pesquisa, as imagens digitais, o clipping.
Ele foi criado para atender a um grupo específico de pessoas?
A gente tem percebido que os jornalistas estão usando mais o acervo e que os pesquisadores, que estão na internet com esse acesso livre, também. O Acervo Folha quer atender a vários grupos de pessoas, desde uma forma mais genérica (para o leigo que quer ver a capa do dia do seu aniversário ou qualquer outro assunto também que ele queira pesquisar) até pesquisadores e jornalistas. Também tem o uso interno. Nós, do banco de dados, estamos usando muito o Acervo Folha para fazer pesquisas que, normalmente, teríamos que fazer no microfilme ou no papel.
Quem criou o projeto? De quem foi e de onde surgiu a idéia?
O desejo de ter a coleção da Folha digitalizada vem de muito longe. Há pelo menos dez anos estamos pesquisando. Não houve uma assinatura, uma pessoa que tenha criado. Eu vejo como um trabalho de equipe, não só do banco de dados como de outras áreas do jornal. Ele apareceu quando houve meios para que um projeto deste tamanho aflorasse, pois demanda tecnologia e capacidade de armazenamento. Você precisa ter redes robustas, banda larga. São várias condições para que isso exista.
O projeto é uma ambição antiga e apareceu quando as empresas que trabalham nessa área de acervos começaram a dominar uma produção mais industrial de digitalização. O trabalho digital e técnico foi de autoria da empresa que a gente contratou, a Digital Pages. Ela não fez trabalhos somente para a digitalização da Folha, mas também para a revista VEJA, Quatro Rodas e Valor Econômico. Eles fazem edições em outras plataformas, jornal no iPad, jornal no tablet, smartphone. Enfim, é uma empresa que é especializada nisso e tem meios e equipamentos.
Quem patrocinou o projeto? Quem o mantém atualmente?
Foi a própria Folha que bancou o projeto. A informação é que custou 3 milhões de reais. Quem o mantém o Acervo é o setor do banco de dados, que faz a gestão do conteúdo. A Digital Pages, que foi quem desenvolveu o site, tem um suporte, uma equipe que deixa aquilo no ar. Tecnicamente, a manutenção está na mão deles ainda.
Como está o acesso ao site?
Posso lhe dizer que é um sucesso. Eu tenho recebido e respondido muitas mensagens dos usuários. Mesmo quando é uma reclamação, sempre vem um elogio. Tem havido uma boa receptividade, mesmo com todos os problemas que existem e a gente realmente os reconhece. A Folha publicou uma matéria sobre isso.
O que as pessoas costumam dizer nos comentários?
Os comentários têm sido muito legais, eu já respondi uns 100 e-mails, fácil! Isso tudo em menos de um mês de site. Dizem que o “site é muito bom, está ótimo, mas tem esse probleminha aqui, tem isso aqui que não está funcionando, esta página que está faltando”. Esses são os problemas, mais algumas lacunas da coleção, às vezes um problema de organização na hora da digitalização, problemas do microfilme e do software que tem alguns bugs na busca. Mas a gente está resolvendo isso relativamente rápido.
Por quanto tempo a Folha pretende manter o serviço gratuito? Quanto durará o “período de degustação”?
Inicialmente dois meses, mas esta data ainda não está fechada.
Quando este período acabar, vocês já sabem quanto o acesso custará aos usuários?
O valor do acesso ao acervo é o mesmo valor da assinatura do jornal (R$341,50 anuais). Os assinantes das versões digitais e impressas terão acesso ao acervo online. Todo assinante Folha vai poder conferir o Acervo Folha. Isso, na verdade, é para criar um diferencial, criar um valor na assinatura. Eu acho que faz sentido valorizar o assinante, que é quem paga o nosso salário. Assim não fica aquela sensação de que você dá de graça na internet e depois tem que retroceder porque não deu certo o modelo. O nosso modelo certamente vai dar certo, porque ele já funciona nessa base de assinantes. A tendência é que seja mais um argumento para firmar a fidelidade com esse assinante, para mantê-lo na carteira. É um esforço que acho bacana, porque ele está ajudando o jornal de papel, principal produto da casa.
De que modo se pretende cobrir os gastos?
É uma boa pergunta. Mas vejo o Acervo Folha como um investimento institucional muito importante para a empresa. Se quisessem fazer uma campanha, teriam que gastar dez vezes este valor, mas talvez o coração das pessoas não fosse atingido. Eu acho que o acervo online atinge por aí: pega pelo lado de gostar da marca, de recuperar coisas que já leu, que já gostou, que já tenha experimentado. Acredito que o gasto vai ser coberto assim – ele é praticamente um marketing. É praticamente uma verba de marketing que vai entrando aos poucos.
Existe alguma diferença o Acervo Folha e o Banco de Dados Folha?
Existe. O acervo online é um site, é uma área de acesso ao acervo. O banco de dados Folha é um departamento que dá apoio aos jornalistas das redações do grupo. O Banco de Dados tem várias áreas de atuação, desde o atendimento a terceiros, a pessoas que procuram o banco de dados para fazer pesquisas. Tem também o pessoal da indexação de fotos e de texto. Mantemos a base do arquivo de fotos digitais, de páginas em PDF, de edições de papel e também cuidamos da microfilmagem, que é feita até hoje. Atendemos a área da pesquisa, então, se o jornalista quiser fazer uma pesquisa sobre o José Alencar, quantas vezes ele foi para o hospital, nós fazemos um levantamento, dossiês e cronologias – tudo que é material de apoio para infográficos. A gente faz pesquisa na hemeroteca, onde estão 100 mil pastas de recortes contendo textos sobre vários temas, personalidades, assuntos locais. São do período pré-internet, porque era assim que era feito o nosso clipping – o literal recorta e cola. O banco de dados é um departamento composto por 35 pessoas com especialização em áreas de arquivos, biblioteca, pesquisa, indexação e consulta externa. Cinco áreas distintas. O banco de dados também faz a gestão do Acervo Folha. Ele está cuidando do conteúdo, substituindo imagens.
Alguma página em especial foi muito difícil de digitalizar?
As páginas difíceis de digitalizar são aquelas que realmente têm problemas, como o original estar rasgado, furado ou rabiscado. Ou pode ser também o fato de a impressão estar tão leve que não é possível ler, problemas de tipografia etc. Essas são difíceis, mas pela natureza do original. Mas quanto mais antigo, mais é difícil de manusear. Se bem que, como eu te falei, há épocas em que o jornal está muito ruim. Por exemplo, na Segunda Guerra Mundial, o papel era nacional e horrível. Atualmente, ele está amarelado e quebrando. Já na década de 1920, o papel era extremamente bom, feito de extrato de algodão, fabricado com resto de roupas. Era um papel mais grosso, mais branco e até hoje ele está branquinho. Varia muito. A dificuldade da digitalização é a mão de obra. Se você for digitalizar página a página, é algo que vai demorar décadas, por isso foi difícil digitalizar tudo de uma vez. No fundo, foi fácil, mas fácil porque foi a máquina que fez.
O Acervo Folha Online seguiu tendências de jornais internacionais como o The New York Times?
A principal referência foi o Google News Archives. Foi uma boa referência para gente. O The New York Times também foi um site que a gente observou bem. O El País é outro exemplo. Enfim, a gente está antenado, vendo o que está acontecendo também para tentar não errar em coisas que já foram acertadas.
A Folha produziu uma espécie de almanaque que contém diversas primeiras páginas do jornal. O Acervo Online teve como base esta produção?
Não, mas muito dessa produção do Almanaque está ajudando a localizar material interessante para a gente. O Almanaque surgiu em 2001 junto com o Folha Online, que foi uma área de internet da Folha melhor desenvolvida. Esse Almanaque quer trazer à luz um material do acervo que até então estava fechado. Na verdade, foi uma re-digitação desses arquivos antigos, não uma digitalização.
Montamos também cronologias das décadas, desde a década de 1920 até a de 2000. Resgatamos fotos de época, textos curiosos, fez fac-símeles de edições. Tem eventos que procuramos referências anteriores, como Copa, eleições. O Almanaque hoje não tem atualização porque estamos em outros projetos, mas muito daquele conteúdo está servindo como base para o desenvolvimento de algumas pesquisas.
A Folha deu um passo à frente digitalizando todo seu acervo. Você acredita que isto será exemplo para outros jornais do país?
Certamente. Eu tenho a informação de que existe um projeto de fazer um pool de jornais, com a digitalização de vários títulos que rachariam os custos. A gente sabe que o Estadão também está digitalizando. O JB digitalizou, está fazendo com o Google. Tem também a Gazeta Mercantil. Certamente somos um exemplo para outros jornais, que devem estar fazendo planos para isso.
Dentro deste acervo existem inúmeros acontecimentos que marcaram a história do país e do mundo. Qual, em sua opinião, foi o mais marcante?
A bomba atômica. Eu me impressiono – até o que está acontecendo com o Japão hoje em dia fez todo esse medo voltar. O terror da Guerra Fria, ameaças de destruição do planeta ressaltam o instinto de sobrevivência da espécie humana. Isso foi o mais marcante, para mim.
Comentários Postados
Muito boa a entrevista Tha! Parabens!
Demais, Tha ! :D "Cronologias das décadas" me fez lembrar do trabalho no JW. Esse acervo certamente ajudaria muito os alunos ! Parabéns ! :D
Olá, pessoal! Acredito que o assunto não aestá muito relacionado a digitalização da Folha, entretanto pesquiso como os Jornais de um modo geral atingem crianças e adolescentes. Meu objetivo é a "Folhinha", será que vocês podem me ajudar com alguma informaçâo? Agradecendo, antecipadamente! Vera
Envie o seu comentário
Caro leitor, esse espaço foi criado para que você opine e discuta a matéria que acabou de ler
Cada comentário comporta no máximo 600 caracteres.
Os comentários devem se ater ao texto publicado.
Mensagens ofensivas, provocativas ou que contenham palavras de baixo calão serã excluídas.