A língua do Brasil, palavra por palavra

Dicionário coordenado por linguista de Araraquara mergulha em textos que vão do século 16 até o presente para traçar retrato do português brasileiro

texto Reinaldo José Lopes

É difícil evitar certa zonzeira diante dos números: cerca de 17 verbetes (ou, para ser mais preciso, entradas; você já vai entender) por dia, 125 semanais, 500 mensais – num ritmo regular, todo santo mês, ao longo de dois anos e meio. “Vai ser uma pedreira, mas eu pretendo entregar o trabalho por volta de fevereiro de 2012”, diz Francisco da Silva Borba, 77 anos, professor aposentado do Departamento de Linguística da Unesp de Araraquara. Borba por enquanto trabalha sozinho, mas já está recrutando colaboradores para produzir um novo dicionário do português brasileiro, de um tipo ainda bastante raro no país.

Qualquer um que tenha folheado os dicionários mais comuns se habituou a ver a definição dada pelo autor e, ocasionalmente, um exemplo do uso da palavra em questão numa frase (muitas vezes também cunhada pelo dicionarista). O trabalho do linguista da Unesp inverte essa lógica: começando com uma base portentosa de textos reais, escritos no Brasil entre as primeiras décadas após o Descobrimento e o ano de 2009, a ideia é se aproveitar do uso real das palavras para definir seu significado, usando citações dessa base de textos para esclarecer cada acepção. O resultado, aposta Borba, será um retrato mais fiel e completo do léxico empregado por aqui nos últimos cinco séculos, evitando incongruências e idiossincrasias ligadas à história um tanto confusa da maioria dos dicionários brasileiros.

Com uma aposentadoria um bocado ativa, que já dura 24 anos, Borba é autor de dois outros dicionários de fôlego, o Dicionário de Usos do Português do Brasil, publicado em 2002, e o Dicionário Unesp do Português Contemporâneo, voltado para estudantes universitários, que saiu em 2004. Ele não hesita em afirmar que se trata quase de um passatempo.

“Fazer dicionários é um projeto que eu desenvolvo há muito tempo, comecei um pouco antes de me aposentar. Para mim é até um lazer. Ou, como dizia um amigo meu, professor de latim, esse trabalho é um exemplo de otium cum dignitate [ócio com dignidade]. Se você gosta do que faz e está se divertindo, não tem estresse, não tem cansaço”, afirma.

O novo trabalho envolve uma ampliação considerável das obras anteriores, em especial o Dicionário de Usos do Português do Brasil. Borba explica que o primeiro passo para criar um dicionário confiável é dispor de um banco de dados representativo do idioma que se pretende dicionarizar. Esse banco, que pode envolver amostras de formas escritas ou faladas da língua, recebe o nome de corpus (o plural latino é “corpora”).

“Na década de 1980, quando nem se pensava muito nisso, eu iniciei a montagem de um corpus de língua escrita no Brasil, com o qual sempre trabalhei. Comecei a avaliar o português contemporâneo, assumindo para ele uma data arbitrária de 1960 em diante. Com isso, obtive por volta de 70 milhões de ocorrências de palavras em textos escritos”, conta o pesquisador.

Uma ocorrência é contada a cada aparecimento de determinada palavra num texto: na frase “o menino e o gato saíram”, por exemplo, contam-se duas ocorrências do artigo “o” e uma ocorrência para cada um dos demais vocábulos.

Base ampliada
Lidar com essa montanha de dados exige ferramentas especiais. Por isso, a linguística de corpus, como é conhecida a disciplina que estuda os corpora, emprega programas de computador que conseguem analisar estatisticamente os textos, facilitando o trabalho de entender como determinadas palavras tendem a ocorrer juntas e de esmiuçar o significado delas em cada contexto. “É quase um joguinho de computador”, compara Borba.

“Na verdade eu sou um linguista e um sintaticista (especialista em sintaxe). O que vou fazer é trazer os resultados desses estudos para a forma de dicionário, mostrando as propriedades sintáticas, semânticas e pragmáticas do léxico em circulação na língua escrita do Brasil”, afirma.

O chamado corpus de Araraquara, que vai servir de base para o novo trabalho, é uma ampliação da base de dados original, contando, no momento, com cerca de 220 milhões de ocorrências de palavras, que vão desde o século 16 até hoje. A variedade de textos é ampla. São poemas, romances, peças de teatro, crônicas, oratória (tanto os célebres sermões do padre Antônio Vieira quanto discursos de políticos contemporâneos), textos jornalísticos, propaganda veiculada em jornais e revistas, periódicos técnicos e científicos, textos traduzidos e letras de música. Apesar da importância histórica da carta de Pero Vaz de Caminha, espécie de certidão de nascimento do Brasil, ela não integra o corpus do dicionário. “É um documento que estará na primeira página do dicionário, mas queremos usar o que se escreveu no Brasil, sobre o Brasil e, de preferência, por brasileiros ou pessoas que se fixaram aqui”, diz Borba.

Umas das preocupações do projeto de Francisco Borba é garantir que as entradas e verbetes reflitam o uso real do idioma nos textos e que cada acepção seja apoiada de forma direta pela citação em um desses textos, que cobrem a vida cultural da sociedade

As ocorrências são apenas o começo do trabalho. Igualmente importante é dar coerência lógica à organização do dicionário, coisa que não é exatamente o forte da maioria das obras do tipo no Brasil, segundo o linguista. O diletantismo quase sempre predominou por aqui, diz. “Os nossos dicionaristas, em geral, eram grandes eruditos, mas realizavam o trabalho apenas por gosto. Não eram lexicógrafos (ou seja, não dominavam as técnicas científicas de produção de dicionários). É o caso do Aurélio (Buarque de Holanda Ferreira). Ele começou trabalhando com um dicionário de uns 30 mil ou 40 mil verbetes publicado pela Companhia Editora Nacional. Convocaram o Aurélio para acrescentar o que eles chamavam, na época, de brasileirismos. Ele foi tomando conta e, no fim, ninguém se lembrava mais de que originalmente o dicionário era de outro autor, chamado Hildebrando de Lima”, conta.

A falta de organização rigorosa dos dicionários reflete-se, por exemplo, no inchaço do número de entradas e verbetes. Não é difícil entender a diferença entre os dois conceitos, embora eles sejam confundidos com frequência. “A entrada corresponde a cada palavrinha em negrito no dicionário, que se torna objeto de definição e exemplificação. Já o verbete corresponde a cada um dos itens que você inclui na entrada”, explica o linguista. Paradoxalmente, embora as entradas mais comuns cheguem a contar dezenas de verbetes, em geral elas acabam sendo mais numerosas do que os verbetes. “O Dicionário Unesp, por exemplo, tem 58 mil entradas, mas não 58 mil verbetes, porque muitas entradas apenas remetem a outras. A dupla ‘louro’ e ‘loiro’, por exemplo. Se você já definiu ‘louro’, ‘loiro’ também é uma entradinha, mas você não gasta verbetes com ela.”

A “família Aurélio” de dicionários exagera justamente na hora de registrar variantes fonéticas, entre outros problemas, de acordo com Borba. “A última versão afirma ter mais de 400 mil entradas, e a sensação do público leigo é que dicionário bom é o que tem muitas entradas. Se você for lá contar, vai achá-las? Vai, mas o que acontece é que ele multiplicou as entradas de maneira gráfica”, avalia, apontando o fato de que palavras que na grafia lusitana e brasileira diferem por um único acento – “cónico” lá, “cônico” cá, por exemplo – aparecem como entradas distintas.

“Trata-se de um colhedor de palavras, de um dicionário acervo, como dizemos. Tem valor? Claro, tem muito valor. Mas fica uma coisa meio incontrolável”, diz ele, que fez uma proposta de reformulação do Aurélio a pedido da Editora Positivo, detentora dos direitos de publicação.

Outro ponto importante, que é o foco do projeto de Borba, é garantir que as entradas e os verbetes reflitam o uso real do idioma nos textos, e que cada acepção seja apoiada de forma direta pela citação de um desses textos. Com a ajuda de siglas, é possível saber em que tipo de texto certo vocábulo foi usado. “Com o nosso corpus, você cobre todos os setores da vida cultural da sociedade”, diz. “Ele é um dicionário sincrônico, ou seja, descreve e apresenta estados de língua no tempo. Mas por que não mostrar também isso através dos tempos? Para isso, eu caminho no sentido contrário do Houaiss, que é um dicionário de orientação filológica e apresenta a primeira ocorrência de uma palavra desde as origens do português. Eu, por outro lado, registro a última ocorrência. Consultando os dois dicionários, você tem condições de saber quanto tempo essa palavra ficou em uso, pelo menos no português do Brasil.”

Essa viagem no tempo traz algumas surpresas. “Dous”, por exemplo – forma arcaica do numeral “dois” – ainda aparece na obra do dramaturgo Artur de Azevedo, no fim do século 19. Mas “asinha” – ou seja, “depressa” –, empregada desde o século 13 e aparentemente morta, ressuscitou em texto recente da Folha de S. Paulo. “Era uma frase do tipo ‘O ministro disse: Venha cá, asinha’, mas isso num texto jocoso. É pura gozação. Trata-se do valor estilístico do arcaísmo, que dá cor local”, explica.

Raro e apreciado
O uso criterioso do corpus é elogiado por outros lexicógrafos como um cuidado raro na produção de dicionários no país. “Esse método de produção de dicionários a partir de uma base documental, que espelha os usos da língua em diferentes situações, é fundamental e indispensável. Infelizmente, no Brasil, são poucos os trabalhos do gênero. Temos a tradição de produzir dicionários a partir da revisão de uma obra preexistente ou de várias. Toma-se uma obra anterior ou mais de uma e elas são revisadas, acrescentando-se verbetes e acepções, eliminando-se outros. Esse procedimento não é o melhor”, avalia Maria José B. Finatto, lexicógrafa da Universidade Federal do Rio Grande do Sul. “Usar acepções encontradas em textos naturais é muito importante. De que valeria ilustrar os usos das palavras apenas com exemplos inventados pelo dicionarista? Ele não tem em si o conhecimento da língua toda. E a língua é o uso que fazemos dela.”

Com o escopo do trabalho definido, Borba tem preocupações mais mundanas: montar uma equipe de colaboradores. “Dicionário não se faz sozinho. É preciso alguém de cabeça fria para reler tudo, por exemplo. É mental e fisicamente desgastante.” Trabalhando até agora “sozinhíssimo”, como costuma brincar, o linguista quase encerrou as letras A, B, C, X e Z, um total de cerca de 25 mil entradas. A conta apresentada no começo desta reportagem refere-se a mais 90 mil entradas, divididas entre seis colaboradores (os números se referem a cada um deles). “Agora é preciso multiplicar verbetes e, como você pode imaginar, poucos estão talhados para esse trabalho”, diz. Entre os prováveis companheiros de projeto estarão Beatriz Nunes de Oliveira Longo, Marina Helena de Moura Neves e José Dejalma Dezotti, todos do câmpus de Araraquara. Quando pronto, o dicionário será publicado pela Editora da Unesp.

______________

Do normativo ao descritivo
“No registro dos termos de gíria e de conversação tive empenho em evitar as corrutelas que conduzem a erros crassos ou se traduzem em chulices, e em proscrever os barbarismos e solecismos que tanto desprimoram e achincalham o idioma. Léxico não é portão de feira franca, aberto a disparates de gíria, troças e plebeísmos de esquina, chulismos de mangalaça e pulhices desprezíveis, que se originam de ignóbil e do instinto não menos grosseiro da plebe.”

O fraseado, capaz de arrepiar os cabelos de qualquer educador do século 21, vem da pena de Laudelino Freire, autor do Grande e Novíssimo Dicionário da Língua Portuguesa, publicado em 1940 e considerado a primeira grande obra do gênero produzida no Brasil. Os pruridos de Freire em relação a “pulhices” e “chulices” soam totalmente fora de lugar no ambiente acadêmico de hoje, mas mostram como a perspectiva sobre o que é fazer um dicionário mudou ao longo das décadas.

“Antigamente, essas obras tinham uma função purista, de imposição das supostas normas do falar bem. Por isso, costumavam exaltar os grandes autores de língua portuguesa, os exemplos eram sempre assinados. Hoje, as obras têm mais uma função descritiva, ou seja, mostrar como a língua é usada em determinada época. É a visão da linguística, em oposição à da gramática normativa”, resume Maria Cristina Parreira da Silva, do Departamento de Letras Modernas da Unesp de São José do Rio Preto.

________________________

Deixe uma resposta

*