Inteligência artificial na Torre de Babel



Como a tecnologia pode quebrar barreiras entre idiomas

Qual superpoder você gostaria de ter? As respostas mais comuns, invariavelmente, vão para os clichês: voar, poder ficar invisível, ter superforça… Mas você já imaginou poder se comunicar com qualquer pessoa, em qualquer lugar do mundo, falando a própria língua dela? Parece coisa de supergênio ou de ficção científica. No entanto, a tecnologia já está avançando para resolver esse impasse linguístico.


Segundo o Ethnologue, considerado o maior inventário de idiomas do mundo, existem quase sete mil línguas em uso. Considera-se ainda o local onde são faladas e quantas pessoas falam. Quando pensamos em um idioma universal, vem logo à mente o inglês, porém o idioma mais falado do mundo é o mandarim, com cerca de 870 milhões de pessoas que o utilizam. Em segundo lugar, está o hindi e em terceiro está o espanhol; o inglês aparece no quarto lugar e o português em sétimo. 


Com essa imensa variedade linguística, e considerando que o Ethnologue não abrange 100% dos idiomas e dialetos do mundo, fica humanamente impossível conseguir falar todas essas línguas. Aliás, essa capacidade de falar múltiplas línguas é chamada de hiperpoliglotismo, atribuída a pessoas que dominam mais de 11 idiomas. Tecnicamente, não existe um limite comprovado para a quantidade de idiomas que uma pessoa é capaz de aprender. Porém, conhecer um idioma é diferente de dominá-lo e os critérios para definir esse domínio são bastante subjetivos. Por isso, é difícil determinar quem é a pessoa capaz de falar mais idiomas no mundo. Debate-se que o maior hiperpoliglota que já existiu possa ter sido um monge italiano que viveu entre os séculos 18 e 19, supostamente falando fluentemente mais de 100 línguas e dialetos. 


Como decifrar o labiríntico poço sem fundo dos significados?

Todo mundo com acesso à internet conhece o Google Tradutor. Embora não seja a única ferramenta de tradução existente, o Google Tradutor vem se reinventando. São muitas as críticas à sua incapacidade de prover uma tradução que não fosse risível de tão ao pé-da-letra. Esse tipo de má tradução é mais frequente em idiomas pouco conhecidos, principalmente porque a tradução não é direta. Primeiro, a ferramenta traduz o idioma de origem para o inglês e só depois traduz para o idioma desejado. Com tantos processos de tradução, inevitavelmente se perde bastante coisa, principalmente a essência do significado, e o último recurso é tentar traduzir ao pé-da-letra. 


É graças a essa múltipla essência de significados, que podem variar de acordo com o contexto, com a entonação ou com uma diversidade de outras variáveis, que as línguas são tão ricas e complexas. Resumidamente, dominar um idioma, isto é, ser fluente, é a capacidade de se comunicar com facilidade, clareza e o mais naturalmente possível. Todos nós que nascemos no Brasil somos fluentes em português, nossa língua oficial. Porém há muitas variações que geram entraves na comunicação, como sotaques carregados e palavras que diferem de local para local. Um exemplo é o famoso embate biscoito x bolacha ou o “nordestinês”, com sua riqueza de expressões. Isso sem falar na variantes do português utilizado em outros países e regiões lusófonas, como Portugal, Angola, Moçambique e Galícia. 

E a tecnologia com isso?

É um desafio para os tradutores, tanto humanos quanto tecnológicos, tentar captar a essência dentro dessa infinita gama de variações de significados de um idioma. Por isso, a boa tradução leva tempo e dedicação para ser feita. O objetivo é preservar ao máximo o significado original, assim a adaptação ao idioma de destino é plenamente bem-sucedida. 

Nos primeiros momentos da Inteligência Artificial, os computadores apenas obedeciam mecanicamente o que os programadores ditavam através dos códigos de comando.


Quando a Inteligência Artificial se aperfeiçoou através de Machine Learning, os sistemas conseguiam “aprender” sozinhos através de padrões e contextos para calcular qual a possível melhor tradução. Ainda assim, o modelo era rudimentar demais. Quebrava um galho, sim, mas havia muita margem para melhorar. Foi aí que, a partir de 2016, o Google passou a usar as redes neurais artificiais. De forma resumida, as redes neurais artificiais foram pensadas para simular a rede neural humana. Elas levam informações para o cérebro (no caso, a Inteligência Artificial) numa velocidade muito maior e com muito mais quantidade de dados que o cérebro humano é capaz. 


Essas redes neurais artificiais são baseadas em dois métodos diferentes: Deep Learning (aprendizado profundo) e representation learning (aprendizado por representação). Cada um é aplicado para tentar representar o pleno funcionamento do raciocínio humano ao se comunicar em sua linguagem nativa. Dessa forma, ao contrário dos sistemas tradutores por estatística (como as primeiras versões do Google Tradutor), a máquina é consegue discernir entre diferentes graus de abstração de um contexto. São avaliados vários aspectos da situação exigida como um todo para montar o quebra-cabeça da tradução considerando muito mais nuances e variações. 


Então, a Torre de Babel vai ruir? 

É difícil prever o futuro, principalmente quando o debate invariavelmente descamba para visões extremistas onde o mundo é dominado por máquinas e o fator humano é desconsiderado. Mas o pessoal do Google diz que não. A comunicação e a linguagem humana são muito mais complexas do que os sistemas de tradução se propõem a ser. Ferramentas como o Google Tradutor (e tantos outros!) são apenas meios de facilitar essa interação mais complexa. Depende de emoção, linguagem corporal e muitos outros fatores culturais e subjetivos, exclusivamente humanos. 


É exatamente esse repertório infinito de particularidades humanas, como as diferenças culturais, que fazem com que os sistemas de tradução automática não sejam substitutos definitivos para os tradutores humanos profissionais. Apesar da velocidade e da qualidade da tradução automatizada, ainda é necessário que um humano revise o conteúdo e procure por nuances que o sistema não é capaz de detectar, como questões de variantes linguísticas e usos correntes. Dentro do português mesmo encontramos esse impasse.


Algumas palavras totalmente banais e cotidianas para os portugueses de Portugal são palavrões muito chulos e ofensivos para os brasileiros. Outras caíram em desuso e são consideradas extremamente arcaicas. Será que o sistema pode avaliar esse viés tão subjetivo e tão cheio de carga histórica e cultural? 

Desafios, challenges ou retos*?

Outra questão importante é a imposição de um idioma sobre o outro. A maioria da produção de conteúdo plenamente acessível existente na internet está em inglês e outras línguas “grandes”, como francês, espanhol e alemão. Por isso, para idiomas mais restritos, como dialetos indígenas e tribais, a tradução direta é precária. O único jeito é fazer uma tradução indireta. Isto significa traduzir o idioma de origem para o inglês e, a partir daí, traduzir para o idioma de destino). 


Essa situação privilegia o imperialismo online desses idiomas “grandes” num sistema que se retroalimenta. Digamos que você é um galego que quer escrever para o mundo sobre seus costumes. Como há pouco conteúdo em galego (em comparação com as línguas-irmãs, o português e o espanhol), as ferramentas de tradução não serão de capazes de apreender tudo o que você quer passar e muito se perderá na tradução automática para o português ou espanhol. Então, é melhor que você escreva logo em uma dessas línguas para que a tradução seja mais completa e rica.

Quero um gadget de tradução automática para ontem!

Já existem opções de fones de ouvidos que oferecem tradução simultânea, mas ainda não são muito acessíveis (tanto em termos de preço quanto em termos de variedade de idiomas). No entanto, esses gadgets são bons recursos. A tecnologia deles já foi aprimorada para reconhecer sotaques e diminuir a interferência de ruídos ao fundo em ambientes barulhentos.


Embora ainda em processo de desenvolvimento, a tecnologia aplicada na superação de fronteiras idiomáticas já nos auxilia a formar conexões e expandir a comunicação. A capacidade de aprender idiomas pode ser considerada um dom, além de um privilégio que não é alcançável por todas as camadas de uma população.


Talvez nunca seja possível existir um “peixe babel”. O personagem criado por Douglas Adams no “Guia do Mochileiro das Galáxias” conhece todas as línguas do universo e permite uma comunicação limpa e confiável. Ainda assim, a tecnologia sempre se reinventa e se aperfeiçoa para chegar o mais perto possível do inimaginável: promover uma comunicação perfeita entre pessoas que não conhecem o idioma umas das outras.

#InteligenciaArtificial #tecnologia #deeplearning #redesneuraisartificiais #machinelearning