A evolução dos Sistemas de Tradução

No processamento de linguagem natural os sistemas de tradução estão entre as áreas mais antigas, afinal, desde sempre essa foi uma das maiores necessidades da humanidade, pois o idioma representa uma barreira: pessoas de diferentes idiomas simplesmente não conseguem se comunicar!

Dicionários de diferentes idiomas

Tradução na história

Para que haja comunicação ou transferência de conhecimentos, ou ainda para que se façam negociações comerciais entre povos que não falam a mesma língua, a única solução é que uma das pessoas aprenda todo o idioma do outro povo; e isso é bastante custoso. Ter que estudar um idioma inteiro leva tempo e são poucas as pessoas que podem se dedicar a isso.

Pesquisas e desenvolvimento que buscam encontrar formas automatizadas de se traduzir idiomas são antigas e, até por volta dos anos 2015, a abordagem para se traduzir idiomas era majoritariamente baseada em estatística. O Google Tradutor, por exemplo, usou uma abordagem estatística e foi avançando lentamente a qualidade das suas traduções com técnicas um pouco mais refinadas até que, no ano 2016, ele abandonou essa abordagem puramente estatística e passou a utilizar Deep Learning. Com isso a evolução que antes acontecia com passos pequenos e lentos deu um salto considerável em termos de qualidade na tradução.

Site com tradutor de idiomas

Pensando na escala da humanidade isso é muito recente, praticamente aconteceu ontem! E esse salto fez com que a qualidade melhorasse muito, e todo aquele ceticismo de que nunca seria possível que máquinas traduzissem textos por se tratar de um trabalho muito intelectual, começou a cair por terra; isso porque as provas começaram a aparecer.

Sistemas de tradução atuais

Hoje, analisando a qualidade de tradução do Google, ou ainda de softwares concorrentes como DeepL, por exemplo, percebemos claramente essa evolução. Se pegarmos um texto de 1.000 palavras do inglês, analisando sua tradução para o português, veremos que a maior parte dos parágrafos possui qualidade de tradução similar a de um tradutor profissional. Em muitos casos é provável que nem saberíamos dizer se foi uma pessoa nativa que traduziu o texto, um profissional, ou uma máquina. A maior parte dos parágrafos estará perfeitamente traduzida.

Ainda podemos encontrar um ponto ou outro do texto com uma expressão um pouco estranha ou uma frase mal posicionada, mas hoje temos que procurar com cuidado para acharmos esses erros, ao contrário de antes, quando os erros estavam por toda a parte e precisávamos buscar por frases corretas. Isso mostra o poder que o Deep Learning trouxe, associado à uma grande quantidade de poder computacional que se obteve nos últimos anos.

E o futuro?

Para onde isso está nos levando? O mercado de tradução de idiomas sempre foi de grande porte principalmente em razão da necessidade humana. Há dois aspectos que estiveram muito presentes no mercado: a necessidade de profissionais de tradução – o que envolve desde a tradução de textos até traduções em tempo real – e, por outro lado, também, o aprendizado de profissionais que vão se mudar para um outro país, ou irão lidar com pessoas de outro país, sendo necessário o domínio de duas ou mais línguas.

Quadro com a frase: Do you speak english? Comum para brasileiros

Isso no Brasil é algo muito comum. O brasileiro tem que saber inglês para poder se comunicar com pessoas de outros países. Inclusive, o país que mais utiliza o Google Tradutor é o Brasil! Justamente porque a nossa população é muito grande e temos essa necessidade enorme de aprender um idioma estrangeiro que, no caso, é o inglês. Porém essa realidade pode mudar num futuro próximo! Podemos afirmar sem medo de errar que, nos próximos anos, a tradução automatizada estará igual ou melhor que a tradução humana.

Tradução de textos

Essa evolução trará muitas implicações. Por exemplo, pessoas que hoje estão entrando em uma faculdade de idiomas correm um sério risco de ao se formarem, não haver mais empregos no ramo. Na atualidade, fazer uma tradução de um livro para outro idioma custa dezenas de milhares de reais e, ainda, demanda muito tempo, podendo levar vários meses para se conseguir o resultado esperado. Imaginem, então, que uma empresa irá realizar a tradução automaticamente, levando apenas dez segundos pelo custo de R$ 100,00 ao invés de R$ 15.000,00. Não há nem como competir nessa situação!

Tradução de vídeos

Estamos falando apenas da tradução de textos, mas também há a tradução de vídeos em tempo real. Hoje, por exemplo, há o speech recognition – que é a criação de legendas em tempo real enquanto a pessoa fala – como acontece no Youtube, onde a qualidade já aumentou consideravelmente nos últimos anos. Agora ao se assistir um vídeo, pedindo para que o Youtube gere uma legenda automaticamente, se consegue entender tudo muito bem com apenas um ou outro erro. Boa parte das frases são geradas com grande perfeição. Então, tendo a legenda gerada automaticamente, já conseguimos traduzir essa legenda, também, por um método automatizado e, como conclusão, a pessoa fala num idioma e automaticamente a outra entende na sua própria língua em tempo real. Isso já é uma realidade.

Robô falando

Claro que temos duas camadas de tecnologia – uma em cima da outra – e por isso, a chance de erros é maior; isso porque se tem o speech recognition e, ainda, a tradução de idioma. São duas tecnologias e por isso, os erros em qualquer uma das duas se somam no resultado final. Mas, como ambas estão, também, evoluindo de forma muito rápida, é só uma questão de tempo para que se tenha um dispositivo extremamente preciso. Alguns fones de ouvidos, por exemplo, já têm um dispositivo de tradução automatizada. Então, ao se visitar outro país que fale qualquer língua (não somente o inglês), e ao se colocar o fone de ouvido, pedindo a tradução automática, ele já reconhece o idioma e quando a pessoa fala, o ouvinte entende no seu próprio idioma.

E o mercado de trabalho?

A pergunta é: dominar outro idioma será um diferencial no mercado, sendo que será possível falar em uma língua enquanto a outra pessoa ouve em outra? Ambas se comunicam em tempo real e não importa se uma fala em português e a outra em mandarim, elas se entendem perfeitamente!

É claro que há uma questão cultural envolvida e, por isso se torna difícil fazer uma previsão a respeito. Há, também, uma questão de orgulho e praticidade: quem já sabe um idioma talvez prefira falar do que usar um dispositivo, mas é possível que seja só uma questão de tempo para o mercado se ajustar novamente.

Muitas vezes as pessoas não refletem e tomam decisões de, por exemplo, ensinarem um idioma a seus filhos sem, entretanto, pensarem em como estará o mundo daqui a quinze ou vinte anos quando eles forem adultos. Será realmente algo necessário para eles? Os que estão na área de tecnologia deveriam fazer tais reflexões.

Criança estudando idiomas com um dicionário

 

Humanos cometem erros

A esta altura, talvez, alguns se perguntem como é possível uma máquina ter uma tradução superior a um humano: será que isso faria sentido? Faz sentido porque os seres humanos cometem erros. Se pedimos para um ser humano traduzir um livro, com certeza virão erros no meio. O humano pode fazer uma tradução muito bem-feita e adaptar-se muito bem, mas ele não é imune a cometer falhas, especialmente em tarefas repetitivas. Ele pode cometer um erro por distração ou pode errar por falta de conhecimento de termos técnicos, o que é muito comum.

Ao se fazer uma tradução de um texto técnico, por exemplo, pode se cometer erros grotescos nas técnicas. Alguns exemplos de textos técnicos: livro de teoria musical, artigo processual, balanço de empresa, paper acadêmico sobre radiação eletromagnética, etc.

Por mais que as empresas digam que fazem suas pesquisas, na hora de ver a tradução de um termo técnico para outro, como a pessoa não tem o conhecimento específico, ela estará muito propensa a cometer erros e, mesmo fazendo uma pesquisa rápida, ela pode entender errado o que o autor quis dizer. Isso é muito comum e as experiências particulares que alguns têm em traduzir um idioma técnico para outro podem ser desastrosas.

Isso nos mostra que as traduções humanas têm os seus limites. É difícil achar aquele profissional perfeito, que tem o conhecimento técnico necessário e, ainda, o conhecimento necessário de idiomas; então, isso é uma dificuldade em áreas que as máquinas podem aprender ao mesmo tempo. Quando elas estiverem em um estágio próximo ou superiores aos humanos, elas estarão aprendendo não só os termos e expressões mais frequentes dos idiomas, como, também, terão o conhecimento de termos técnicos específicos; elas saberão praticamente todas as mazelas do idioma e tudo estará ali imputado dentro dos modelos.

Como as máquinas aprendem?

Como isso tudo é possível? Como as máquinas avançaram tanto? Onde que o Deep Learning atuou nesse aspecto? Obviamente não existe um resposta simples e objetiva para essas questões, mas nem por isso o entendimento será difícil.

Em nosso curso Aprendizado por Reforço, Algoritmos Genéticos, NLP e GANs abordamos todos os detalhes necessários, de maneira teórica e prática. Confira abaixo algumas aulas do curso:

  • A evolução dos Sistemas de Tradução
  • Como funcionam os Sistemas de Tradução
  • Beam Search
  • Length Normalization
  • Como saber qual modelo aperfeiçoar (Beam Search vs RNN)
  • Bleu Score
  • Como funciona o Speech Recognition
  • As funções split() e join()
  • Substituindo strings
  • Transformações entre maiúsculas e minúsculas
  • Extraindo texto de um arquivo .txt
  • Extraindo texto de um arquivo .docx
  • Extraindo texto de um arquivo .PDF
  • Utilizando operadores lógicos para comparar textos
  • Interpretando um arquivo robots.txt
  • Como fazer Web Scraping
  • Expressões Regulares: funções search() e finditer()
  • Expressões Regulares: caracteres coringa
  • Expressões Regulares: trabalhando com mais de um operador
  • Expressões Regulares: conjuntos de caracteres
  • Expressões Regulares: pesquisando por datas
  • Expressões Regulares: a função sub()
  • Prevendo a próxima palavra em um texto – parte 1
  • Prevendo a próxima palavra em um texto – parte 2
  • Prevendo a próxima palavra em um texto – parte 3
  • Exercício: prevendo palavras em letras de uma cantora pop
  • Solução do exercício: prevendo palavras em letras de uma cantora pop
  • Fazendo análise de sentimento em textos
  • Utilizando transfer learning com uma matriz embedding
  • Criando um Sistema de Tradução – parte 1
  • Criando um Sistema de Tradução – parte 2
  • Criando um Sistema de Tradução – parte 3
  • Verificando o Bleu Score da tradução
  • Fazendo Reconhecimento de Fala – parte 1
  • Fazendo Reconhecimento de Fala – parte 2

Clique aqui para visitar a página do curso.

Confira também outros artigos: