Especialmente se você já tem um processo de tradução conduzido por humanos há algum tempo, você pode se perguntar se a tradução automática (MT) pode produzir resultados comparáveis em termos de qualidade. Vamos falar sobre a precisão geral da MT, como a qualidade da tradução automática é avaliada e para onde vão as estimativas de qualidade da MT e da MT.
Qual é a precisão da tradução automática?
A tradução automática é bastante precisa graças ao surgimento das redes neurais— um método em inteligência artificial. Em vez de traduzir quase palavra por palavra, essas redes consideram o contexto para produzir traduções mais precisas. Mas eles se aproximam do equivalente humano? A resposta geralmente depende de vários fatores:
- Seu software de tradução automática. Alguns mecanismos de MT são mais confiáveis do que outros em termos de qualidade de tradução, então o que você escolher é importante.
- Domínio. Alguns sistemas de tradução automática são para uso geral, com outros treinados em setores específicos. Ao traduzir terminologia complexa, como para conteúdo científico ou jurídico, ter um mecanismo de MT treinado em seu domínio pode fazer toda a diferença.
- Tipo de conteúdo. A tradução automática pode não ser tão precisa para coisas como campanhas de marketing, slogans ou slogans. Isso geralmente exige capturar a personalidade ou a emoção de uma marca, em vez de renderizar uma tradução exata.
- Par de idiomas. Até mesmo os melhores índices de qualidade dos provedores de MT variam de acordo com o par de idiomas. Vários fatores podem causar isso, incluindo a falta de palavras ou frases equivalentes nos idiomas de destino e de origem.
Considerando tudo isso, a tradução automática geralmente pode ajudar você a obter a maior parte de uma tradução. Os tradutores humanos podem então fazer a pós-edição de tradução automática (MTPE) para garantir a precisão e levar o conteúdo a um estado publicável.
O que é avaliação da qualidade da tradução automática?
A avaliação da qualidade de MT é a forma tradicional de avaliar se o texto traduzido automaticamente está no mesmo nível de como um humano traduziria o texto fonte. Há uma variedade de métricas de avaliação, incluindo BLEU, NIST e TER. Eles são usados para pontuar segmentos traduzidos automaticamente com base em sua semelhança com as traduções de referência.
As traduções de referência são traduções de alta qualidade do texto fonte geradas por tradutores humanos. Essas referências são úteis, é claro. No entanto, eles nem sempre estão disponíveis — confiar neles durante projetos de tradução não é o ideal. Qual é a maneira mais eficaz de avaliar a qualidade, então? Na Smartling, usamos uma combinação de dois métodos.
A primeira são avaliações mensais de métricas de qualidade multidimensionais (MQM) de terceiros em oito locais. Essas avaliações são o padrão-ouro do setor para avaliar HT, MT e MTPE. Para atribuir índices de qualidade apropriados, o MQM analisa o tipo e a gravidade dos erros encontrados no texto traduzido.
Em segundo lugar, utilizamos avaliações de qualidade contínuas, em tempo real e automatizadas. Eles medem a distância final ou a taxa de erro de tradução em HT, MT e MTPE. Em última análise, esses dois tipos de avaliação nos permitem oferecer qualidade de tradução garantida.
Qual é a importância da avaliação da tradução automática?
A avaliação visa determinar se uma tradução atende aos seguintes critérios:
- Preciso. O conteúdo deve transmitir fielmente a mensagem e o sentimento do texto original no idioma de destino.
- Claro. A mensagem deve ser facilmente compreensível e todas as instruções devem ser acionáveis e fáceis de seguir.
- Adequado. Certos públicos exigem certos níveis de formalidade, por exemplo. Garantir que os segmentos traduzidos mostrem o devido respeito ao público e não os alienem ou ofendam é crucial.
Um segmento traduzido que falhe em qualquer uma dessas áreas exigirá a pós-edição por um tradutor humano.
Quanto aos benefícios da avaliação de MT, existem vários. Você pode usá-lo para estimar os custos e economias de tradução e determinar a compensação adequada para os linguistas. Os tradutores também podem ver rapidamente quanto esforço de pós-edição um conteúdo exigirá.
Dois métodos de avaliação da qualidade da tradução automática
Há duas opções para avaliar a tradução automática:
- Avaliação manual: tradutores humanos analisam fatores como fluência, adequação e erros de tradução, como palavras faltantes e ordem incorreta das palavras. A desvantagem desse método é que cada linguista pode definir “qualidade” subjetivamente.
- Avaliação automática: esse método envolve pontuação por meio de algoritmos. Os algoritmos usam traduções de referência humanas e métricas automáticas, como BLEU e METEOR, para avaliar a qualidade. Embora a avaliação humana seja mais precisa no nível da frase, esse método oferece uma visão panorâmica e é mais escalável e econômico.
As diferenças: estimativa da qualidade da tradução automática versus avaliação
Diferentemente da avaliação de qualidade, a estimativa de qualidade da tradução automática (MTQE) não depende de traduções de referência humanas. Ele usa métodos de aprendizado de máquina (ML) para aprender com as correlações entre os segmentos de origem e de destino. Essas correlações informam as estimativas, que podem ser criadas no nível de palavra, frase, frase ou documento.
Para que usar a estimativa de qualidade MT
Em nosso episódio de reality show sobre estimativa de qualidade de tradução automática, Mei Zheng, cientista de dados sênior da Smartling, deu este conselho:
“Se você tem os recursos para fazer a pontuação automática em todo o seu conteúdo, definitivamente faça isso. Em seguida, experimente algumas dessas sequências para avaliação por humanos. Dessa forma, você obtém uma linha de base do que essa pontuação automática corresponde quando um linguista a vê.”
Qual é o valor de definir essas linhas de base baseadas em estimativas de qualidade para uma ampla variedade de conteúdo? Quando você também identifica padrões em textos traduzidos incorretamente, você pode avaliar de forma rápida e confiável se o conteúdo traduzido automaticamente pode ser publicado no estado em que se encontra.
Fatores que afetam os escores de estimativa de qualidade da MT
A estimativa automática da qualidade é rápida e econômica. No entanto, como diz Alex Yanishevsky, diretor de soluções de MT e IA da Smartling, “Isso não lhe dará a mesma visão que um ser humano daria”. Conforme discutido no webinar do MTQE, há vários motivos para isso.
A fonte e sua qualidade
Existem diferentes algoritmos para estimativa de qualidade, mas a maioria não leva em consideração o contexto circundante, como o gênero. Considere, por exemplo, o seguinte texto: " Dr. Smith foi considerado culpado de manter um animal protegido no Tribunal de Magistrados de Atherton após ser acusado de remover uma píton arbustiva da propriedade de um residente. Ela então passou pelo processo legal para apelar da decisão judicial.”
Para maior precisão, em um idioma como o espanhol, “Doutor” precisaria ser traduzido para a forma feminina (ou seja, “Doctora”). No entanto, a maioria dos mecanismos de MT não é treinada para detectar esse tipo de preconceito de gênero. Sem a engenharia imediata aplicada ao idioma de origem, a saída pode estar incorreta e afetar o índice de qualidade.
Descrição da imagem: Considerações sobre a fonte para a estimativa de qualidade de MT
Outro fator que pode afetar as estimativas de qualidade é a falta de clareza ou potencial para várias interpretações do texto fonte. Mei disse de forma simples: “Quando a fonte é ambígua e nós, como humanos, não sabemos como interpretá-la, não podemos esperar que a tradução automática faça um trabalho melhor do que nós”.
Além disso, como os modelos MTQE são treinados em conjuntos de dados limpos, eles nem sempre lidam bem com dados mais confusos. Os palavrões são um bom exemplo. Mei explicou: “Quando você usa palavrões, os modelos [de estimativa de qualidade] dão uma penalidade muito alta. Eles dizem: 'Ei, essa é uma tradução ruim; você não deveria publicar isso'. Quando você tem casos de uso para [palavrões], não pode usar esses mecanismos automáticos de pontuação para isso.”
Seu domínio ou setor
Algoritmos de pontuação diferentes podem fornecer estimativas diferentes com base em sua familiaridade com a terminologia de um setor. Então, Alex enfatizou que “não há um algoritmo de pontuação que seja abrangente”. Ele continuou: “Para que um algoritmo seja eficaz, precisaríamos de dados específicos para esse domínio ou setor”. Assim como os sistemas de MT podem ser personalizados para um setor específico para produzir traduções mais precisas, os algoritmos de pontuação também podem ser treinados em domínios específicos.
Esses dados específicos do domínio geralmente podem ser essenciais. Alex explicou: “Se você tem um setor regulamentado, como ciências biológicas, medicina ou farmacêutica, 90% [de precisão], na maioria dos casos, provavelmente não é suficiente. Se, por exemplo, a vírgula estiver no lugar errado e estivermos falando sobre o uso de uma faca cirúrgica, isso literalmente pode ser a diferença entre a vida ou a morte.” Os riscos também são altos em outros setores, como financeiro e jurídico.
O público-alvo
As estimativas também podem variar com base na compreensão de um algoritmo sobre os limites de qualidade para um determinado idioma. Mei disse: “A formalidade — a escolha de palavras e a voz do seu conteúdo — se enquadra em suas preferências estilísticas. Mas às vezes é mais do que preferência. É como: 'Eu tenho que transmitir isso formalmente; caso contrário, vou perder meu cliente'”. Daí a razão pela qual a avaliação manual pode ser tão benéfica para a garantia de qualidade.
Mei continuou: “No caso do espanhol, onde não é apenas formal ou informal, a escolha da palavra realmente depende do nível de respeito que você deve prestar à pessoa com quem está falando. E isso depende do relacionamento que você tem com a pessoa — se essa pessoa é de uma posição mais alta do que você ou é mais jovem do que você.”
O futuro da qualidade da tradução automática e do MTQE
A qualidade da tradução automática continuará melhorando, especialmente à medida que mais pessoas usam grandes modelos de linguagem (LLMs) como o GPT-4 para complementá-la. Mei fez a observação de que “esses LLMs são muito poderosos para fazer correções nos MTs, como [garantir] a precisão de gênero, formalidade, guias de estilo, etc.” No entanto, eles têm deficiências que exigem que os linguistas paguem a folga. As alucinações LLM — em que os modelos apresentam informações imprecisas como fatos — são um bom exemplo disso.
Em última análise, o MT e o LLMs permitirão que os projetos de tradução sejam concluídos com mais rapidez e precisão. Mas os linguistas permanecerão no banco do motorista, fazendo os ajustes necessários para melhorar as traduções. Alex compartilhou um sentimento semelhante, prevendo que os tradutores podem eventualmente assumir mais tarefas de um engenheiro experiente. “Eles começarão a aprender como realmente escrever solicitações de forma que o LLM seja capaz de corrigir a saída e ajustá-la a um estilo específico de que precisam, seja por gênero, seja por formalidade.”
E quanto ao futuro da estimativa da qualidade da tradução automática? Um grande avanço será a criação de algoritmos que considerem a fonte e o alvo. Idealmente, eles serão capazes de ponderar adequadamente as pontuações para considerar fatores como ambigüidade e complexidade do assunto. Ou, pelo menos, melhore o processo de sinalização de problemas que poderiam impactar negativamente a meta.
Enquanto isso, porém, você já tem acesso a mecanismos de tradução automática de última geração por meio do Neural Machine Translation Hub da Smartling. Existem até recursos integrados de avaliação de qualidade, como o Smartling Auto-Select. (A seleção automática considera as edições mais recentes feitas em cada mecanismo de tradução automática disponível e identifica o melhor provedor atual para um par de localidades específico.)
Descrição da imagem: Motores MT integrados no Smartling NMT Hub
Quais são os resultados dessa abordagem de motor multiMT baseada em estimativa de qualidade? Traduções automáticas com qualidade até 350% maior e menor necessidade de pós-edição, o que significa custos mais baixos e menor tempo de comercialização.
Para saber mais sobre como o Smartling pode ajudá-lo a alcançar esses resultados, assista à nossa demonstração do Neural Machine Translation Hub. Teremos o maior prazer em responder a quaisquer perguntas que você tenha posteriormente!