Devido ao nosso papel central na infraestrutura de localização, a Smartling está bem posicionada para fazer análises em nível macro sobre padrões de uso e tendências gerais no mundo do conteúdo da web.
Recentemente, descobrimos algo interessante nesses dados.
Percebemos que os bots do LLM estão escaneando sites localizados. Presumivelmente, isso é para extrair conteúdo deles para melhorar ainda mais seus próprios modelos fundamentais.
É uma tendência geral, com cada tipo e tamanho de empresa impactados. Sem entrar na legalidade, ética ou propriedade desse conteúdo, ficamos imediatamente impressionados com a possibilidade de criar uma câmara de eco na Internet devido a esses rastreamentos.
Contaminação e consequências dos dados de treinamento
Com o aumento de empresas que usam uma abordagem MT-First ou MT-Fallback em seu conteúdo web, além da recente disponibilidade de LLMs como provedores de tradução, os LLMs poderão em breve se encontrar na posição de, involuntariamente, “comer sua própria comida para cães”.
Qual é o impacto na qualidade e eficácia dos LLMs quando seus conjuntos de dados de treinamento estão entrelaçados com o conteúdo traduzido que se origina dos LLMs?
Os LLMs contam com a vasta gama de conteúdo digital disponível gratuitamente na Internet, seja em um artigo de jornal, revista acadêmica, postagem de blog ou livros digitalizados, para acumular conteúdo suficiente para aumentar o tamanho e a complexidade de um modelo pré-treinado e, assim, fornecer capacidades generativas semelhantes às humanas. No entanto, se uma parte significativa do conteúdo ingerido for criada exclusivamente por LLMs sem nenhum aprendizado reforçado com o feedback humano, eles começarão a se diferenciar em termos de qualidade e precisão de sua produção? O ciclo de feedback criará algum tipo de inteligência artificial que eventualmente se espalhe e modifique a estrutura e o tom da linguagem em geral?
É difícil estimar o impacto, mas, como estamos no início dessa revolução generativa da IA, vemos as possíveis armadilhas no processo de coleta de dados usado pelos provedores de LLM.
Propriedade intelectual e questões de valor
Identificar todo o tráfego de entrada pertencente aos bots é impossível porque dependemos do uso adequado dos cabeçalhos do User-Agent que declaram sua origem e propósito. Muitos bots de raspagem sem escrúpulos não apenas esconderão seu propósito; eles tentarão ativamente se disfarçar e se misturar ao fluxo geral de tráfego que qualquer site público vê.
Uma possível abordagem futura para filtrar esse efeito de “câmara de eco” é que os LLMs trabalhem com provedores de conteúdo para desenvolver algum tipo de marca d'água que identifique o conteúdo gerado por um LLM para que possa ser categorizado adequadamente e tratado. Esse tipo de marca d'água provavelmente será necessário para mitigar os efeitos da desinformação, do roubo de propriedade intelectual e de outros comportamentos antissociais que os malfeitores possam apresentar.
Além disso, as empresas que não se importam ou estão interessadas em que os LLMs rastreiem seus dados podem um dia optar por monetizar seu conteúdo vendendo acesso aos rastreadores do LLM. Isso pode ser um negócio paralelo lucrativo que paga um valor negociado pelo conteúdo gerado por humanos. Os produtores de conteúdo já entraram com ações judiciais em andamento contra LLMs na tentativa de recuperar o controle de seu material protegido por direitos autorais.
O que podemos fazer sobre isso?
A coleta de conteúdo por LLM de sites não é um segredo. Ainda assim, muitas empresas podem se surpreender ao saber que isso está acontecendo com elas e podem ser participantes involuntárias de atividades que lhes trazem poucos benefícios e, ao mesmo tempo, geram valor infinito para os LLMs.
No mundo da tradução automática, “usar a IA para ajudar a IA” não é uma ideia nova. Quando os dados específicos do cliente, do domínio ou do idioma de cauda longa são escassos, não é incomum recorrer a técnicas de aumento de dados, como rastreamento na web de sites semelhantes, tradução reversa ou fabricação de dados, criando variantes ligeiramente diferentes do idioma de origem e de destino.
No entanto, é vital que qualquer pessoa que confie na saída do modelo compreenda os prós e os contras de tais abordagens. Na maioria dos casos, essas técnicas só podem melhorar incrementalmente a qualidade do modelo. Em última análise, eles não substituem o lema subjacente do aprendizado de máquina: a necessidade de dados relevantes e bem rotulados.