Contribuído por The African Languages Lab

As línguas africanas representam quase um terço de todas as línguas em todo o mundo. No entanto, dos mais de 2.000 idiomas falados em todo o continente, apenas 49 estão disponíveis em plataformas de tradução como o Google Translate. Pior ainda, impressionantes 88% das línguas africanas são “severamente sub-representadas” ou “completamente ignoradas” na linguística computacional (Joshi et al., 2020).

A Inteligência Artificial (IA) oferece uma chance de proteger idiomas sub-representados, mas orientação e salvaguardas são essenciais. Sem eles, os grandes modelos linguísticos (LLMs) correm o risco de reforçar as linguagens institucionais e acelerar o declínio de outras. As consequências são terríveis: 40% das línguas em todo o mundo estão em risco de extinção, centenas das quais são faladas na África. (UNESCO, 2022).

O African Languages Lab (All Lab) é uma colaboração liderada por jovens comprometida com a preservação dos idiomas africanos documentando, digitalizando, traduzindo e capacitando-os por meio de sistemas avançados de IA e processamento de linguagem natural (PNL). Junto com parceiros como a Smartling, estamos fazendo avanços substanciais para lidar com a exclusão digital das línguas africanas. Veja como.

 

A necessidade de documentação linguística na África

A diversidade linguística é um dos maiores ativos do continente africano, mas também apresenta desafios monumentais. Muitos, especialmente comunidades menores, falam idiomas únicos que não estão bem documentados. Essas linguagens de “poucos recursos” carecem dos conjuntos de dados necessários para uso computacional, tornando a tradução automática (MT), o processamento de fala, a transcrição automatizada e outras aplicações de PNL difíceis, se não impossíveis.

O desafio é generalizado: menos de 5% das línguas africanas têm recursos digitais significativos. (Association for Computational Linguistics, 2019) É claro que precisamos documentar melhor essas linguagens, mas o processo não é uma tarefa fácil. Estatísticas do laboratório de línguas africanas

 

O desafio de documentar línguas africanas com poucos recursos (Issaka et al., 2024)

  • Escassez de dados: Historicamente, a maioria das culturas africanas colocou uma forte ênfase nas tradições orais. Como resultado, muitos existem principalmente em formas orais, e a documentação escrita geralmente é esparsa ou inexistente. Sem a linguagem escrita, a montagem de dados do corpus — uma coleção de linguagem escrita e falada necessária para treinar modelos de aprendizado de máquina — se torna complicada.
  • Políticas governamentais e financiamento limitado de pesquisa: A maioria dos governos africanos priorizou idiomas oficiais como inglês e francês, muitas vezes remanescentes do domínio colonial, ao mesmo tempo em que fornece pouco apoio institucional para documentar, preservar e desenvolver línguas indígenas. O financiamento acadêmico insuficiente devido ao baixo interesse também restringe a pesquisa e o desenvolvimento de tecnologias de línguas indígenas.
  • Educação na primeira infância: Alguns países africanos pretendem preservar as línguas indígenas na educação, mas os esforços geralmente são insuficientes. Por exemplo, em Gana, uma política exige o ensino no primeiro idioma da criança, do jardim de infância até a 3ª série, antes da transição para o inglês. No entanto, ele restringe o ensino a 11 idiomas patrocinados pelo governo, resultando em ainda menos recursos, atenção e falantes para os idiomas restantes. Mesmo com essas políticas, os educadores frequentemente usam o inglês como principal meio de ensino devido à limitação de recursos e treinamento.
  • Falta de ortografias padronizadas: Coletar dados para muitos idiomas africanos com poucos recursos, como o hausa e o fulani, é altamente desafiador devido à sua ampla distribuição geográfica e variações dialetais significativas. Portanto, a criação de recursos digitais unificados para esses idiomas exige uma coordenação e padronização cuidadosas e importantes.
  • Barreiras de coleta de dados: Em algumas regiões, o conflito ativo ou a marginalização de certos grupos linguísticos afetam adversamente a coleta de dados e as iniciativas de desenvolvimento linguístico. Além disso, muitos falantes de idiomas com poucos recursos vivem em comunidades rurais ou remotas com acesso limitado à Internet e às tecnologias digitais, tornando a coleta de dados linguísticos ainda mais difícil.

 

Inovando para a equidade linguística

No African Languages Lab, estamos usando sistemas de IA e PNL para digitalizar, traduzir e preservar idiomas africanos para criar resultados positivos para pessoas em todo o continente. Atualmente, nossa abordagem de quatro pilares suporta 40 idiomas, do bantu falado ao khoisan menos conhecido, representando diversas culturas, regiões e famílias linguísticas em todo o continente.

 

Como o African Languages Lab oferece suporte a idiomas com poucos recursos

  1. Coleta, extração, limpeza e armazenamento de dados: Coletamos dados linguísticos de diversas fontes, os organizamos e padronizamos removendo inconsistências e os armazenamos com segurança para uso em modelos de IA.
  2. Pesquisa e desenvolvimento de modelos: Realizamos pesquisas para criar modelos de IA que melhorem a compreensão e a aplicação das línguas africanas.
  3. Engajamento da comunidade e crowdsourcing: Colaboramos com instituições, comunidades e falantes nativos para coletar e traduzir dados, garantindo representação autêntica e sustentabilidade de longo prazo por meio de nossas tecnologias inovadoras baseadas em IA.
  4. Implantação de tecnologia: Em parceria com líderes do setor e instituições acadêmicas, usamos sistemas de IA e PNL para traduzir nossos dados em saídas linguísticas utilizáveis que potencializam plataformas como nosso aplicativo All Voices e um chatbot multilíngue, integrado ao aplicativo móvel Base.

Os países que integram idiomas locais na educação e no conteúdo digital tendem a ter maiores taxas de alfabetização e maior retenção cultural.

A tecnologia que torna nosso trabalho possível

A execução de nossos quatro pilares exige a tecnologia certa e os parceiros colaborativos. Dessa forma, formamos uma parceria estratégica com a Smartling, líder em tecnologia de tradução e localização. Essa parceria nos permite aproveitar as ferramentas de ponta da Smartling para tradução, gerenciamento e precisão contextual de idiomas, transformando a forma como idiomas com poucos recursos são documentados e compartilhados digitalmente.

Veja como a tecnologia está impulsionando nosso progresso na digitalização e tradução de idiomas africanos.

 

Compilando dados existentes: agregação de corpus

Para muitos idiomas africanos, faltam dados linguísticos centralizados. Coletamos e padronizamos dados de várias fontes, aproveitando os scripts Python para limpar, padronizar e converter os dados em um formato comum com o objetivo de criar um corpus centralizado para uso amplo. A consolidação e o refinamento dos dados linguísticos garantem consistência e acessibilidade, capacitando as comunidades a criar recursos educacionais, ferramentas de tradução e conteúdo digital.

O African Languages Lab reuniu mais de 400 GB de dados de fala e texto para 40 idiomas africanos com poucos recursos, aprimorando sua documentação e disponibilidade digital.

Reimaginando o crowdsourcing: All Voices

Conforme mencionado anteriormente, dados incompletos são uma lacuna crítica para a preservação do idioma que pode ser difícil de preencher em algumas comunidades africanas. Nosso aplicativo inovador de coleta de dados, All Voices, permite que instituições, comunidades e falantes nativos documentem e digitalizem seu idioma local. Os colaboradores podem gravar a fala em 40 idiomas africanos, apoiando nossa necessidade coletiva de capturar dados para idiomas com poucos recursos.

No futuro, o All Voices preencherá as lacunas de comunicação nas comunidades e tornará os idiomas locais acessíveis a todos. Também traduzirá entre idiomas africanos e idiomas populares, como inglês e francês. Com uma tradução perfeita e precisa em uma ampla variedade de idiomas, o All Voices visa promover um intercâmbio cultural mais profundo, ao mesmo tempo em que contribui para um crescente conjunto de dados de idiomas com poucos recursos.

 

Gerenciamento de dados: do armazenamento à tradução

A agregação e organização de dados linguísticos, além da disponibilidade da comunidade, são essenciais para nosso trabalho no The All Lab. O Smartling desempenha um papel vital em todo o nosso processo de gerenciamento de dados, desde a coleta de dados até o armazenamento e a tradução. Com o Smartling, podemos carregar, organizar e armazenar dados de vários projetos em um sistema seguro e centralizado.

A API da Smartling nos permite não apenas compartilhar nossos dados amplamente em várias plataformas, mas também fazer atualizações em tempo real, garantindo que todos os membros de nossa comunidade tenham acesso ao corpus digital mais preciso e completo.

Contamos com a memória de tradução da Smartling, traduções baseadas em IA e tradutores qualificados para oferecer suporte a conteúdo consistente e preciso em diferentes idiomas africanos. Nosso repositório linguístico estruturado e acessível resultante é essencial para expandir os esforços de acessibilidade e preservação digital em toda a diversidade linguística da África.

 

Fazendo bom uso de nossos dados

Nosso trabalho no All Lab, apoiado pelas tecnologias acima, gera conjuntos de dados linguísticos africanos estruturados, que desempenham um papel fundamental na digitalização de idiomas com poucos recursos. Esses conjuntos de dados são fundamentais para o desenvolvimento de novas ferramentas de tradução automática, reconhecimento de fala e preservação de idiomas. Em última análise, nossos dados ajudam a promover a pesquisa linguística africana e apoiam o desenvolvimento de modelos linguísticos mais precisos e culturalmente relevantes.

Também disponibilizamos nossos conjuntos de dados por meio de plataformas de acesso aberto, como o Huggingface. Nosso trabalho promove o desenvolvimento de IA baseado na comunidade e incentiva um maior investimento em tecnologias linguísticas africanas.

 

Fazendo progressos — e olhando para o futuro

No African Languages Lab, fizemos progressos substanciais na abordagem da exclusão digital das línguas africanas por meio da coleta, agregação, padronização, crowdsourcing e desenvolvimento e implantação de modelos. Estamos orgulhosos de nosso crescente e robusto corpus de dados linguísticos, que tem cerca de meio terabyte, ferramentas avançadas de tradução e expansão bem-sucedida do acesso aos recursos linguísticos.

Até o momento, coletamos mais de 400 GB de conjuntos de dados de voz e texto para 40 idiomas africanos com poucos recursos, apoiando sua documentação e seu avanço tecnológico. Por meio de parcerias com instituições acadêmicas como o UCLA MARS Lab e líderes do setor, como a Smartling, estamos aproveitando pesquisas e tecnologias de ponta para impulsionar nossa missão. Também estamos ativamente aumentando a conscientização sobre o cenário linguístico africano por meio de seminários, conferências e documentos técnicos.

Ao olharmos para o futuro, trabalharemos para preservar mais línguas africanas com poucos recursos, além dos nossos 40 atuais. Também pretendemos ampliar a disponibilidade de nossos conjuntos de dados e ferramentas. E estamos comprometidos em impulsionar ainda mais a inovação em tradução automática, preservação de idiomas e pesquisa linguística baseada em IA em toda a África. Juntos, garantiremos que a herança linguística da África não apenas sobreviva, mas prospere na era digital.

Por que esperar para traduzir com mais inteligência?

Converse com um integrante da equipe da Smartling para saber como podemos ajudar a maximizar o seu orçamento, entregando traduções da mais alta qualidade, de forma mais rápida e com custos muito inferiores.
Cta-Card-Side-Image