Início Notícias Uma frase do nada semeia a confusão em publicações científicas

Uma frase do nada semeia a confusão em publicações científicas

5
0

Descoberta perturbadora no mundo científico: uma expressão absurda se espalhou em várias publicações acadêmicas. “Microscopia eletrônica vegetativa” é um discurso sem significado, que apareceu após os erros de OCR e tradução, que já foram ancorados nos sistemas modernos de IA. Como essas anomalias se tornam “fósseis digitais” impossíveis de apagar?

L ‘emergênciaemergência do fósseisfósseis Sistemas digitais de inteligência artificial representa um grande desafio para a confiabilidade doecossistemaecossistema informativo. O caso da “microscopia eletrônica vegetativa” ilustra perfeitamente como um erro simples pode cristalizar e se espalhar pelas camadas de dados que alimentam nossas tecnologias mais avançadas. Esta expressão sem significado real está hoje inscrita no Código genéticoCódigo genético Modelos de IA, levantando questões fundamentais sobre a integridade do conhecimento na era digital.

Nascimento de uma anomalia linguística em pesquisa científica

A expressão “microscopia eletrônica vegetativa” tem sua origem em uma notável coincidência de erros independentes. Tudo começou na década de 1950, quando dois artigos publicados em Revisões bacteriológicas são digitalizados. Durante esse processo, o termo “vegetativo” de uma coluna de texto é acidentalmente fundido com a palavra “eletrônico” de outra seção, criando assim essa expressão fantasma.

Várias décadas depois, este anomaliaanomalia O texto reaparece nas publicações científicas iranianas. Em 2017 e 2019, dois artigos incorporaram esse termo em suas lendas e resumos em inglês. A explicação mais provável está em um erro de tradução: em farsi, as palavras que designam “vegetativas” e “varrentes” diferem apenas em um único ponto diacrítico.

Hoje, de acordo com o Google Scholar, essa expressão sem sentido aparece em 22 publicações científicas. Alguns editores como Springer Nature passou a disputar a retirada, enquantoElsevier teve que publicar correções. Esta situação coloca em luzluz A vulnerabilidade do ecossistema científico diante da propagação de erros aparentemente inofensivos.

Principais modelos de idiomas como ChatgptChatgpt são treinados em enorme corpus Textos para prever as seqüências de palavras mais prováveis. Os pesquisadores testaram se esses modelos haviam “aprendido” a expressão absurda, sujeitando -os a extratos dos artigos originais. Os resultados são eloquentes: o GPT-3 concluiu sistematicamente as frases com “microscopia eletrônica vegetativa”, enquanto modelos anteriores como GPT-2 e Bert não.

Essa anomalia persiste em modelos mais recentes, como GPT-4O e Claude 3,5 de antropia, sugerindo que o termo agora está profundamente ancorado nas bases de conhecimento da IA. Os pesquisadores identificaram CommonCrawlum grande conjunto de dados da web, como o provável vetor de contaminaçãocontaminação modelos iniciais de IA.

A correção desses erros enfrenta três grandes obstáculos:

  1. A escala colossal dos dados de treinamento (milhões de gigabytes);
  2. Falta de transparênciatransparência Empresas de IA relativas a seus dados de treinamento;
  3. A impossibilidade de aplicar uma filtragem simples por palavras -chave sem também eliminar referências legítimas.

Impactos no ecossistema científico e editorial

Os “fósseis digitais” levantam grandes preocupações sobre a integridade do conhecimento na pesquisa assistida pela AIA. Os editores científicos reagiram inconsistentemente a esse fenômeno: alguns removeram os artigos em questão, outros os defenderam. Elsevier Em particular, tentou justificar a validade do termo antes de finalmente publicar uma correção.

Outras anomalias linguísticas foram observadas no ambiente acadêmico:

  • expressões “” torturado »usado para ignorar o software de detecção automática;
  • substituições como ” consciência falsificada “Em vez de” inteligência artificial »;
  • fórmulas típicas como ” Eu sou um modelo de idioma Ai »Encontrado em artigos retraídos.

Algumas ferramentas de verificação automática agora apontam a expressão “microscopia eletrônica vegetativa” como um indicador de um possível conteúdo gerado pela IA. Por outro lado, essas abordagens só podem detectar os erros já conhecidos, não aqueles que ainda não são e vindos.

Desafios futuros dos fósseis digitais

Diante dessa situação preocupante, várias medidas são essenciais. As empresas tecnológicas devem demonstrar mais transparência em relação aos seus dados de treinamento. Os pesquisadores devem desenvolver novos métodos para avaliar a confiabilidade das informações diante do conteúdo gerado pela IA cada vez mais convincente. Quanto aos editores científicos, eles devem fortalecer seus processos de verificação para identificar erros de origem humana ou artificial.

Esse fenômeno dos fósseis digitais não apenas revela os desafios técnicos vinculados ao monitoramento de conjuntos de dados gigantescos, mas também questões fundamentais sobre a manutenção de conhecimento confiável em um ambiente em que os erros podem ser autoperpetados. À medida que a IA se integra mais à nossa produção de conhecimento, a vigilância coletiva se torna essencial para preservar a integridade de nossa herança de informações.

Fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui