Pesquisador descobre materiais de abuso infantil em dados para treinar IAs

O pesquisador da Stanford Internet Observatory (SIO), David Thiel, revelou que mais de mil materiais conhecidos de abuso sexual infantil foram encontrados em enorme conjunto de dados abertos usado para treinar geradores de imagem por texto populares, como o Stable Diffusion, da Stability AI.

Por Adeilson em 25/12/2023 às 21:27:21

O pesquisador da Stanford Internet Observatory (SIO), David Thiel, revelou que mais de mil materiais conhecidos de abuso sexual infantil foram encontrados em enorme conjunto de dados abertos usado para treinar geradores de imagem por texto populares, como o Stable Diffusion, da Stability AI.

A inclusão de imagens de abuso infantil no treinamento de modelos de inteligência artificial (IA) ensina às ferramentas a associar crianças a atividades sexuais ilícitas e usa imagens conhecidas de abuso infantil para gerar novo conteúdo potencialmente realista de abuso infantil.
David Thiel, pesquisador da Stanford Internet Observatory (SIO), em entrevista ao Ars Technica

Leia mais:

Segundo o Ars Technica, Thiel descobriu, em junho deste ano, que geradores de imagem de IA estavam sendo usados para criar milhares de imagens falsas, mas realistas, de abuso sexual infantil, que se espalhavam rapidamente na dark web. Ele realizou a pesquisa para investigar o papel dos materiais de abuso sexual infantil no processo de treinamento dos modelos de IA que alimentam esses geradores de imagem.

Investigação e consequências

A investigação revelou que esses modelos são treinados diretamente em materiais de abuso sexual infantil presentes em enorme conjunto de dados público de bilhões de imagens chamado LAION-5B;
Esse conjunto de dados incluiu materiais de abuso sexual infantil coletados de diversas fontes, como sites de mídia social mainstream, sites populares de vídeos adultos e outros;
Após a publicação do relatório de Thiel, o LAION, organização sem fins lucrativos baseada na Alemanha que produziu o conjunto de dados, os removeu temporariamente da Internet devido à sua política de tolerÃ¢ncia zero para conteúdo ilegal;
O acesso aos conjuntos de dados foi transformado em privado;
No entanto, a remoção dos conjuntos de dados não resolve problemas com informações previamente baixadas ou modelos treinados anteriormente.

O relatório indica, ainda, que “o conjunto de dados incluía CSAM conhecido extraído de ampla variedade de fontes, incluindo sites de mídia social convencionais” – como Reddit, X, WordPress e Blogspot – bem como “sites populares de vídeo adulto” – como XHamster e XVideos.

Embora as versões subsequentes do Stable Diffusion tenham filtrado parte do conteúdo considerado inseguro, a versão 1.5 da ferramenta continua sendo o modelo mais popular para gerar imagens explícitas.

A Stability AI, por meio de porta-voz, afirmou estar “comprometida em prevenir o uso indevido de IA e proíbe o uso de seus modelos e serviços para atividades ilegais, incluindo a criação ou edição de conteúdo de abuso sexual infantil”.

O porta-voz disse ainda que o relatório da SIO "foca no conjunto de dados LAION-5B como um todo", enquanto "os modelos de IA de estabilidade foram treinados em subconjunto filtrado desse conjunto de dados" e foram "posteriormente ajustados" para "mitigar comportamentos residuais".

Ele ainda frisou que a empresa não hospeda o Stable Diffusion 1.5, mas tomou outras medidas para reduzir resultados prejudiciais. Isso inclui apenas hospedar "versões do Stable Diffusion que incluem filtros" que "removem conteúdo inseguro" e "impedem que o modelo gere conteúdo inseguro".

Imagem: Yavdat/Shutterstock

Além disso, implementamos filtros para interceptar comandos ou saídas inseguras quando os usuários interagem com modelos em nossa plataforma. Também investimos em recursos de rotulagem de conteúdo para ajudar a identificar imagens geradas em nossa plataforma. Essas camadas de mitigação dificultam o uso indevido da IA por pessoas mal-intencionadas.
Porta-voz da Stability AI, em comunicado

Detecção e remoção são desafios

A detecção e remoção de materiais de abuso sexual infantil dos conjuntos de dados é um desafio, pois as imagens são referenciadas por URLs e o conteúdo muitas vezes usa rótulos genéricos para evitar detecção.

Além disso, não há lista abrangente de termos de pesquisa usados para encontrar materiais de abuso sexual infantil e as traduções deficientes podem omitir termos conhecidos. Thiel concluiu que as descrições de texto são de utilidade limitada para identificar materiais de abuso sexual infantil.

A remoção do conteúdo de abuso sexual infantil dos modelos em si é uma tarefa extremamente difícil. Uma solução mais extrema proposta é deixar de alimentar modelos treinados com conteúdo erótico com materiais que retratam crianças, limitando, assim, a capacidade dos modelos de associar os dois tipos de conteúdo. Outra solução sugerida é excluir imagens de crianças de todos os conjuntos de treinamento generalizados.

No entanto, a urgência em resolver o problema requer soluções extremas para mitigar o impacto desses materiais nos modelos e conjuntos de dados existentes. A presença de materiais de abuso sexual infantil nos modelos pode influenciar a geração de imagens que façam referência e se assemelham a vítimas específicas.

Fonte: Olhardigital