GPT-4 é mais facilmente enganado por usuários, aponta pesquisa

A OpenAI conseguiu tornar o seu recente modelo de linguagem baseado em inteligência artificial mais confiável que o antecessor.

Por Adeilson em 20/10/2023 às 03:22:21

Foto: Reprodução internet

A OpenAI conseguiu tornar o seu recente modelo de linguagem baseado em inteligência artificial mais confiável que o antecessor. O GPT-4 ganhou uma nota de confiabilidade maior do que o GPT-3.5. No entanto, também mostrou-se ser mais manipulável e suscetível a jailbreak (remoção de restrições), preconceito e vazamento de informações privadas.

Os testes realizados com o modelo foram feitos por pesquisadores da Universidade de Illinois Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia, Berkeley, Centro de Segurança de IA e Microsoft Research. A pequisa está disponível no site da Cornell University.

Principais descobertas da pesquisa:

O GPT-4 obteve uma pontuação de confiabilidade mais alta em comparação com seu antecessor, o GPT-3.5.
Isso quer dizer que o GPT-4 é mais eficaz em proteger informações privadas, evitar a geração de conteúdo tóxico, como informações tendenciosas, e é mais resistente a tentativas maliciosas de manipulação.
No entanto, o modelo ainda pode ser instruído a ignorar medidas de segurança e vazar informações pessoais e históricos de conversas.
Segundo os pesquisadores, ele "segue informações enganosas com mais precisão" e possui grande probabilidade de seguir orientações complexas de forma literal.
Essas vulnerabilidades não foram encontradas em produtos de consumo baseados no GPT-4, devido às medidas de mitigação implementadas nos aplicativos de IA da Microsoft.

Leia mais:

Como são realizados os testes de confiabilidade?

Os pesquisadores mediram a confiabilidade em categorias, como: toxicidade, estereótipos, privacidade, ética da máquina, justiça e resistência a testes adversários
Inicialmente, eles testaram tanto o GPT-4 como o GPT-3.5 usando instruções comuns, que incluíam palavras que podem ser consideradas inadequadas
Em seguida, desafiaram os modelos com orientações pensadas para fazer com que quebrassem suas regras de conteúdo sem serem tendenciosos contra grupos específicos.
Por fim, tentaram induzir intencionalmente os modelos a ignorar completamente as medidas de proteção, testando sua capacidade de resistir à manipulação.

O objetivo é garantir segurança

A equipe de pesquisa informou ao site The Verge, que enviaram os resultados do teste para a OpenAI com objetivo garantir que esses sistemas se tornem cada vez mais seguros.

Nosso objetivo é encorajar outros membros da comunidade de pesquisa a utilizar e desenvolver este trabalho, potencialmente prevenindo ações nefastas de adversários que explorariam vulnerabilidades para causar danos.
Equipe de pesquisa

Na visão deles, os testes são uma forma de começar a entender as falhas das tecnologias baseadas em IA e, assim, criar ferramentes eficazes e menos perigosas. O grupo espera trabalhar em conjunto para alcançar essa meta, e por isso publicou seus padrões de referência usados para medir desempenho. Assim, outras pessoas e organizações podem refazer a avaliação.

Fonte: Olhardigital