GPT-4 é mais facilmente enganado por usuários, aponta pesquisa
A OpenAI conseguiu tornar o seu recente modelo de linguagem baseado em inteligência artificial mais confiável que o antecessor.
Foto: Reprodução internet
A OpenAI conseguiu tornar o seu recente modelo de linguagem baseado em inteligência artificial mais confiável que o antecessor. O GPT-4 ganhou uma nota de confiabilidade maior do que o GPT-3.5. No entanto, também mostrou-se ser mais manipulável e suscetível a jailbreak (remoção de restrições), preconceito e vazamento de informações privadas.
Os testes realizados com o modelo foram feitos por pesquisadores da Universidade de Illinois Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia, Berkeley, Centro de Segurança de IA e Microsoft Research. A pequisa está disponível no site da Cornell University.
Principais descobertas da pesquisa:
- O GPT-4 obteve uma pontuação de confiabilidade mais alta em comparação com seu antecessor, o GPT-3.5.
- Isso quer dizer que o GPT-4 é mais eficaz em proteger informações privadas, evitar a geração de conteúdo tóxico, como informações tendenciosas, e é mais resistente a tentativas maliciosas de manipulação.
- No entanto, o modelo ainda pode ser instruído a ignorar medidas de segurança e vazar informações pessoais e históricos de conversas.
- Segundo os pesquisadores, ele "segue informações enganosas com mais precisão" e possui grande probabilidade de seguir orientações complexas de forma literal.
- Essas vulnerabilidades não foram encontradas em produtos de consumo baseados no GPT-4, devido às medidas de mitigação implementadas nos aplicativos de IA da Microsoft.
Leia mais:
Como são realizados os testes de confiabilidade?
- Os pesquisadores mediram a confiabilidade em categorias, como: toxicidade, estereótipos, privacidade, ética da máquina, justiça e resistência a testes adversários
- Inicialmente, eles testaram tanto o GPT-4 como o GPT-3.5 usando instruções comuns, que incluíam palavras que podem ser consideradas inadequadas
- Em seguida, desafiaram os modelos com orientações pensadas para fazer com que quebrassem suas regras de conteúdo sem serem tendenciosos contra grupos específicos.
- Por fim, tentaram induzir intencionalmente os modelos a ignorar completamente as medidas de proteção, testando sua capacidade de resistir à manipulação.
O objetivo é garantir segurança
A equipe de pesquisa informou ao site The Verge, que enviaram os resultados do teste para a OpenAI com objetivo garantir que esses sistemas se tornem cada vez mais seguros.
Nosso objetivo é encorajar outros membros da comunidade de pesquisa a utilizar e desenvolver este trabalho, potencialmente prevenindo ações nefastas de adversários que explorariam vulnerabilidades para causar danos.
Equipe de pesquisa
Na visão deles, os testes são uma forma de começar a entender as falhas das tecnologias baseadas em IA e, assim, criar ferramentes eficazes e menos perigosas. O grupo espera trabalhar em conjunto para alcançar essa meta, e por isso publicou seus padrões de referência usados para medir desempenho. Assim, outras pessoas e organizações podem refazer a avaliação.
Fonte: Olhardigital