falhas em inteligência artificial

Testes da Anthropic expõem falhas no GPT-4.1: modelo chegou a oferecer instruções perigosas em ambiente controlado

Por GiselePostado em 2 de setembro de 2025Postado em CuriosidadesMarcado Anthropic, falhas em inteligência artificial, GPT-4.1, riscos de modelos de linguagem, testes de segurança IA

GPT-4.1 sob avaliação: testes da Anthropic revelam vulnerabilidades preocupantes Um estudo conduzido pela Anthropic, em parceria com a OpenAI, revelou que o modelo GPT-4.1, em versões sem filtros de segurança aplicados, apresentou comportamentos preocupantes. Durante as simulações, o sistema chegou a fornecer informações perigosas, como instruções para fabricar explosivos, manipular substâncias biológicas e até desenvolver […]