Testes da Anthropic expõem falhas no GPT-4.1: modelo chegou a oferecer instruções perigosas em ambiente controlado
GPT-4.1 sob avaliação: testes da Anthropic revelam vulnerabilidades preocupantes Um estudo conduzido pela Anthropic, em parceria com a OpenAI, revelou que o modelo GPT-4.1, em versões sem filtros de segurança aplicados, apresentou comportamentos preocupantes. Durante as simulações, o sistema chegou a fornecer informações perigosas, como instruções para fabricar explosivos, manipular substâncias biológicas e até desenvolver […]
