Empresas, ansiosas para garantir que todos os modelos de IA que usam aderir à segurança e ao uso seguro políticas, ajuste os LLMs para que não respondam a consultas indesejadas.
No entanto, grande parte da proteção e da equipe vermelha acontece antes da implantação, “integrando” as políticas antes que os usuários testem completamente os recursos dos modelos na produção. OpenAI acredita que pode oferecer uma opção mais flexível para as empresas e incentivar mais empresas a adotarem políticas de segurança.
A empresa lançou dois modelos abertos sob previsão de pesquisa que acredita que tornarão as empresas e os modelos mais flexíveis em termos de salvaguardas. gpt-oss-safeguard-120b e gpt-oss-safeguard-20b estarão disponíveis em uma licença permissiva Apache 2.0. Os modelos são versões aprimoradas do código aberto da OpenAI gpt-oss, lançado em agostomarcando o primeiro lançamento da família oss desde o verão.
Em um postagem no blogOpenAI disse que oss-safeguard usa o raciocínio “para interpretar diretamente uma política desenvolvedor-provedor no momento da inferência – classificando mensagens do usuário, conclusões e bate-papos completos de acordo com as necessidades do desenvolvedor”.
A empresa explicou que, como o modelo utiliza uma cadeia de pensamento (CoT), os desenvolvedores podem obter explicações sobre as decisões do modelo para revisão.
“Além disso, a política é fornecida durante a inferência, em vez de ser treinada no modelo, por isso é fácil para os desenvolvedores revisarem iterativamente as políticas para aumentar o desempenho," OpenAI disse em seu put up. "Esta abordagem, que desenvolvemos inicialmente para uso interno, é significativamente mais flexível do que o método tradicional de treinar um classificador para inferir indiretamente um limite de decisão a partir de um grande número de exemplos rotulados."
Os desenvolvedores podem baixar ambos os modelos em Abraçando o rosto.
Flexibilidade versus cozimento
No início, os modelos de IA não conhecerão os gatilhos de segurança preferidos de uma empresa. Enquanto os fornecedores de modelos fazem equipes vermelhas modelos e plataformasessas salvaguardas destinam-se a uma utilização mais ampla. Empresas como Microsoft e Amazon Internet Providers até oferecer plataformas trazer grades de proteção para aplicações de IA e agentes.
As empresas usam classificadores de segurança para ajudar a treinar um modelo para reconhecer padrões de entradas boas ou ruins. Isso ajuda os modelos a aprender a quais consultas eles não devem responder. Também ajuda a garantir que os modelos não se desviem e respondam com precisão.
“Classificadores tradicionais podem ter alto desempenho, com baixa latência e custo operacional," OpenAI disse. "Mas reunir uma quantidade suficiente de exemplos de treinamento pode ser demorado e caro, e atualizar ou alterar a política requer um novo treinamento do classificador."
O modelo recebe duas entradas ao mesmo tempo antes de concluir onde o conteúdo falha. É necessária uma política e o conteúdo para classificar de acordo com suas diretrizes. A OpenAI disse que os modelos funcionam melhor em situações onde:
-
Os danos potenciais estão a surgir ou a evoluir e as políticas têm de se adaptar rapidamente.
-
O domínio é altamente matizado e difícil de ser manuseado por classificadores menores.
-
Os desenvolvedores não têm amostras suficientes para treinar um classificador de alta qualidade para cada risco em sua plataforma.
-
A latência é menos importante do que produzir rótulos explicáveis e de alta qualidade.
A empresa disse que o gpt-oss-safeguard “é diferente porque seus recursos de raciocínio permitem que os desenvolvedores apliquem qualquer política”, mesmo aquelas que eles escreveram durante a inferência.
Os modelos são baseados na ferramenta interna da OpenAI, o Security Reasoner, que permite que suas equipes sejam mais iterativas na definição de guarda-corpos. Freqüentemente, eles começam com políticas de segurança muito rígidas, “e usam quantidades relativamente grandes de computação quando necessário”, e depois ajustam as políticas à medida que avançam o modelo através das mudanças na produção e nas avaliações de risco.
Executando segurança
A OpenAI disse que os modelos gpt-oss-safeguard superaram seu pensamento GPT-5 e os modelos gpt-oss originais em precisão multipolítica com base em testes de benchmark. Ele também executou os modelos no benchmark público ToxicChat, onde tiveram um bom desempenho, embora o pensamento GPT-5 e o Security Reasoner os tenham superado ligeiramente.
Mas existe a preocupação de que esta abordagem possa trazer uma centralização das normas de segurança.
“A segurança não é um conceito bem definido. Qualquer implementação de padrões de segurança refletirá os valores e prioridades da organização que os cria, bem como os limites e deficiências dos seus modelos”, disse John Thickstun, professor assistente de ciência da computação na Universidade Cornell. “Se a indústria como um todo adotar padrões desenvolvidos pela OpenAI, corremos o risco de institucionalizar uma perspectiva específica sobre segurança e causar um curto-circuito em investigações mais amplas sobre as necessidades de segurança para implantações de IA em muitos setores da sociedade.”
Deve-se notar também que a OpenAI não lançou o modelo base para a família de modelos oss, portanto os desenvolvedores não podem iterá-los totalmente.
A OpenAI, no entanto, está confiante de que a comunidade de desenvolvedores pode ajudar a refinar o gpt-oss-safeguard. Ele sediará um Hackathon em 8 de dezembro em São Francisco.












