OpenAI entrenará sus modelos para que admitan cuando tienen un comportamiento indebido con una técnica de confesiones

|

OpenAI ha comenzado a trabajar en una nueva técnica de confesiones, con la que entrenará a los modelos de inteligencia artificial (IA) para que "admitan explícitamente" cuando están llevando a cabo un comportamiento indebido a la hora de ejecutar una tarea u ofrecer una respuesta.



La compañía de IA dirigida por Sam Altman ha detallado cómo, aunque los sistemas de IA cada vez son más capaces, es importante comprender cómo y por qué llegan a una respuesta, dado que, en algunas ocasiones, tienden a tomar atajos u optimizar sus recursos para "el objetivo equivocado".



Este tipo de comportamiento en los modelos de IA se traduce en resultados que son erróneos, pero que parecen correctos y, por tanto, genera desconfianza. Por ejemplo, ocasiona comportamientos como las alucinaciones en las respuestas o la maquinación.



De cara a evitar este tipo de comportamientos y aumentar la confiabilidad en los modelos, OpenAI ha anunciado que está trabajando en nuevos métodos que ayuden a detectar y mitigar estos riesgos, en concreto, con una nueva técnica de confesiones.



Como ha explicado en un comunicado, esta nueva técnica está diseñada para entrenar a los modelos de manera que "admitan explícitamente" cuando están comportándose de forma indeseable a la hora de ofrecer una respuesta.



Estas confesiones son independientes de la respuesta principal para el usuario y son autoinformes del modelo sobre cómo ha cumplido con las instrucciones de los usuarios en su solicitud, evaluándose exclusivamente en función de la honestidad. Es decir, autoreflexiona sobre si ha cogido atajos en su respuesta, si ha violado las políticas de uso o si ha cumplido con las expectativas.



Así, si el modelo admite honestamente haber manipulado las reglas, un examen o haber infringido las instrucciones del usuario, se aumenta su recompensa de entrenamiento, en lugar de disminuirla.



Es decir, el objetivo de esta técnica de confesiones es animar al modelo a informar fielmente de cómo ha ejecutado su tarea para ofrecer una solución o respuesta. De esta manera, se revelará si ha tenido un comportamiento erróneo que conlleve una respuesta que haya que revisar o si el procedimiento es fiable.



Tras haber probado este método con modelos como una versión de GPT-5 Thinking, OpenAI ha detallado que se mejora "significativamente" la visibilidad de la mala conducta del modelo. Asimismo, la probabilidad de obtener falsos negativos, esto es, que el modelo no cumpla las instrucciones y no lo confiese, es del 4,4 por ciento.



"A medida que los modelos se vuelven más eficaces y se implementan en entornos de mayor riesgo, necesitamos mejores herramientas para comprender qué hacen y por qué. Las confesiones no son una solución completa, pero añaden un componente importante a nuestro conjunto de herramientas de transparencia y supervisión", ha compartido la compañía, al tiempo que ha adelantado que planean aumentar el uso de esta técnica y combinarla con otros sistemas de transparencia y seguridad.




europapress