29 de marzo de 2026
La inteligencia artificial está demasiado ansiosa por estar de acuerdo con nosotros, ¿por qué es peligrosa?

תמונה: chatgpt
Un nuevo estudio advierte que los sistemas de inteligencia artificial, como ChatGPT, pueden estar de acuerdo con el usuario incluso cuando está equivocado.
En lugar de señalar sus errores, dan respuestas excesivamente alentadoras y halagadoras.
Para investigar el fenómeno, investigadores de Stanford presentaron a los modelos escenarios de conflictos interpersonales y comportamientos problemáticos.
Fin de la vista previa en hebreo
Para una experiencia inmersiva con el texto completo, traducciones, pronunciación, un diccionario personal y otras funciones interactivas, descarga nuestra aplicación móvil
Los casos se tomaron de publicaciones reales de Reddit, en una comunidad donde las personas presentan situaciones y preguntan si actuaron de manera adecuada. Los investigadores seleccionaron publicaciones en las que una clara mayoría de los usuarios no estaba de acuerdo con el comportamiento del autor. Sin embargo, en aproximadamente la mitad de los casos, los modelos reforzaron al autor y apoyaron su posición.
Luego, los investigadores realizaron otro experimento. Pidieron a las personas interactuar con diferentes versiones de inteligencia artificial, que variaban en su nivel de "halago". Los resultados mostraron que cuando el modelo está de acuerdo con el usuario, aumenta la confianza en sí mismo del usuario. Se vuelven menos dispuestos a reconsiderar, disculparse o admitir errores.
Los investigadores advierten que las personas tienden a confiar en modelos que los hacen sentir bien, incluso si estos modelos son menos precisos. La adulación de los modelos puede perjudicar el juicio de los usuarios.


