Imagina que necesitas reservar un vuelo en una página web. Normalmente, esto implicaría buscar fechas, seleccionar horarios, completar datos personales y realizar el pago. Ahora, con ChatGPT Operator, puedes delegar esta tarea.
El usuario debe ingresar en esta IA dar la indicación para que el agente abra una página de vuelos, analice los elementos visuales como calendarios, menús desplegables y formularios, y realice todas las acciones necesarias.
Si se encuentra con un CAPTCHA o requiere información sensible, como los datos de su tarjeta de crédito, pausará la operación y pedirá su confirmación antes de continuar.
Este nivel de autonomía es posible gracias al modelo Computer-Using Agent (CUA) desarrollado por OpenAI, que utiliza las capacidades del modelo de inteligencia artificial GPT-4o.
ChatGPT Operator no solo comprende los elementos en pantalla a partir de los píxeles, sino que también utiliza un teclado y ratón virtuales para navegar por interfaces gráficas de usuario (GUI), permitiéndole completar tareas que antes solo podían realizar las personas. Esta IA está disponible para usuarios Pro en Estados Unidos.
Cómo funciona ChatGPT Operator
ChatGPT funciona gracias al modelo CUA que procesa la información directamente de la pantalla, interpretando los elementos visuales, como botones, menús y campos de texto. Esta capacidad le permite interactuar con entornos digitales sin necesidad de API especializadas, ampliando sus aplicaciones.
Una de las características principales de este agente es su capacidad para descomponer tareas en pasos pequeños.
Por ejemplo, al reservar un vuelo, primero buscaría las fechas disponibles, luego seleccionaría la mejor opción según las preferencias del usuario, completaría los formularios y revisaría los detalles antes de proceder al pago. En caso de un error, como un campo obligatorio que no estaba previsto, se autocorregiría y adaptaría para completar la tarea.
A diferencia de otros sistemas que dependen exclusivamente de configuraciones específicas, ChatGPT Operator interactúa directamente con los elementos gráficos de la pantalla, imitando la experiencia humana. Por ejemplo, al navegar en un sitio web, puede identificar opciones en menús desplegables, hacer clic en botones y desplazarse por la página, todo como lo haría un usuario real.
Si está explorando recetas de cocina en línea y desea recopilar automáticamente las listas de ingredientes de varios sitios web, ChatGPT Operator puede visitar las páginas, identificar los ingredientes y organizarlos en un archivo para referencia del usuario.
Qué tan seguro es ChatGPT Operator
ChatGPT Operator, el agente autónomo de OpenAI, ha sido desarrollado con un enfoque en la seguridad para proteger tanto a los usuarios como al entorno digital, según explica la compañía tecnológica.
Este modelo está diseñado para rechazar solicitudes que puedan implicar actividades dañinas, ilegales o inapropiadas, además de limitar su acceso a sitios sensibles, como aquellos relacionados con contenido para adultos o juegos de azar.
Durante la ejecución de tareas, el sistema es capaz de detectar actividades sospechosas. Si identifica algún riesgo, como contenido fraudulento en una página web, pausa su operación y alerta al usuario antes de proceder. “Operator está capacitado para garantizar que la persona que lo utiliza siempre tenga el control y solicite información en los puntos críticos”, explica OpenAI.
Para acciones críticas, como ingresar credenciales, resolver formularios CAPTCHA o realizar transacciones financieras, el modelo requiere la confirmación explícita del usuario, reduciendo riesgos y garantizando transparencia.
Si bien OpenAI ha destacado las capacidades de ChatGPT Operator, esta función se encuentra en una fase de prueba y aún no ha sido desplegada de forma completa a nivel global. Actualmente, su disponibilidad está limitada a suscriptores del nivel Pro en Estados Unidos.
A pesar de estas medidas, OpenAI reconoce que el modelo está en desarrollo y sigue trabajando en la mejora de sus capacidades de protección y supervisión.