Enñando a la IA el comportamiento humano

La IA y "el Diplomacia"

La diplomacia, ha argumentado muchos estadistas, es un arte: uno que requiere no solo estrategia, sino también intuición, persuasión, e incluso subterfugios—habilidades humanas que durante mucho tiempo han estado fuera del alcance incluso de los enfoques de inteligencia artificial (IA) más poderosos. Ahora, un algoritmo de IA de la compañía Meta ha demostrado que puede vencer a muchos humanos en el juego de mesa Diplomacy, que requiere tanto planificación estratégica como negociaciones verbales con otros jugadores. El trabajo, dicen los investigadores, podría señalar el camino hacia entrenadores de ejercicio virtuales y mediadores de disputas. La diplomacia internacional de chatbot puede no estar muy lejos.

“ Estos son nuevos resultados espectaculares, ” dice Yoram Bachrach, un informático de DeepMind que ha trabajado en el juego Diplomacia pero no participó en la nueva investigación. “ Estoy particularmente entusiasmado con la diplomacia porque es un entorno excepcional para estudiar IA cooperativa, ” en el que las máquinas no solo compiten, sino que colaboran.

La IA ya ha superado a los humanos en juegos de estrategia como el ajedrez, Ir, póker y el videojuego Dota 2. También está demostrando ser poderoso en el procesamiento del lenguaje natural, en el que puede generar texto humano y continuar conversaciones. El juego de la diplomacia requiere ambos. Involucra a siete jugadores que compiten por el control de Europa. En cada turno, los jugadores emiten órdenes con respecto al movimiento del ejército y las unidades navales, después de la discusión con otros jugadores, a quienes pueden atacar o apoyar. El éxito generalmente requiere generar confianza, y ocasionalmente abusar de ella. Tanto el ex presidente John F. Kennedy como el ex Secretario de Estado Henry Kissinger eran fanáticos del juego.

Investigación previa de IA se ha centrado en una versión del juego llamada no-press Diplomacy, en la que los jugadores no se comunican. Eso en sí mismo es un desafío para las computadoras porque la combinación de cooperación y competencia requiere perseguir objetivos conflictivos. El nuevo trabajo, publicado esta semana en Ciencia, es el primero en lograr resultados respetables en el juego completo. Noam Brown, un científico informático de Meta que fue coautor del artículo, dice que cuando comenzó el proyecto, en 2019, pensó que el éxito requeriría una década. “La idea de que puedes tener una IA que habla con otra persona y planea las cosas y negocia y genera confianza parecía ciencia ficción.”

El agente de IA de Meta, CICERO, combina un módulo de razonamiento estratégico y un módulo de diálogo. Al igual que en otras IA de aprendizaje automático, los módulos se capacitaron en grandes conjuntos de datos, en este caso 125,261 juegos que los humanos habían jugado en línea — tanto en el juego como en las transcripciones de las negociaciones de los jugadores.

Los investigadores capacitaron el módulo de razonamiento estratégico haciendo que el agente juegue contra copias de sí mismo. Aprendió a elegir acciones basadas en el estado del juego, cualquier diálogo previo y las acciones predichas de otros jugadores, buscando varios movimientos por delante. Durante el entrenamiento, los investigadores también lo recompensaron por un juego humano para que sus acciones no confundieran a otros jugadores. En cualquier dominio, ya sean modales en la mesa o conducir, las convenciones tienden a facilitar las interacciones.

El módulo de diálogo también requería ajuste. Fue entrenado no solo para imitar el tipo de cosas que la gente dice en los juegos, sino para hacerlo en el contexto del estado del juego, el diálogo previo, y lo que el módulo de planificación estratégica pretendía hacer. Por sí solo, el agente aprendió a equilibrar el engaño y la honestidad. En un juego promedio, envió y recibió 292 mensajes que imitaban la jerga típica del juego. Por ejemplo, un mensaje leído, “¿Cómo crees que Alemania se abrirá? Puede que tenga una oportunidad en Bélgica, pero Iird necesita tu ayuda en Den[mark] el próximo año.”

Jonathan Gratch, un científico informático de la Universidad del Sur de California que estudia agentes de negociación—y proporcionó orientación temprana para una Agencia de Proyectos de Investigación Avanzada de Defensa programa eso también está tratando de dominar Diplomacy—nota dos innovaciones técnicas. Primero, CICERO basa su comunicación en la planificación de múltiples pasos, y segundo, mantiene sus comentarios y juego dentro del ámbito de la convención humana.

Para probar su habilidad, los investigadores hicieron que CICERO jugara 40 juegos en línea contra humanos (que en su mayoría asumían que era un humano). Se colocó en el 10% superior de los jugadores que jugaban al menos dos juegos. “En un juego que involucra lenguaje y negociación, que los agentes puedan alcanzar la paridad humana es muy emocionante,” dice Zhou Yu, un informático de la Universidad de Columbia que estudia los sistemas de diálogo.

Gratch dice que el trabajo es “impressive” y “important.” Pero cuestiona cuánto contribuyó al éxito el diálogo de CICEROa, a diferencia de su planificación estratégica. Según el documento, los expertos en Diplomacia calificaron aproximadamente el 10% de los mensajes de CICEROations como inconsistentes con su plan o estado de juego. “Eso sugiere que está diciendo mucha basura,” dice Gratch. Yu está de acuerdo, señalando que CICERO a veces pronuncia non sequiturs.

Brown dice que el trabajo podría conducir a aplicaciones prácticas en nichos que ahora requieren un toque humano. Un ejemplo concreto: Los asistentes personales virtuales podrían ayudar a los consumidores a negociar mejores precios en los billetes de avión. Gratch y Yu ven oportunidades para los agentes que convencen a las personas para que tomen decisiones saludables o se abran durante la terapia. Gratch dice que los agentes de negociación podrían ayudar a resolver disputas entre oponentes políticos.

Los investigadores también ven riesgos. Agentes similares podrían manipular puntos de vista políticos, ejecutar estafas financieras o extraer información confidencial. “La idea de manipulación no es necesariamente malo,” dice Gratch. “Solo tienes que tener barandillas,” incluyendo dejar que la gente sepa que están interactuando con una IA y que no les mentirá. “Idealmente la gente está consintiendo, y no hay engaño.”

doi: 10.1126/ciencia.adf9357

ETIQUETAS RELEVANTES:

TECNOLOGÍA

SOBRE EL AUTOR

Matthew Hutson

Autor

Matthew Hutson es un periodista científico independiente en la ciudad de Nueva York.

Ofertas especiales

Reserva de actividades

Sesiones

Sesiones gratuitas

Apúntate al boletín

Novedades

Entrevista Online

Citas

Webs asociadas