La Inteligencia Artificial (IA) vence a los jugadores profesionales de póquer

By Noticias, Poker

INTELIGENCIA ARTIFICIAL (IA) GANA AL POKER

En 2017, un robot de póquer llamado «Libratus» desarrollado por investigadores de la Carnegie Melon University (CMU), dirigido por el profesor Tuomas Sandholm y el estudiante de doctorado Noam Brown, venció a algunos de los mejores profesionales de póquer del mundo en Texas en una muestra de gran tamaño. El avance fue considerado un hito en ese momento, pero sus aplicaciones fueron limitadas debido a la tarea binaria de vencer a un solo oponente a la vez – en el juego de cabeza.

El último bot de póquer desarrollado por los mismos investigadores en un proyecto conjunto entre la IA de Facebook y CMU fue capaz de hacer algo que ningún otro IA ha logrado: vencer a varios jugadores fuertes en el juego de información incompleta de poker hold’em sin límite en un formato de seis manos, y lo hizo de forma más eficiente que cualquier otro bot de póquer documentado antes que él.

Michael Gagliano: «Hubo varias jugadas que los humanos simplemente no están haciendo en absoluto, especialmente en relación a su tamaño de apuesta».

«Pluribus», como se llama el bot, es el último superordenador que ha eliminado a los profesionales del póquer. Los resultados del proyecto tienen implicaciones importantes en el campo de la IA y contextos de información incompleta, así como aplicaciones potenciales para los jugadores de póquer, algunas emocionantes y otras presagiosas.

Pluribus vence a los profesionales del póquer

El póquer ha sido utilizado durante mucho tiempo como un problema de desafío en la investigación de la IA porque, como explican Brown y Sandholm en su último artículo científico, Superhuman AI para el póquer multijugador publicado en la revista Science Magazine, «Ningún otro juego recreativo popular captura los desafíos de la información oculta de forma tan efectiva y elegante como el póquer».

Hasta ahora, sin embargo, ningún bot ha sido capaz de vencer de forma fiable a los jugadores humanos en un formato multijugador, de la forma en que se juega normalmente al póquer. Pluribus fue diseñado para seis máximos NLHE y se enfrentó a algunos de los mejores jugadores de póquer, todos con exitosos resultados de seis máximos y más de un millón de dólares en ganancias.

Se realizaron dos experimentos separados con Pluribus, uno usando cinco humanos y un formato de IA (5H+1AI) y otro que probó a un humano contra cinco IAs (1H+5AI), en el que cinco copias de Pluribus jugaron entre sí y un jugador humano, pero no pudieron coludir ni comunicarse de ninguna manera. En ambos experimentos, se encontró que el bot tenía una tasa de victorias significativamente confiable sobre los jugadores humanos.

Jason Les: «Es un fanfarrón de monstruos. Yo diría que es un farol mucho más eficiente que la mayoría de los humanos».

En el experimento 5H+1AI, se jugaron 10.000 manos de póquer durante 12 días. Cada día participan cinco de los siguientes jugadores: Jimmy Chou, Seth Davies, Michael Gagliano, Anthony Gregg, Dong Kim, Jason Les, Linus Loeliger, Daniel McAulay, Greg Merson, Nick Petrangelo, Sean Ruane, Trevor Savage y Jacob Toole.

Aunque los nombres reales no se divulgaban a los jugadores, todos tenían un alias para poder seguir las tendencias de otros jugadores a lo largo del experimento. Los jugadores también jugaban por una parte de 50.000 dólares que se distribuirían en función del rendimiento. En el formato 5H+1AI, Pluribus mostró una tasa de ganancia de 48 mbb/juego (con un error estándar de 25 mbb/juego) con mbb representando a las mili-big ciegas. En el experimento 1H+5AI, Elias y Ferguson jugaron 5.000 manos cada uno contra cinco copias de Pluribus, y el bot ganó a una velocidad de 32 mbb/juego (con un error estándar de 15 mbb/juego).

En general, el bot venció a los humanos con un valor de alrededor de 5 dólares por mano y casi 1.000 dólares por hora, según el blog de IA de Facebook de Brown.

Diseños y Estrategias del Bot

Libratus fue diseñado para el juego de cabeza, un juego de suma cero en el que un jugador gana y otro pierde. Por esta razón, su algoritmo fue diseñado para calcular estrategias de equilibrio aproximadas de Nash antes del juego. Sin embargo, lo que hizo que el bot fuera aún más difícil de vencer fueron otros dos módulos principales que tenía en su algoritmo, a saber, la resolución de subjuegos durante el juego y el ajuste de estrategias para acercarse al equilibrio basado en agujeros o explotaciones que sus oponentes encontrarían durante el transcurso del juego. El resultado fue que Libratus tenía una estrategia equilibrada y una «estrategia mixta perfectamente ejecutada» que dificultaba que los humanos jugaran contra las cabezas levantadas.

La estrategia de Pluribus fue calculada en su mayor parte por el «juego propio», lo que significa que desarrolló su estrategia central basada en el juego de copias de sí mismo en lugar de basarla en las aportaciones de las manos de los seres humanos o de otros IAs. En su documento, Brown y Sandholm explican este proceso de la siguiente manera:

«La IA comienza desde cero jugando al azar, y mejora gradualmente a medida que determina qué acciones, y qué distribución de probabilidad sobre esas acciones, conducen a mejores resultados contra versiones anteriores de su estrategia.»

Esta estrategia «offline» se denomina «blueprint strategy» y se basa en una forma de minimización contrafactual del arrepentimiento (CFR) – «un algoritmo iterativo de auto-juego» – que se ha utilizado en anteriores IAs para una serie de juegos competitivos uno a uno. Pluribus siguió específicamente un tipo de «CFR de Monte Carlo», que le permitió explorar diferentes acciones en un árbol de juego en una situación dada para comparar qué opciones hipotéticas serían mejores o peores, basándose en estrategias asumidas para cada uno de los otros jugadores.

Esto se hizo a lo largo de varias iteraciones, y el arrepentimiento contrafáctico representa hasta qué punto la IA «se arrepiente» de no haber elegido ciertas acciones en iteraciones anteriores. La estrategia se actualiza constantemente para minimizar este arrepentimiento – para que las acciones con más CFR sean seleccionadas con mayor probabilidad – hasta que el bot desarrolle su estrategia central. Durante el juego real, el bot adaptó su estrategia de proyecto mientras buscaba mejores estrategias para situaciones específicas que encontraría en tiempo real. El siguiente es un diagrama de vídeo que muestra cómo Pluribus desarrolló la estrategia a través de CFR, publicado en el mencionado blog de Facebook AI de Brown:

Aplicaciones de Póquer

Hay mucho que aprender de Pluribus desde la perspectiva de un jugador de póquer, aunque las aplicaciones de póquer no son los propósitos principales de los investigadores para la investigación de la IA del póquer. Como el bot no trabajaba a partir de datos humanos, sino experimentando con diversas estrategias y eligiendo las mejores según la situación, Pluribus realizó unas jugadas poco convencionales que resultaron rentables frente a algunos de los mejores jugadores del mundo.

En su artículo, los investigadores mencionan dos aplicaciones clave del póquer. Uno ya es convencional en la estrategia avanzada de NLHE, a saber, la confirmación de que cojear desde cualquier posición que no sea la de la pequeña persiana es subóptimo (el bot descartó esta acción de su arsenal desde el principio). Menos convencional es la estrategia de las apuestas donk, o la de llevar a cabo un levantamiento de preflop o un agresor en la calle anterior, que Pluribus fue capaz de ejecutar de forma rentable.

Otras estrategias exitosas empleadas por Pluribus incluían apuestas grandes no convencionales, tanto cuando se trata de (semi-)engaños como de apuestas de valor. También mostró tácticas de trampa exitosas y algunas fusiones de alcance exitosas. En el siguiente video, algunas de estas estrategias se muestran en acción. En la Mano 2, Pluribus elige atrapar fuera de posición con su mano buena, pero marginal (par superior, tercer pateador), yendo por un río poco convencionalmente grande y siendo llamado por peor para obtener el máximo valor. Puedes ver tres ejemplos en el blog de la IA en Facebook de Brown, abajo:

Algunos de los comentarios de los jugadores participantes sobre sus experiencias jugando al Pluribus se pueden encontrar en el mismo blog. Está claro que los humanos podrían aprender de robots como Pluribus, y Gagliano parece estar de acuerdo.

«Hubo varias jugadas que los humanos simplemente no están haciendo en absoluto, especialmente en relación con el tamaño de las apuestas», dijo Gagliano. «La IA es una parte importante en la evolución del póquer, y fue increíble tener experiencia de primera mano en este gran paso hacia el futuro».

Chris Ferguson: «Es realmente difícil inmovilizarlo en cualquier tipo de mano. También es muy bueno haciendo apuestas de bajo valor en el río».

Jason Les admitió que tenía problemas para contrarrestar los movimientos del bot: «Es un absoluto fanfarrón de monstruos. Yo diría que es un farol mucho más eficiente que la mayoría de los humanos. Y eso es lo que hace que sea tan difícil jugar contra ellos. Siempre estás en una situación en la que la IA te está presionando mucho y sabes que es muy probable que sea un farol».

«El Pluribus es un rival muy difícil de enfrentar», añadió Chris Ferguson. «Es muy difícil inmovilizarlo en cualquier tipo de mano. También es muy bueno haciendo apuestas de bajo valor en el río. Es muy bueno sacando valor de sus buenas manos».

Implicaciones

El campo de la IA se está desarrollando claramente a un ritmo acelerado, y este último logro es significativo para la sociedad. Uno de los hechos más emocionantes y potencialmente atemorizantes de la investigación es la relativamente baja potencia de computación necesaria para lograr los resultados que mostró Pluribus. Libratus usó 100 CPUs durante sus partidos de cabeza en 2017. Pluribus, en comparación, usa «$150 de computación y corre en tiempo real en 2 CPUs» usando menos de 128 GB de memoria.

Como señala Brown, los resultados de la investigación de Pluribus pueden aplicarse a campos como la prevención del fraude y la ciberseguridad, así como a otros campos en los que intervienen múltiples agentes y/o información oculta «con una comunicación y colusión limitadas entre los participantes». Aunque, por supuesto, hay beneficios positivos potenciales que se derivan de la investigación, algunos individuos justificadamente plantearon sus preocupaciones en el foro de Reddit con respecto a la mayor facilidad de hacer trampas a través del uso de robots de póquer en contextos de póquer en línea.

«Estamos concentrados en la investigación de la IA, no en el póquer.»

Estos individuos preocupados no recibieron mucha tranquilidad, como admitió Brown: «Nos centramos en la investigación de la IA, no en la del póquer», aunque también señaló que «los sitios de póquer más populares tienen técnicas avanzadas de detección de robots, por lo que intentar ejecutar un bot en línea es probablemente demasiado arriesgado para que valga la pena».

Aunque la detección de los robots ha sido incrementada por los principales sitios de póquer en los últimos años, la facilidad y eficiencia de la supercomputación observada en el último bot es motivo justificado de preocupación para los jugadores de póquer en línea. El tiempo dirá si las herramientas de prevención de bot del póquer en línea pueden seguir el ritmo de aquellos que buscan utilizar la tecnología de supercomputación para obtener una ventaja injusta en la industria.

En términos de póquer en vivo, algunos jugadores pueden quitar beneficios en términos de estrategia, y como Brown mencionó, algunas herramientas de póquer como los solucionadores pueden ser capaces de incorporar elementos estratégicos aprendidos de Pluribus. Queda por ver cómo se desarrollarán las aplicaciones de la investigación y si los beneficios superarán o no a las posibles aplicaciones maliciosas.

Por ahora, los jugadores de póquer inteligentes probablemente buscarán obtener beneficios de los hallazgos, al menos aquellos que no temen parecer estúpidos ante el sentimiento al tomar líneas poco convencionales o al ejecutar jugadas de alta varianza.

Todo el mundo necesita una cuenta en una de estas salas de póquer online! Son los más grandes, los mejores, y te damos los mejores bonos de póquer. Echa un vistazo a nuestra sección de póquer en línea para más detalles sobre todas las salas de póquer en línea.