После сокрушительной победы компьютерной программы AlphaGo над чемпионом по игре в го компания Google нашла искусственному интеллекту DeepMind новую цель — покер.
Дэвид Сильвер, преподаватель Университетского колледжа Лондона, один из разработчиков DeepMind и главный программист алгоритма AlphaGo опубликовал работу «Глубокое подкрепляющее обучение в ходе самостоятельной игры в играх с неполной информацией». В ней описаны методы обучения компьютерного алгоритма игре в два вида покера: Leduc Hold’em (упрощенная версия игры с колодой из шести карт) и Texas Hold’em (самый популярный в мире вид). Уже сейчас при игре в Leduc Hold’em алгоритм достиг равновесия Нэша — математически оптимальной стратегии игры.