Twórcy Libratusa zdradzają jego tajemnice

0
536
Libratus 2

Trzeba przyznać, że promowanie pokerowego bota Libratusa, udaje się naukowcom z Carnegie Mellon znakomicie. Kilka dni temu znów zrobiło się o nich głośno.

To wszystko dzięki artykułowi dla magazynu Advancement of Science, w którym wyczyn bota, czyli pokonanie najlepszych graczy oceniono jako „nadludzkie”. W tekście twórcy Libratusa, Tuomas Sandholm i Noam Brown, przedstawiają w jaki sposób działa sztuczna inteligencja.

Przypomnijmy, że Libratus zagrał z czterema specjalistami od gry heads-up – Jasonem Lesem, Dongiem Kimem, Danielem McAuleyem i Jimmym Chou. Panowie na początku radzili sobie całkiem nieźle, ale bot „uczył się” strategii na podstawie ich zagrań. Ostatecznie stracili 1,7 mln żetonów, co przełożyć można na 14 blindów na 100 rozdań.

O ile „rozwiązanie” heads-up Limit Holdem nie było jeszcze tak skomplikowane (to dość prosta forma pokera, ma 10^13 kombinacji) to już heads-up NL to aż 10 do potęgi 161 kombinacji, co oznacza, że przygotowanie drzewa decyzyjnego jest niemożliwe. Nie można też obliczyć każdego punktu decyzyjnego dla tak skomplikowanej gry.

Naukowcy w artykule omawiają sposób, w jaki udało się rozwiązać ten problem. Libratus miał bowiem trzy główne moduły, dzięki którym każde rozdanie traktował i analizował w czasie rzeczywistym, szukając strategii. Sandholm i Brown musieli jednocześnie uniknąć zbytniego uproszczenia strategii bota, bo gracze mogliby to wykorzystać.

Może się wydawać, że nie istnieje zbyt wielka różnica pomiędzy kolorem do damy, a kolorem do króla. Potraktowanie tych układów jako takich samych znacznie zmniejsza skomplikowanie gry i czyni obliczenia łatwiejszymi. Jednakże oba te układy ciągle się od siebie różnią. Na najwyższym poziomie gry te różnice mogą oznaczać przegraną lub wygrywaną.

Zbalansowana strategia

Wielu obserwatorów zauważyło, że za sukces Libratusa, odpowiada zbalansowana strategia gry na riverze. Zagrywał on tam bardzo mocne overbety, w których zawierały się blefy i value bety, a na które gracze nie potrafili często znaleźć odpowiedzi.

Libratus potrafił wziąć pod uwagę w rozdaniu blockery. Przykładowo, gdy w ręce mamy A4, na stole są K762J nasz układ to tylko ace high. Wiemy jednak, że rywal nie będzie miał najlepszej możliwej ręki. To z kolei otwiera możliwości wykonywania na riverze wielkich overbetów z blefami.

W przeciwieństwie do poprzedniego bota, Libratus mógł na riverze podjąć decyzję na podstawie betów ludzi, zamiast wykorzystywać jeden z gotowych scenariuszy.

Uruchomiliśmy nasz algorytm na złożonej koncepcji, która jest bardzo szczegółowa w dwóch pierwszych rundach HU NL, ale stosunkowo skomplikowana w dwóch ostatnich rundach. Libratus nie gra jednak nigdy zgodnie z rozwiązaniem koncepcji w dwóch ostatnich rundach. Zamiast tego wykorzystuje strategię abstrakcyjnego planu w tych dwóch rundach, aby oszacować jakiej nagrody spodziewa się gracz w tej konkretnej ręce w podgrupie gry. Te obliczenia służą to określenia bardziej precyzyjnej strategii podczas rzeczywistej gry.