Szczegóły: Hinda Śledziewska; Kategoria: szachy komputerowe; Opublikowano: 12 grudzień 2017; Odsłony: 4542

Nowy program AlphaZero, opracowany przez Google i zbudowany w oparciu o technologie sieci neuronowych i sztucznej inteligencji, spotkał się w meczu z jednym z najsilniejszych silników szachowych - Stockfish 8.

Mecz składał się ze 100 partii, wynik: 64-36 (28 zwycięstw, 72 remisy) na korzyść AlphaZero.

Zdjęcie: H. Śledziewska

GM Jaan Ehlvest zamieścił na swojej stronie http://www.chessgymnasium.com/ poniższy artykuł:

Czego możemy się nauczyć od AlphaZero?

Jako trener niektórych czołowych graczy studiuję szachowe partie grane przez komputery regularnie i niektóre sam generuję. Są pewne rzeczy, których możesz nauczyć się od szachów komputerowych i wierzę, że partie z ostatniego meczu między AlphaZero i Stockfish nie są wyjątkiem. Nic nadzwyczajnego. Dla szachowej publiczności nie ma znaczenia, który program jest silniejszy, ponieważ prawie wszystkie są silniejsze niż człowiek.

Chciałbym porozmawiać o zamieszaniu wokół samego AlphaZero. Niektóre osoby, nawet szachiści, chwalą to jako coś, czego nigdy wcześniej nie widzieli, a twórcy AlphaZero chcą nam przekazać, że stworzyli coś, co może nauczyć się gry w szachy w ciągu czterech godzin i używając jakiejś zapomnianej nowej technologii zwanej sieciami neuronowymi dokonują ogromnego skoku w rozwoju programu Al (artificial intelligence). Rozwój sztucznej inteligencji za pomocą szachów jest mylący, dlatego chciałbym opisać to w kolejnych akapitach tego artykułu.

Dawno temu sugerowano, że szachy są drosophilą Al. Specyficzne znaczenie analogii nigdy nie było bardziej niż powierzchownie operacowane. To, co większość praktyków zdaje się rozumieć przez uznawanie szachów za drosophilę sztucznej inteligencji, jest po prostu tym, że szachy komputerowe, podobnie jak drosophila, reprezentują stosunkowo prosty system, który jednak może być wykorzystany do zbadania większych, bardziej złożonych zjawisk.

Program Deep Blue, który w 1997 roku pokonał Kasparowa, był w stanie ocenić 200 milionów pozycji na sekundę (co przekłada się na średnią głębokość wyszukiwania od sześciu do ośmiu posunięć). IBM wydał miliony dolarów na Deep Blue, maszynę, która rozegrała tylko sześć partii z jednym przeciwnikiem. W rzeczywistości, maszyna została zdemontowana natychmiast po swoim nikłym zwycięstwie nad Garrym Kasparowem, a jej wewnętrzne działania nigdy nie zostały ujawnione, żeby usatysfakcjonować badawczą społeczność - ważna, ale niezamierzona konsekwencja, być może, konkurencyjnego systemu turniejowego i rosnącej zależności od nagród pieniężnych dla finansowania rozwoju systemu. W każdym razie, dla wielu obserwatorów, brutalne podejście Deep Blue do szachów komputerowych - wraz z wąsko wyspecjalizowanymi technikami "Zabójca Kasparowa" - było zbyt jednostronne, by sugerować jakąkolwiek sensowną ogólną inteligencję.

"Mój Boże, kiedyś myślałem, że szachy wymagają myślenia", rozważał znany naukowiec kognitywny Douglas Hofstadter w odpowiedzi na zwycięstwo Deep Blue: "Teraz zdaję sobie sprawę, że tak nie jest. Nie znaczy to, że Kasparow nie jest głębokim myślicielem, tylko że można pominąć głębokie myślenie w grze w szachy, sposób fruwania bez trzepotania skrzydłami" (cyt. za: Weber, 1996). W odpowiedzi na zwycięstwo Deep Blue opublikowanej w 1997 roku w czasopiśmie Science, John McCarty, założyciel sztucznej inteligencji i turniejów programów szachowych, publicznie ubolewał nad stopniem, w jakim szachy komputerowe były zaślepione zwycięstwami turniejowymi: "szachy rozwijają się tak bardzo, jak rozwijałaby się genetyka, gdyby genetycy skoncentrowali swoje wysiłki, począwszy od 1910 roku, na hodowli Drosophila. Mielibyśmy trochę nauki, ale głównie mielibyśmy bardzo szybkie muszki owocowe."

W sercu krytyki McCarthy'ego jest przekonanie, że chociaż szachy komputerowe były produktywne w tym, że zachęcały do ciągłych eksperymentów, nie przyniosły one żadnych nowych teorii - ani o ludzkich procesach poznawczych, ani o teoretycznej informatyce.

Herbert Simon i Allen Newell podkreślili, że istotne jest nie tylko to, że komputer wykonał dobre ruchy, ale że wykonał je z właściwych powodów. Szachy komputerowe były dla Simona i Newella cenne tylko do tego stopnia, że stanowiły "celową próbę symulowania ludzkich procesów myślowych" (Newell i in., 1958). Ten wzniosły cel został wkrótce porzucony w dążeniu do budowy silniejszych zawodników turniejowych.

Wyścig budowy zwycięskiego progamu gry w szachy jako jedynego udanego wyniku rozwoju AI tylko sprawił, że różnica między człowiekiem a maszyną jest szersza.

Brutalno-siłowe podejście do szachów komputerowych uwypukliło rosnący podział na sztuczną inteligencję i ludzkie nauki kognitywne. Coraz więcej badań nad ludzkimi szachistami wskazywało, że ludzie rzadko myślą o więcej niż jednym lub dwóch ruchach, opierając się na percepcji, rozpoznawaniu wzorców i korzystaniu z heurystyki. Szachy, grane przez ludzi, okazały się jeszcze bardziej złożoną działalnością poznawczą, niż wyobrażali to sobie pierwsi badacze sztucznej inteligencji (Wagner i Scurrah, 1971). W rezultacie szachy komputerowe zaczęły być postrzegane jako coraz bardziej odmienne od ludzkich szachów.

Wydaje się, że wielu badaczy AI wierzyło, że podstawową miarą eksperymentalnego organizmu była jego zdolność do tworzenia fundamentalnej teorii, wówczas szachy prawdopodobnie nie były drosophilą sztucznej inteligencji. Pomimo imponującej produktywności badaczy szachów komputerowych, program badań, do którego zachęcały szachy komputerowe, był po prostu zbyt wąski, aby mógł być zrównoważony. To było tak, jakby badania genetyczne oparte na drosophilii nigdy nie wykroczyły poza oznakowaniem chromosomu drosophila.

Mapowanie chromosomów było oczywiście ważnym wkładem drosophilistów w badania genetyczne, ale ponieważ techniki mapowania stawały się coraz bardziej rutynowe, zainteresowanie drosophila było w stagnacji. Dopiero po wprowadzeniu do laboratorium nowych dzikich odmian drosophila i odejściem od nich drosophilistów ponownie zastosowano drosophilę jako eksperymentalną technologię badania genetyki populacyjnej. Komputerowe szachy jeszcze nie miały takiego drugiego aktu.

Dopiero wraz z wprowadzeniem do laboratorium nowych dzikich odmian drosophila i przeniesieniem z niego drosophilistów, drosophila została odkryta jako eksperymentalna technologia do badania genetyki populacyjnej. Komputerowe szachy nie miały jeszcze takiego drugiego aktu. AlphaZero ma mieć taką, gdyż korporacja Google chce, żebyśmy w to wierzyli.

Patrząc na partie AlphaZero znalazłem jedną pozycję, która ma trochę obecności Al. Partia jest komentowana poniżej, a posunięcie, o którym mówię, to 19. posunięcie białych h2-h3 Najprawdopodobniej się mylę, a posunięcie wciąż wychodzi z brutalnej siły drzewa obliczeniowego i nie ma nic wspólnego z sztuczną inteligencją. Myślę, że porównanie z psychologią zwierząt jest tutaj bardzo istotne. Mamy bardzo duże dane na temat zachowania zwierząt i pomimo powszechnych wierzeń zarejestrowano bardzo niewiele przypadków, kiedy zwierzęta celowo starają się przesyłać sygnały lub informacje ludziom za pomocą ich umysłu. Zwierzęta są związane z ich instynktami, a wykrycie pojawienia się życia intelektualnego jest rzadkością, tak jak pojawienie się AI w w grającym w szachy programie komputerowym.

[Event "AlphaZero vs. Stockfish"] 
 [Site ""][Date "2017.12.04"] [Round "1.3"] 
 [White "AlphaZero"] 
 [Black "Stockfish 8"] 
 [Result "1-0"] 
 [ECO "E15"] 
 [Annotator "Jaan Ehlvest"] 
 1. Nf3 { Pierwsze ruchy nie są naprawdę istotne, niektórzy komentatorzy zrobili już analizy statystyczne, próbując wyciągnąć wnioski na temat grywalności niektórych linii. Prawda jest daleka od tego, komputery wymagają jeszcze więcej czasu obliczeniowego, aby zdecydować, które linie są najlepsze. Funkcja samouczenia się, którą program ma według niektórych przekonań, nie jest w stanie rozwiązać szachów, ponieważ w większości przypadków ocena linii teoretycznych jest tak bliska, że nawet na komputerze nie można zdecydować, które linie są najlepsze . Uważam, że posunięcia debiutowe mogą być po prostu przypadkowe.} Nf6 2. c4 b6 3. d4 e6 4. g3 Ba6 5. Qc2 c5 6. d5 exd5 7. cxd5 Bb7 8. Bg2 Nxd5 9. O-O Nc6 10. Rd1 Be7 11. Qf5 Nf6 12. e4 g6 13. Qf4 O-O 14. e5 Nh5 15. Qg4 Re8 {Nowinka! Mój Houdini 5.01, uruchomiony na domowym komputerze, zgadza się z tym posunięciem, to jeszcze nie jest błąd.} 16. Nc3 Qb8 17. Nd5 Bf8 18. Bf4 Qc8 {Teraz AlphaZero wykonuje wyczekujące posunięcie. Jest to bardzo podobny przypadek do słynnego skandalu podczas meczu Garry'ego Kasparowa z Deep Blue w 1997 roku. Wówczas Kasparow oskarżał zespół Deep Blue o ludzką interwencję, pomagając komputerowi podejmować ludzkie, a nie komputerowe decyzje. Tutaj mamy ten sam przypadek, żaden program komputerowy nie jest w stanie wykonać tego małego posunięcia bez ludzkiej regulacji algorytmu. Podobnie jak w 1997 roku, możemy twierdzić, że jest to legalna funkcja. Nie zgadzam się, to jest duża różnica. Twierdzisz, że masz system lub program, który jest w stanie samodzielnie uczyć się albo tylko pomagasz mu dodatkowymi regulacjami, które mogą albo nie pomóc komputerowi wygrać partię. Gdy komputer wykonuje takie posunięcie jak 19.h3, chciałbym zobaczyć trwający za nim proces. Komputer nie może myśleć, on tylko podąża za algorytmem. Funkcja samouczenia się naprawdę nie istnieje, obawiam się, że jest to tylko kwestia interpretacji. W rzeczywistości możemy mieć algorytm, który przechowuje pewne rozwiązania i używa je później. Nie jest to samonauczanie się w kategoriach ludzkich. Człowiek może zmienić algorytm, komputery - nie. Jeśli ktoś myśli inaczej, nie rozumie formalnej logiki i popełnia logiczny błąd. Tylko bóg może stworzyć coś z niczego. Mój Houdini daje posunięciu 19.h3 pewną głębokość, ale najlepszym posunięciem w tej pozycji jest na pewno 19.Wd2. Teraz moje pytanie jest następujące. AlphaZero znajduje wszystkie najlepsze posunięcia, ale nie wolno mu ich wykonywać przez cały czas. Jakiego jest rodzaju zapisany algorytm, nie pozwalający na wykonywanie najlepszych posunięć; jeśli jest to funkcja samouczenia się, to wówczas jest zbyt skomplikowany, żeby go zapisać jako algorytm. Jak wyjaśnimy systemowi, że aby wygrać, musisz wykonywać najlepsze posunięcia, ale w niektórych przypadkach musisz wykonać drugie najlepsze posunięcia. Jak opisać te przypadki? Po kilku minutach mój komputer nadal robi różnicę między 19.Wd2 i 19.h3 - -.23.} 19. h3 Ne7 $1 {Do tej pory Stockfish daje sobie radę z zadaniem.} 20. Ne3 Bc6 21. Rd6 Ng7 22. Rf6 Qb7 $4 {Po takim błędzie cały mecz wywiera na mnie niewielkie wrażenie. Mój Houdini nigdy nie popełnia takich błędów. To przypomina mi mecz Fischer-Taimanov, gdzie pojawiały się dobre pozycje, ale były źle grane.} (22... Nd5 $1 23. Nxd5 Bxd5 24. Bh6 (24. Rd1 Bxa2) 24... d6 $1 {było najbezpieczniejszą drogą dla czarnych.}) 23. Bh6 Nd5 24. Nxd5 Bxd5 25. Rd1 Ne6 26. Bxf8 Rxf8 27. Qh4 {Teraz pozycja staje się niebezpieczna dla czarnych i silniejszy komputer łatwo wygrywa.} Bc6 28. Qh6 Rae8 29. Rd6 Bxf3 30. Bxf3 Qa6 31. h4 Qa5 32. Rd1 c4 33. Rd5 Qe1+ 34. Kg2 c3 35. bxc3 Qxc3 36. h5 Re7 37. Bd1 Qe1 38. Bb3 Rd8 39. Rf3 Qe4 40. Qd2 Qg4 41. Bd1 Qe4 42. h6 Nc7 43. Rd6 Ne6 44. Bb3 Qxe5 45. Rd5 Qh8 46. Qb4 Nc5 47. Rxc5 bxc5 48. Qh4 Rde8 49. Rf6 Rf8 50. Qf4 a5 51. g4 d5 52. Bxd5 Rd7 53. Bc4 a4 54. g5 a3 55. Qf3 Rc7 56. Qxa3 Qxf6 57. gxf6 Rfc8 58. Qd3 Rf8 59. Qd6 Rfc8 60. a4 1-0

Mam nadzieję, że tym razem AlphaZero nie zniknie jak Deep Blue i więcej informacji będzie dostępnych dla publiczności. Musimy poczekać.

Jaan Ehlvest, 11 grudnia 2017

Search

Nauka gry w szachy

Czego możemy się nauczyć od AlphaZero?

Czego możemy się nauczyć od AlphaZero?

Wiadomości

Rozmaitości

Turnieje

Opinie, kontrowersje