MARGO

Aktualności

Łagodne wprowadzenie do uczenia się przez wzmacnianie (RL)

Dowiedz się, jak uczenie się przez wzmacnianie działa w grze Papier, kamień, nożyce

Autor: Mao Feng Konsultant ds. danych naukowych w Margo

20/03/2018

Zanim przeczytasz ten artykuł, zapraszam do wspólnej zabawy z naszym agentem o imieniu Malphago w grze Papier, kamień, nożyce w iFrame poniżej i próby sprawdzenia, czy wzmocni się podczas gry z Tobą. W pozostałej części przedstawimy podstawy uczenia się przez wzmacnianie (Reinforcement Learning -RL) z pomocą Malphago.

 

  1. Przegląd RL

Uczenie się przez wzmacnianie jest uważane za naukę procesu decyzyjnego: próba zrozumienia optymalnego sposobu podejmowania decyzji. Obecnie stosuje się je w wielu różnych dziedzinach i poczyniono w tym zakresie znaczące postępy. Umożliwiło:

  • Pokonanie mistrza świata w grze planszowej GO.
  • Wykonywanie manewrów kaskaderskich w latającym helikopterze.
  • Chód humanoidalnego robota.
  • Zarządzanie portfelem inwestycyjnym.

 

RL plasuje się na styku wielu dziedzin nauki, jak pokazuje poniższy rysunek:

 

Diagram pokazuje, że ogólny problem decyzyjny jest właściwie badany przez wiele różnych dziedzin, jako fundamentalne nauki w tych grupach.

W tym artykule omawiamy technologię jako gałąź informatyki (Computer Science) i uczenia maszynowego (Machine Learning).

 

Uczenie się przez wzmacnianie jest nieodzownym elementem uczenia maszynowego, które łączy w sobie zarówno nadzorowane uczenie się, jak i uczenie się bez nadzoru. W problemie RL nie ma nadzorcy, lecz tylko sygnały nagrody. Nasz agent podejmuje działania zgodnie z nagrodą zwrotną, a działania wpływają na otrzymywane później dane. Powinniśmy zauważyć, że nie ma danych typu i.i.d. (niezależne, o identycznym rozkładzie), jak w normalnym nadzorowanym problemie uczenia się. W tym przypadku dane zwrotne mogą być opóźnione, więc czas naprawdę ma znaczenie.

 

  1. Jaki jest zestaw problemów?

Problem RL to sekwencyjny problem decyzyjny — kontrolowanie agenta do interakcji z otoczeniem krok po kroku, aby osiągnąć jakiś cel.

Weźmy Malphago jako przykład. Tutaj agentem jest mózg Malphago, a środowisko gra z ludzkim graczem – Bobem. Na każdym kroku Malphago wykonuje działanie: kamień, papier lub nożyczki. Bob odbiera działanie i generuje obserwację, która jest jedną ze wszystkich możliwych sytuacji (kamień kontra papier lub nożyczki kontra kamień itp.). Jednocześnie jest generowana odpowiednia nagroda, ponieważ wiemy, kto wygrywa, lub gra jest powiązana zgodnie z obserwacją.

 

Uczenie się przez wzmacnianie opiera się na hipotezie nagrody: cel można opisać przez maksymalizację spodziewanej łącznej nagrody. W skrócie, Malphago ma na celu wygrać jak najwięcej razy w dłuższej perspektywie, ale nie w jednej grze.

 

Przejdźmy głębiej do niektórych elementów w RL:

  • Nagrodajest sygnałem sprzężenia zwrotnego, który wskazuje, jak dobrze agent wykonuje dany krok. Zadaniem agenta jest wybranie działania w celu zmaksymalizowania łącznej nagrody. W innym modelu interakcji agent/środowisko działania mogą mieć długoterminowe konsekwencje, a nagroda może być opóźniona, więc lepiej będzie poświęcić natychmiastową nagrodę, aby uzyskać więcej długoterminowej nagrody.
  • Stanto informacje używane do określenia, co dzieje się dalej. W naszej grze Papier, kamień, nożyce stan środowiska jest w pełni obserwowalny zarówno przez Boba, jak i Malphago. W tym przypadku nazywamy to procesem decyzyjnym Markowa, w którym przypuszczamy, że przyszłość jest niezależna od przeszłości, biorąc pod uwagę teraźniejszość. Dokładniej mówiąc, stosujemy bieżącą obserwację jako aktualny stan (stan może być zaprojektowany jako bardziej skomplikowany), Malphago podejmuje decyzję zgodnie z aktualnym stanem i stale poprawia swoją strategię podejmowania decyzji.

 

  1. Metody rozwiązania

 

Co zawiera agent RL? Co najmniej jeden z następujących składników może odgrywać pewną rolę:

  • Polityka: Funkcja behawioralna Malphago. To znaczy, biorąc pod uwagę obecny stan, co należy wybrać jako następne działanie.
  • Funkcja wartości: Jak dobry jest każdy stan i/lub działanie? Czy (kamień kontra papier) jest dobrym stanem podczas gry z Bobem, czy papier jest dobrym działaniem w tym stanie? Ta funkcja jest przeznaczona do oceny, ile otrzymamy całkowitej nagrody, jeśli zastosujemy określoną politykę.
  • Model:Strategia Boba z perspektywy Malphago. Jak przewidzieć następny stan i nagrodę?

 

Malphago stosuje tak zwaną metodę Q-learning, aby ulepszyć swoją strategię gry. Metoda ta jest podejściem bezmodelowym, wykorzystującym zarówno funkcję wartości, jak i politykę, aby stworzyć procedurę uczenia. Innymi słowy, Malphago nie przejmuje się tym, jak Bob myśli i jakie jest następne działanie Boba. Malphago ocenia tylko swoją funkcję wartości i wybiera najlepszy wybór zgodnie z jego polityką. Podczas gry uczy się tej funkcji i ulepsza politykę.

 

Oto następne pytanie: do jakiego stopnia możemy podejść do funkcji wartości? Co zrobić, jeśli funkcja jest o wiele bardziej złożona, niż sobie wyobrażaliśmy, tak że nie jesteśmy w stanie właściwie ocenić wartości stanu? Głębokie uczenie się ze wzmacnianiem jest zatem dobrym sposobem na przybliżenie funkcji wartości ze względu na jej silną zdolność reprezentacji. Nasz Deep Malphago jest przykładem wdrożenia DRL.

 

  1. Wniosek

 

Podsumowując: uczenie się przez wzmacnianie jest podstawowym problemem przy sekwencyjnym podejmowaniu decyzji: Środowisko jest początkowo nieznane, a agent wchodzi w interakcję ze środowiskiem, aby ulepszyć swoją politykę.

Przypomina to uczenie się metodą prób i błędów. Agent powinien odkryć dobrą politykę podczas doświadczeń z interakcji ze środowiskiem, nie tracąc przy tym zbytnio nagrody.

Mam nadzieję, że spodoba ci się gra z Malphago, i dzięki za przeczytanie.


Autor: Mao Feng Konsultant ds. danych naukowych w Margo
Machine Learning
Aktualności

Utworzenie scentralizowanej platformy zarządzania logami za pomocą pakietu narzędzi Elastic

Ilość danych generowanych przez nasze systemy i aplikacje stale rośnie, co powoduje wzrost liczby centrów danych i systemów przechowywania danych. W obliczu tej eksplozji danych i inwestycji w wiedzę fachową i zasoby, decydenci potrzebują uzasadnionych analiz i zaawansowanych tabel, umożliwiających im zarządzanie swoimi systemami i klientami.

04/06/2018 Więcej 
Aktualności

Data Science w świecie handlu detalicznego: 10 najważniejszych przypadków wykorzystania

Data Science w coraz większym stopniu wpływa na modele biznesowe we wszystkich gałęziach przemysłu, zwłaszcza w sprzedaży detalicznej. Według IBM, 62% detalistów deklaruje, że wykorzystanie technik związanych z Big Data daje im poważną przewagę konkurencyjną. Dzięki data sicence możemy sprawdzić, czego potrzebuje klient i w jakim momencie jest obecnie na wyciągnięcie ręki. Aby to zrobić, musimy jedynie posiadać odpowiednie narzędzia i wdrożyć dobre procedury związane z ich używaniem. W niniejszym artykule przedstawiamy 10 najważniejszych zastosowań data science w handlu detalicznym.

01/06/2018 Więcej 
Aktualności

Krótkie wprowadzenie do chatbotów tworzonych za pomocą Dialogflow

Ostatnio pracuję nad chatbotem, korzystając z aplikacji Google Dialogflow. Niniejszy artykuł zawiera kilka moich uwag dotyczących Dialogflow i chatbotów. Opisuję w nim też sposób, jak stworzyć prostego chatbota za pomocą platformy Dialogflow.

07/05/2018 Więcej 
Aktualności

Salon Big Data 2018: co warto zapamiętać

Zgodnie z wynikami ankiety przeprowadzonej przez IDC, wartość obrotów na rynku Big Data powinna wynieść 203 mld dolarów już w roku 2020, w porównaniu z 130,1 mld w roku 2016.

30/03/2018 Więcej 
Aktualności

Google Cloud Platform

Pośród swoich usług w chmurze Google oferuje ponad 50 produktów, od samej infrastruktury (w skład której wchodzi pamięć do przechowywania danych i moc obliczeniowa), poprzez systemy uczące się (Machine Learning), po narzędzia do przetwarzania i analizy danych o dużych objętościach. Większość z tych usług i narzędzi jest łatwa do wdrożenia (średni czas konfiguracji to 10 minut) i kosztuje niewiele w porównaniu do standardowych rozwiązań na serwerach lokalnych.

06/03/2018 Więcej