Без заголовка

Пятница, 24 Ноября 2017 г. 13:11 + в цитатник

В предыдущей статье я описал несколько алгоритмов эволюционных стратегий (evolution strategies, ES), помогающих оптимизировать параметры функции без необходимости явно вычислять градиенты. При решении задач обучения с подкреплением (reinforcement learning, RL) эти алгоритмы можно применять для поиска подходящих наборов параметров модели для агента нейросети (neural network agent). В этой статье я расскажу об использовании ES в некоторых RL-задачах, а также опишу методы поиска более стабильных и устойчивых политик.

Читать дальше ->

https://habrahabr.ru/post/343008/

<a href="https://www.liveinternet.ru/users/rss_rss_hh_new/post425497163/">Р‘РµР· Р·Р°РіРѕР»РѕРІРєР°</a><br/>
Р’ РїСЂРµРґС‹РґСѓС‰РµР№ СЃС‚Р°С‚СЊРµ СЏ РѕРїРёСЃР°Р» РЅРµСЃРєРѕР»СЊРєРѕ Р°Р»РіРѕСЂРёС‚РјРѕРІ СЌРІРѕР»СЋС†РёРѕРЅРЅС‹С… СЃС‚СЂР°С‚РµРіРёР№ (evolution strategies, ES), РїРѕРјРѕРіР°СЋС‰РёС… РѕРїС‚РёРјРёР·РёСЂРѕРІР°С‚СЊ РїР°СЂР°РјРµС‚СЂС‹ С„СѓРЅРєС†РёРё Р±РµР· РЅРµРѕР±С…РѕРґРёРјРѕСЃС‚Рё СЏРІРЅРѕ РІС‹С‡РёСЃР»СЏС‚СЊ РіСЂР°РґРёРµРЅС‚С‹. РџСЂРё СЂРµС€РµРЅРёРё Р·Р°РґР°С‡ РѕР±СѓС‡РµРЅРёСЏ СЃ РїРѕРґРєСЂРµРїР»РµРЅРёРµРј (reinforcement learning, RL) СЌС‚Рё Р°Р»РіРѕСЂРёС‚РјС‹ РјРѕР¶РЅРѕ РїСЂРёРјРµРЅСЏС‚СЊ РґР»СЏ РїРѕРёСЃРєР° РїРѕРґС…РѕРґСЏС‰РёС… РЅР°Р±РѕСЂРѕРІ РїР°СЂР°РјРµС‚СЂРѕРІ РјРѕРґРµР»Рё РґР»СЏ Р°РіРµРЅС‚Р° РЅРµР№СЂРѕСЃРµС‚Рё (neural network agent). Р’ СЌС‚РѕР№ СЃС‚Р°С‚СЊРµ СЏ СЂР°СЃСЃРєР°Р¶Сѓ РѕР± РёСЃРїРѕР»СЊР·РѕРІР°РЅРёРё ES РІ РЅРµРєРѕС‚РѕСЂС‹С… RL-Р·Р°РґР°С‡Р°С…, Р° С‚Р°РєР¶Рµ РѕРїРёС€Сѓ РјРµС‚РѕРґС‹ РїРѕРёСЃРєР° Р±РѕР»РµРµ СЃС‚Р°Р±РёР»СЊРЅС‹С… Рё СѓСЃС‚РѕР№С‡РёРІС‹С… РїРѕР»РёС‚РёРє. Р§РёС‚Р°С‚СЊ РґР°Р»СЊС€Рµ ->  https://habrahabr.ru/post/343008/... <a href="https://www.liveinternet.ru/users/rss_rss_hh_new/post425497163/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Поиск по дневнику

-Подписка по e-mail

-Постоянные читатели

-Статистика

Без заголовка