LiveInternet
LiveInternet
x
(+ )
rss habrahabr of lokoman
rss habrahabr of lokoman
rss_habrahabr_of_lokoman
-
-
e-mail
-
: 16.03.2008
:
:
: 2
:
[] . ,
, 05 2018 . 12:46
+
(Random Network Distillation, RND) , .
(
ICLR, ).
RND , 24 .
->
https://habr.com/post/428776/?utm_source=habrahabr&utm_medium=rss&utm_campaign=428776
0
0
0
0
0
0
<a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post443586154/">[Перевод] Новая реализация любопытства у ИИ. Обучение с вознаграждением, которое зависит от сложности предсказать результат выдачи</a><br/> Прогресс в игре «Месть Монтесумы» многими рассматривался как синоним достижений в области исследования незнакомой среды Мы разработали метод случайной дистилляции сети (Random Network Distillation, RND) на основе прогнозирования, который поощряет агентов обучения с подкреплением исследовать окружение благодаря любопытству. Этот метод впервые превысил средние результаты человека в компьютерной игре «Месть Монтесумы» (если не считать анонимную заявку в ICLR, где результат хуже нашего). RND демонстрирует ультрасовременную эффективность, периодически находит все 24 комнаты и проходит первый ... <a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post443586154/">Читать далее...</a>
« .
—
—
. »
:
[1] [
]
:
:
: ( )
:
URL
LiveInternet
PDA