Черт с ними, с терминами. НО - как мы можем выполнить обратное распределение по всем 60000 примерам? Мы можем определить частные производные - что по значению входов, что по коэффициентам W - только для конкретной входной комбинации. Для одного примера. Как можно ее определить по сразу 50000 входов?
Есть такое вначале берут 100 примеров по ним рассчитывают ошибку потом считают энтропию типа как средняя ошибка и используют в качестве вектора ошибки. Потом снова берут эти 100 и прогоняют для обучения весов.
А что бы не гонять 2 раза каждый раз придумали с накоплением по времени считать.
Adaptive subgradient methods https://habr.com/ru/post/318970/ https://arxiv.org/pdf/1212.5701.pdf