доктор Рагин: Пакетный градиентный спуск быстрее потому что мы сначала прохожим 200 раз вперёд, рассчитывает СРЕДНЮЮ ошибку и дальше один раз проходом назад алгоритмом обратного распространения ошибки рассчитывает новые веса.
Добавлено
Обратная сторона медали: поскольку веса пересчитываются на основании входных данных, то нам приходится хранить весь пакет в памяти. Все 200 фоток. А при стахостическом спуске можно по одной фотке из файла подгружать.