доктор Рагин: Есть понятие batch_size. Это размер пакета. Batch_size = 1 значит статистический градиентный спуск. В этом случае веса корректируется после каждой картинки. Это гораздо медленнее. Могу поделиться своим опытом. Серьёзная большая нейронная сеть для распознавания эмоций по лицам. Сверточная сеть. Batch_size вначале стояло 200 и падала с ошибкой memoryerror. Сначала все веса хранит в памяти и потом вычисляет среднее приращение по всему пакету и корректирует веса сразу для пакета. Потом уменьшили бэтч сайз до 20 и сетка считалась сутки но без ошибок. Потом плюнули и сдали так курсовик и препод поставил тройку. Ну нет времени у меня искать оптимальный batch_size!
Добавлено
Ещё чем больше размер пакета, тем помехоустойчивость выше и можно с большим шагом
Альфа идти.
Добавлено
Если пакет - 200, то с одними весами алгоритм работает весь пакет.