Импульсные нейронные сети, пригодные для аппаратной реализации на основе мемристоров, весьма перспективны для робототехники в силу своей энергоэффективности. Однако алгоритмы обучения с подкреплением с применением таких сетей остаются малоизученными. Одной из ключевых мотиваций применения мемристоров в качестве весов сети является, помимо энергоэффективности, способность их обучения (изменения проводимости) в режиме реального времени за счет наложения импульсов напряжения от пре- и постсинаптических сигналов. В статье представлены результаты численного моделирования импульсной нейронной сети (ИНС) с мемристорными синаптическими связями, приблизительно решающей задачу оптимального управления с использованием следовых переменных для изменений весов, позволяющих приблизиться к обучению с подкреплением в истинном масштабе времени. Показана принципиальная возможность такого обучения в задаче с удержанием шеста на подвижной платформе, приведено сравнение различных функций наград, сделаны предположения о способах повышения эффективности этого подхода.
Индексирование
Scopus
Crossref
Высшая аттестационная комиссия
При Министерстве образования и науки Российской Федерации