Preview

Мехатроника, автоматизация, управление

Расширенный поиск
Доступ открыт Открытый доступ  Доступ закрыт Только для подписчиков

Метод преодоления катастрофического забывания при мультизадачном обучении с подкреплением

https://doi.org/10.17587/mau.23.414-419

Полный текст:

Аннотация

Принцип обучения с подкреплением основан на взаимодействии агента с окружением в целях максимизации своей награды. Обучение с подкреплением показывает очень хорошие результаты в решении различных задач управления. Тем не менее, попытки обучить интеллектуального агента эффективно решать несколько задач страдают от проблемы так называемого "катастрофического забывания". Полученные агентом знания об одной задаче вытесняются информацией в ходе выработки правильной стратегии для другой. Одним из методов предотвращения катастрофического забывания при многозадачном обучении является обучение агента на сохраненных в буфере опыта ранее встреченных состояниях. Разработанный нами метод позволяет обучить агента тому, как эффективно вести себя в нескольких средах одновременно на основе обмена опытом с агентами-учителями, используя буфер опыта. Обмен опытом основан на распространенном в глубоком обучении подходе, называемом дистилляцией знаний. Дистилляция знаний позволила свести задачу с подкреплением к задаче обучения с учителем. В ходе исследований были протестированы и выбраны максимально успешные сочетания различных функций потерь и способов преобразования выходных слоев нейросетей. Метод дистилляции знаний требует хранения огромного буфера состояний. Предложены несколько методик оптимизации хранения буфера: использование части буфера и сжатие состояний во внутреннее представление нейросети с помощью автокодировщика. В качестве тестового окружения для экспериментов использовались игры Atari. 

Об авторах

И. Н. Аглюков
Высшая школа экономики
Россия

студент, 

Москва



К. В. Святов
Ульяновский государственный технический университет
Россия

канд. техн. наук,

г. Ульяновск



С. В. Сухов
УФИРЭ им. В. А. Котельникова РАН
Россия

канд. физ.-мат. наук, 

г. Ульяновск



Список литературы

1. Shmygun A. A, Ermolaeva L. V., Zakharov N. V. Obuchenie s podkrepleniem, Novaya Nauka: sovremennoe sostoyanie i puti razvitiya, 2016, no. 12-3, pp. 189—191, available at: https://elibrary.ru/download/elibrary_27724493_81982095.pdf (in Russian).

2. Ecoffet A., Huizinga J., Lehman J. J., Stanley K. O., Clune J. First return, then explore, Nature, 2021, vol. 590, no. 7847, pp. 580—586, DOI: 10.1038/s41586-020-03157-9.

3. Kalashnikov D., Irpan A., Pastor P., Ibarz J., Herzog A., Jang E., Quillen D., Holly E., Kalakrishnan M., Vanhoucke V., Levine S. Qt-opt: Scalable deep reinforcement learning for vision based robotic manipulation, arXiv preprint arXiv:1806.10293, 2018, available at: https://arxiv.org/abs/1806.10293.

4. Da Silva F. L., Taylor M. E., Costa A. H. R. Autonomously reusing knowledge in multiagent reinforcement learning, Proc. 27th Int. Joint Conf. on Artificial Intelligence, 2018, pp. 5487—5493, available at: https://www.ijcai.org/proceedings/2018/0774.pdf.

5. Koroteev M. V. Obzor nekotoryh sovremennyh tendentsyj v tehnologiyah mashinnogo obucheniya, E-Management, 2018, pp. 30—31 (in Russian).

6. Lesort T., Lomonaco V., Stoian A., Maltoni D., Filliat D., Díaz-Rodríguez N. Continual learning for robotics: Definition, framework, learning strategies, opportunities and challenges, Information Fusion, 2020, vol. 58, pp. 52—68, DOI: 10.1016/j.inffus.2019.12.004.

7. Ross S., Gordon G., Bagnell A. A reduction of imitation learning and structured prediction to no-regret online learning, Journal of Machine Learning Research, 2011, vol. 15, pp. 627—635, available at: http://proceedings.mlr.press/v15/ross11a.

8. Parisotto E., Lei Ba J., Salakhutdinov R. Actor-mimic: Deep multitask and transfer reinforcement learning, arXiv preprint arXiv:1511.06342. 2015, available at: https://arxiv.org/abs/1511.06342.

9. Teh Y. W., Bapst V., Czarnecki W. M., Quan J., Kirkpatrick J., Hadsell R., Heess N., Pascanu R. Distral: Robust multitask reinforcement learning, Proc. 31st Int. Conf. on Neural Information Processing Systems, 2017, pp. 4499—4509, available at: https://proceedings.neurips.cc/paper/2017/hash/0abdc563a06105a ee3c6136871c9f4d1-Abstract.html.

10. Rusu A. A., Colmenarejo S. G., Gulcehre C., Desjardins G., Kirkpatrick J., Pascanu R., Mnih V., Kavukcuoglu K., Hadsell R. Policy distillation, arXiv preprint arXiv:1511.06295. 2015. URL: https://arxiv.org/abs/1511.06295.

11. Levine S., Kumar A., Tucker G., Fu J. Offline reinforcement learning: Tutorial, review, and perspectives on open problems, arXiv preprint arXiv:2005.01643. 2020. URL: https://arxiv.org/abs/2005.01643.

12. Ballard D. Modular learning in neural networks, Proc. 6th National Conf. on Artificial Intelligence, 1987, vol. 1, pp. 279—284, available at: https://www.aaai.org/Library/AAAI/1987/aaai87-050.php.

13. Akinina N. V., Akinin M. V., Sokolova A. V., Nikiforov M. B., Taganov A. I. Avoenkoder: podhod k ponizheniyu razmernosti vektornogo prostranstva s kontroliruemoj poterej informatsii // Izvestiya Tul’skogo gosudarstvennogo universiteta. Tehnicheskie nauki. 2016. no. 9. pp. 3—12, available at: https://elibrary.ru/download/elibrary_27277969_89179513.pdf (in Russian).

14. McCloskey M., Cohen N. J. Catastrophic Interference in Connectionist Networks: The Sequential Learning Problem, Psychology of learning and motivation, 1989, vol. 24, pp. 109—165, DOI: 10.1016/S0079-7421(08)60536-8.

15. Sukhov S., Leontev M., Miheev A., Sviatov K. Prevention of catastrophic interference and imposing active forgetting with generative methods, Neurocomputing, 2020, vol. 400, pp.73—85, DOI: 10.1016/j.neucom.2020.03.024.

16. Mnih V., Kavukcuoglu K., Silver D., Rusu A. A., Veness J., Bellemare M. G., Graves A., Riedmiller M., Fidjeland A. K., Ostrovski G., Petersen S., Beattie C., Sadik A., Antonoglou I., King H., Kumaran D., Wierstra D., Legg S., Hassabis D. Human-level control through deep reinforcement lear ning, Nature, 2015, vol. 518, no. 7540, pp. 529—533, DOI: 10.1038/nature14236.

17. Wang Z., de Freitas N., Lanctot M. Dueling Network Architectures for Deep Reinforcement Learning, Int. Conf. on Machine Learning, 2015, pp. 1995—2003, available at: http://proceedings.mlr.press/v48/wangf16.html.

18. Biryukova V. A. Tehnologiya distillyatsii znanij dlya obucheniya nejronnyh setej na primere zadachi binarnoj klassifikacii, Intellektual’nye sistemy. Teoriya i prilozheniya, 2020, vol. 24, no. 2, pp. 23—52, available at: http://intsysjournal.ru/pdfs/24-2/Birukova.pdf (in Russian).

19. Brockman G., Cheung V., Pettersson L., Schneider J., Schulman J., Tang J., Zaremba W. Openai gym, arXiv preprint arXiv:1606.01540, 2016, available at: https://arxiv.org/abs/1606.01540.


Рецензия

Для цитирования:


Аглюков И.Н., Святов К.В., Сухов С.В. Метод преодоления катастрофического забывания при мультизадачном обучении с подкреплением. Мехатроника, автоматизация, управление. 2022;23(8):414-419. https://doi.org/10.17587/mau.23.414-419

For citation:


Agliukov I.N., Sviatov K.V., Sukhov S.V. A Method for Catastrophic Forgetting Prevention during Multitasking Reinforcement Learning. Mekhatronika, Avtomatizatsiya, Upravlenie. 2022;23(8):414-419. https://doi.org/10.17587/mau.23.414-419

Просмотров: 274


ISSN 1684-6427 (Print)
ISSN 2619-1253 (Online)