Preview

Мехатроника, автоматизация, управление

Расширенный поиск
Доступ открыт Открытый доступ  Доступ закрыт Доступ платный или только для Подписчиков

Планирование движения роботов в социальной среде через обучение с подкреплением

https://doi.org/10.17587/mau.25.520-529

Аннотация

Обсуждается проблема управления движением роботов в социальной среде в местах скопления людей. Разработан и исследован алгоритм планирования движения мобильных роботов среди неподвижных и движущихся препятствий на основе обучения с подкреплением. В качестве прототипа выбран алгоритм GA3C-CADRL, в котором робот и препятствия рассматриваются как взаимодействующие агенты. Алгоритм был модифицирован и реализован с использованием рекуррентной нейронной сети LSTM для аппроксимации одновременно функции ценности и политики. Нейронная сеть обучалась на общем наборе данных, полученном путем обучения с подкреплением типа "актер—критик". Дополнительно разработаны компоненты rl_ planner и social_msgs для интегрирования предварительно обученного алгоритма планирования в систему управления роботом на программной платформе Robot Operating System 2. Первый компонент реализует обработку входных данных, вычисление действия робота и формирование требуемой скорости движения, а второй содержит сообщения с информацией о соседних агентах. Для тестирования алгоритма проведены эксперименты с тремя различными сценариями: со статическими препятствиями, смешанный, с динамическими агентами. Число эпизодов для обучения алгоритма при пяти агентах достигало 1500000. Моделирование движения робота на двух гусеницах в среде Gazebo показало, что в условиях статических препятствий робот достигает цели за наименьшее время. В присутствии динамических препятствий время увеличивалось в два раза по причине уклонения от столкновений. При этом расстояние до ближайшего агента оставалось безопасным (более 2 м). 

Об авторах

Л. А. Станкевич
Санкт-Петербургский политехнический университет Петра Великого
Россия

Канд. тех. наук, доц., 

Санкт-Петербург.



А. А. Ларионов
ООО "Специальный технологический центр»
Россия

Техник-программист, 

Санкт-Петербург.



Список литературы

1. Xiao X., Liu B., Warnell G., Stone P. Motion planning and control for mobile robot navigation using machine learning: a survey // Autonomous Robots. 2022. N. 46. P. 569—597. https://doi.org/10.48550/arXiv.2011.13112.

2. Koenig S., Likhachev M. D* Lite // Eighteenth National Conference on Artificial Intelligence. 2002. P. 476-483. URL: www.aaai.org.

3. Филимонов А. Б., Филимонов Н. Б. Вопросы управления движением мобильных роботов методом потенциального наведения // Мехатроника, автоматизация, управление. 2019. Т. 20, № 11. С. 677—685.

4. Fox D., Burgard W., Thrun S. The dynamic window approach to collision avoidance // IEEE Robotics & Automation Magazine. 1997. N. 1 (4). P. 23—33.

5. Герасимов В. Н. Система управления движением мобильного робота в среде с динамическими препятствиями // Научно-технические ведомости СПбГПУ. Информатика, телекоммуникации и управление. СПб. 2013. № 5(181). С. 94—102.

6. Macenski S., Martín F., White R., C lavero J. G. The Marathon 2: A Navigation System // 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). 2020. P. 2718—2725. URL: https://doi.org/10.48550/arXiv.2003.00368.

7. Яндекс.Ровер на улицах Сколково [Электронный ресурс]. ООО "Яндекс". URL: https://yandex.ru/blog/company/yandeks-rover-na-ulitsakh-skolkovo (08.06.2023).

8. Alonso-Mora J., Andreas B., Martin R., Paul B., Roland S. Optimal Reciprocal Collision Avoidance for Multiple NonHolonomic Robots // Distributed Autonomous Robotic Systems: The 10th International Symposium. 2013. P. 203—216. URL: https://doi.org/10.1007/978-3-642-32723-0_15.

9. Ferrer G., Garrell A., Sanfeliu A. Layered costmaps for context-sensitive navigation // 2013 European Conference on Mobile Robots. 2013. P. 331—336. DOI: 10.1109/IROS20146942636.

10. Trautman P., Ma1 J., Richard M. Murray R. M., Krause A. Robot navigation in dense human crowds: the case for cooperation // 2013 IEEE International Conference on Robotics and Automation (ICRA). 2013. P. 2153—2160. URL: http://www.cds.caltech.edu/~murray/papers/tmmk13-icra.html.

11. Rudenko A., Kucner T. P., Swaminathan C. S., Chadalavada R. T., Arras K. O., Lilienthal F. J. THÖR: Human-Robot Navigation Data Collection and Accurate Motion Trajectories Dataset // IEEE Robotics and Automation Letters. 2020. N. 2 (5). P. 676—682. URL: https://doi.org/10.48550/arXiv.1909.04403.

12. Tai L., Zhang J., Liu M., Burgard W. Socially Compliant Navigation Through Raw Depth Inputs with Generative Adversarial Imitation Learning // 2018 IEEE International Conference on Robotics and Automation (ICRA). 2018. P. 1111—1117. URL: https://doi.org/10.48550/arXiv.1710.02543.

13. Pérez-Higueras N., Caballero F., Merino L. Teaching Robot Navigation Behaviors to Optimal RRT Planners // International Journal of Social Robotics. 2018. N. 10. P. 235—249.

14. Plaat A. Deep Reinforcement Learning/ First Edition. Singapore: Springer Singapore, 2022. P. 406.

15. Long P., Fan T., Liao X., Liu W., Zhang H., Pan J. Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning // 2018 IEEE International Conference on Robotics and Automation (ICRA). 2018. P. 6252—6259. URL: https://doi.org/10.48550/arXiv.1709.10082.

16. Everett M., Chen Y. F., How J. P. Collision Avoidance in Pedestrian-Rich Environments with Deep Reinforcement Learning // IEEE Access. 2021. P. 10357—10377. URL: https://doi.org/10.1109/ACCESS.2021.3050338.

17. Chen Y. F., Liu M., Everett M., How J. P. Decentralized non-communicating multiagent collision avoidance with deep reinforcement learning // 2017 IEEE International Conference on Robotics and Automation (ICRA). 2017. P. 285—292. URL: https://doi.org/10.48550/arXiv.1609.07845.

18. Zhou Z., Zhu P., Zeng Z., Xiao J., Lu H. Robot navigation in a crowd by integrating deep reinforcement learning and online planning // Applied Intelligence. 2022. P. 15600—15616. URL: https://doi.org/10.48550/arXiv.2102.13265.

19. Macenski S., Foote T., Gerkey B., Lalancette C., Woodall W. Robot Operating System 2: Design, architecture, and uses in the wild // Science Robotics. 2022. N. 7 (66). URL: https://doi.org/10.1126/scirobotics.abm6074.

20. Ларионов А. А. Планирование движения мобильного робота в социальной среде с обучением с подкреплением. Магистерская диссертация, СПбПУ [Электронный ресурс]. URL: https://github.com/TonyCooT/msc_thesis (08.06.2023).


Рецензия

Для цитирования:


Станкевич Л.А., Ларионов А.А. Планирование движения роботов в социальной среде через обучение с подкреплением. Мехатроника, автоматизация, управление. 2024;25(10):520-529. https://doi.org/10.17587/mau.25.520-529

For citation:


Stankevich L.A., Larionov A.A. Planning the Movement of Robots in a Social Environment Via Reinforcement Learning. Mekhatronika, Avtomatizatsiya, Upravlenie. 2024;25(10):520-529. (In Russ.) https://doi.org/10.17587/mau.25.520-529

Просмотров: 119


ISSN 1684-6427 (Print)
ISSN 2619-1253 (Online)