李响教授团队在深度强化学习
应用于空间优化任务
系列成果速递
导读 空间优化是解决资源分配、设施布局、路径规划等问题的关键领域,广泛应用于学区划分、设施选址、应急疏散等实际场景。其目标是在复杂空间约束下,平衡效率、公平性和成本。然而,传统优化方法在应对动态变化和高维约束时往往缺乏高效性,亟需新的技术手段予以突破。深度强化学习(Deep Reinforcement Learning, DRL)作为人工智能领域的前沿技术,将强化学习的自主决策机制与深度学习的特征提取能力相结合,使机器能够在复杂环境中通过与环境交互学习最优策略,展现出解决高维动态问题的强大潜力,为空间优化带来了革命性进展。 华东师范大学地理科学学院李响教授团队聚焦于利用深度强化学习技术解决空间优化问题。此前,团队将深度强化学习应用于应急疏散场景,提出了一系列用于行人模拟的创新性方法(参见相关论文1-3)。近期,团队将研究集中于地理信息系统中更为经典的空间资源优化配置领域,在广泛整理并分析现有相关研究成果基础之上,完成了一篇综述性论文,系统地总结和回顾了现有利用强化学习解决空间资源分配问题的理论方法和实践研究,分析了这一领域亟待解决的关键挑战。在此基础上,团队针对设施选址和区域划分问题,开展了一系列深入研究,取得了一些初步的成果。 方法 1)理论方法综述:探索深度强化学习在空间资源分配中的可能性 (参见相关论文4) 在空间资源分配领域,如何充分利用强化学习是一个备受关注的研究课题。团队在其综述论文中系统回顾了现有利用强化学习方法解决空间资源分配问题的研究进展,详尽总结了理论框架、关键技术与应用案例。同时,论文针对当前面临的核心挑战——如复杂约束的处理、实时动态优化能力的不足等,提出了若干可行解决方案,并展望了这一交叉领域的潜在研究方向。这篇综述不仅为学术研究提供了系统的理论支撑,还为未来的实践应用指出了清晰的路径。 图1 基于深度强化学习的空间资源分配研究现状 2)区域划分:利用深度强化学习优化教育资源分配 (参见相关论文5) 作为空间优化的典型场景,学区划分问题涉及如何在容量限制下优化区域划分策略以提升教育资源分配的公平性和效率。团队在其研究中创新性地将深度强化学习的DQN算法应用于学区划分问题,通过智能体与环境的交互,让模型自主学习最优划分策略。团队研究设计了专门的奖励机制,使算法能够动态平衡学区的容量约束,提升服务质量。在具体案例中,DQN算法不仅在优化效果上优于传统方法,还展现了出色的计算效率,为解决大规模供需场景中的服务划分问题提供了新思路。该研究框架的适应性使其能够应对区域需求的动态变化,为类似的空间资源分配问题提供了重要的参考价值。 图2 基于DQN的学区资源划分的技术路线图 3)设施选址:突破多目标优化的复杂限制 (参见相关论文6) 设施选址是空间优化的另一核心领域,尤其是现实场景中需要同时考虑设施容量、布局及服务效能等多种限制条件。针对容量受限的避难所设施选址问题,团队提出了结合深度强化学习PPO算法与动作掩码技术(IAM)的创新框架 IAM-PPO算法。动作掩码技术通过动态限制无效动作,有效提升了算法处理复杂约束时的效率与精度。同时,研究采用了无预设设施数量的策略,让模型在自主探索中优化设施数量与布局,满足不同需求场景的多目标要求。实验结果表明,IAM-PPO算法在优化设施服务效能的同时显著降低了计算成本,为多目标设施选址问题提供了创新解决方案。 图3 基于IAM-PPO的避难所设施选址的技术路线图 结语 深度强化学习在空间优化中的应用还有很多方面值得进一步探讨,比如,如何在空间优化问题中用的恰如其分,哪些问题适合深度强化学习等。希望李响教授团队的研究工作能够为相关研究提供参考。 相关论文 [1] Xu, D., Huang, X., Li, Z., Li, X., 2020, Local Motion Simulation using Deep Reinforcement Learning. Transactions in GIS, 24: 756-779. [2] Xu, D., Huang, X., Mango, J., Li, X., Li, Z., 2021, Simulating Multi-Exit Evacuation Using Deep Reinforcement Learning. Transactions in GIS, 25(3): 1542-1564. [3] Mu, S., Huang, X., Wang, M., Zhang, D., Xu, D., Li, X., 2023, Optimizing Pedestrian Simulation Based on Expert Trajectory Guidance and Deep Reinforcement Learning. Geoinformatica, 27: 709-736 [4] Zhang, D., Wang, M., Mango, J., Li, X.*, Xu, X., 2024, A Survey on Applications of Reinforcement Learning in Spatial Resource Allocation. Computational Urban Science, doi: 10.1007/s43762-024-00127-z [5] Zhang, D., Mu, S., Mango, J., Li, X., 2024, Deep Reinforcement Learning for Spatial Resource Allocation: A Case Study of School Districting. Environment and Planning B: Urban Analytics and City Science, doi: 10.1007/s10707-023-00486-5 [6] Zhang, D., Meng, H., Wang, M., Xu, X., Yan, J., Li, X., 2024, A Multi-Objective Optimization Method for Shelter Site Selection Based on Deep Reinforcement Learning. Transactions in GIS, doi: 10.1111/tgis.13252 作者简介 第一作者:张迪,华东师范大学地理科学学院地理图学与地理信息系统专业博士研究生,研究方向为利用人工智能解决空间优化问题。 通讯作者:李响,华东师范大学地理科学学院教授、博导,低空经济空间智能技术研究中心主任,地理信息科学教育部重点实验室副主任。其研究兴趣主要集中在“时空轨迹大数据处理及应用”与“空间智能分析算法”。主持省部级以上科研项目20余项,发表论文近200篇,出版学术专著4部。开发了国内外首套专用于时空轨迹数据管理与应用的软件工具XSTAR,截止2024年12月30日,用户数超过8000。在空间智能分析算法方面,关注于跨学科研究与跨领域应用的各种空间智能问题,充分发挥人工智能的自动时空信息采集技术、基于地理信息系统平台、构建领域相关的应用模型、实现现实问题的有效解决,在生产安防、环境保护、城市规划、交通管理、公安监控等方面有多项落地的应用。更详细介绍可参见其微信公众号“大数据攻城狮”。 个人主页: /ecnu/smu_faculty/_s33/lx2/main.psp 微信公众号:大数据攻城狮 电子邮箱:xli@geo.ecnu.edu.cn