专利基于多智能体深度强化学习的水厂取水泵站节能调度方法 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211475230.4 (22)申请日 2022.11.23 (71)申请人南京邮电大学地址 210046 江苏省南京市栖霞区文苑路9 号 (72)发明人余亮　檀洋阳　李澳　王冬生　 (74)专利代理机构南京纵横知识产权代理有限公司 32224 专利代理师母秋松 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 7/00(2006.01) (54)发明名称基于多智能体深度强化学习的水厂取水泵站节能调度方法 (57)摘要本发明公开了一种基于多智能体深度强化学习的水厂取水泵站节能调度方法，包括以下步骤：（1）在维持蓄水池液位、总管压强差、水泵切换次数在安全范围的前提下，将水厂取水泵站总能耗最小化问题建模为马尔可夫博弈，并设计相应的环境状态、行为、以及奖励函数；（2）利用历史运行数据和长短期记忆网络构建取水泵站调度环境模型；（3）基于调度环境模型和多智能体行动者‑注意力‑评论家强化学习算法对深度强化学习智能体进行训练；（4）将训练得到的智能体策略部署到实际系统中。与现有方法相比，本发明提出的方法具有更强的系统安全维护能力、节能潜力（高达12.8%）以及通用性。权利要求书4页说明书10页附图4页 CN 115544899 A 2022.12.30 CN 115544899 A 1.一种基于多智能体深度强化学习的水厂取水泵站节能调度方法，其特征在于，包括如下步骤：步骤1：在维持蓄水池液位、总管压强差、水泵切换次数在安全范围的前提下，将取水泵站总能耗最小化问题建模为马尔可夫博弈，并设计马尔可夫博弈相应的环境状态、行为、以及奖励函数，构建关于取水泵站系统的多智能体；步骤2：利用历史运行数据和长短期记忆网络构建取水泵站调度环境模型；步骤3：基于取水泵站调度环境模型和多智能体行动者 ‑注意力‑评论家强化学习算法对多智能体进行深度强化学习训练；步骤4：将训练得到的多智能体策略部署到实际取水泵站系统中。 2.根据权利要求1所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法，其特征在于，所述取水泵站总能耗最小化问题的表达式如下：式中，为时隙取水泵站的总能源消耗，，表示优化时隙总数；为期望算子；为时隙取水泵站的变频泵工作频率或定频泵状态；为时隙蓄水池液面高度，和为蓄水池安全范围的最低和最高液位；为时隙取水泵站总管压强，为时隙取水泵站总管压强，为安全范围内的最高总管压强差，为表示截止到时隙取水泵站在一天内的切换次数，为取水泵站在一天内安全范围内的最高切换次数。 3.根据权利要求2所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法，其特征在于，所述马尔可夫博弈中环境状态的表达式如下：式中，，取1， 2，…，，表示需要控制的水泵数目，同时也为马尔可夫博弈中智能体的总个数，每个智能体负责控制1个取水泵；其中：为多智能体在时隙的环境状态，表示第个定频泵智能体或变频泵智能体的本地观测状态，为时隙的当前绝对时间在一天内的相对时间序号，为时隙蓄水池液面高度，为时隙取水泵站总管压强，为时隙蓄水池借水量，为时隙蓄水池供水量，为截止到时隙取水泵站在一天内的切换次数，为智能体所控制的水泵在时隙开权　利　要　求　书 1/4 页 2 CN 115544899 A 2关状态。 4.根据权利要求3所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法，其特征在于，所述马尔可夫博弈中行为的表达式如下：式中，表示需要控制的水泵数目，为整数，取1， 2，…，；其中，当时，为小于的整数，智能体为定频泵，为定频泵在时隙的开关状态，当时，定频泵智能体关闭，定频泵智能体开启；当时，智能体为变频泵，，为变频泵在时隙的频率的增减情况，表示频率泵关闭，和分别表示变频泵频率减少和增大，，表示变频泵频率不变。 5.根据权利要求4所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法，其特征在于，所述马尔可夫博弈中奖励函数表达式如下：式中，为时隙末用于控制每个取水泵的智能体所接收到的奖励，其中：为时隙与取水泵站能耗相关的惩罚成本，为时隙与蓄水池液位违背安全范围相关的惩罚成本，为时隙与违背取水泵站总管压强差安全范围相关的惩罚成本，为时隙与取水泵站组合切换代价相关的惩罚成本，为时隙与取水泵站组合切换次数违背安全范围导致的惩罚；为蓄水池液位违背安全范围导致的惩罚相对于能耗相关的惩罚成本的重要性系数，为总管压强差违背安全范围导致的惩罚相对于能耗相关的惩罚成本的重要性系数，为切换取水泵站导致的惩罚相对于能耗相关的惩罚成本的重要性系数，为取水泵站切换次数违背安全范围导致的惩罚相对于能耗相关的惩罚成本的重要性系数。 6.根据权利要求5所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法，其特征在于，所述取水泵站调度环境模型构建如下：权　利　要　求　书 2/4 页 3 CN 115544899 A 3

专利 基于多智能体深度强化学习的水厂取水泵站节能调度方法

专利基于多智能体深度强化学习的水厂取水泵站节能调度方法