QQ交談
專利類型:
發明授權
申請(專利)號:
CN202510412928.9
申請日:
2025-04-03
授權公告號:
CN119940656B
授權公告日:
2025-06-27
申請人:
天府永興實驗室; 四川省環境政策研究與規劃院
地址:
610213 四川省成都市天府新區集萃街619號
發明人:
岳超; 臧劍; 賀光艷; 劉旭; 張蕾; 羅彬
專輯:
信息科技
專題:
計算機軟件及計算機應用
主分類號:
G06Q10/04
分類號:
G06Q10/04;G06Q50/04;G06F30/27;G06N20/00;G06Q30/0202
國省代碼:
51
頁數:
21
代理機構:
成都睿道智誠專利代理有限公司
代理人:
柏柯
1.一種鋼鐵行業煉鋼工藝優化方法,其特征在于,包括以下步驟:建立包含高爐-轉爐煉鋼、廢鋼煉鋼和還原鐵煉鋼三種煉鋼技術的參數化流程,定義物料、能源消耗、碳排放系數及成本參數,構建煉鋼工藝參數化模型;基于煉鋼工藝參數模型,定義煉鋼工藝的狀態空間和動作空間,設置多目標獎勵函數和對應的約束違反懲罰項,得到強化學習模型;其中,狀態空間包括市場份額、總成本、碳排放量、產量和技術平穩性;動作空間為三種煉鋼技術的選擇策略;所述基于煉鋼工藝參數模型,定義煉鋼工藝的狀態空間和動作空間,設置多目標獎勵函數和對應的約束違反懲罰項,得到強化學習模型的具體過程為:將市場份額、總成本、碳排放量、產量及技術平穩性作為狀態變量,構建五元組狀態向量,如下式(1)所示: 其中,表示技術在時間的市場份額;表示時間的煉鋼總成本;表示時間的碳排放量;表示時間的鋼鐵產量;表示技術平穩性,即相鄰時間步市場份額變化的絕對值;將三種煉鋼技術的市場份額分配比例作為動作,如下式(2)所示: 其中,表示智能體在狀態下可選擇的動作;、和分別表示三種煉鋼技術對應的市場份額分配比例;和分別表示市場份額的上限和下限;獎勵函數如下式(3)所示: 、和的表達式如下式(4)、式(5)和式(6)所示: 其中,、、和分別表示對應狀態向量的權重系數;、和分別表示對應懲罰項的懲罰系數;表示碳排放約束的懲罰項;表示市場份額約束的懲罰項;表示鋼鐵產量約束的懲罰項;基于Q-learning算法對強化學習模型進行訓練,通過狀態-動作-獎勵的交互循環更新Q值,動態調整選擇策略;所述基于Q-learning算法對強化學習模型進行訓練,通過狀態-動作-獎勵的交互循環更新Q值,動態調整選擇策略的具體過程為:將所有狀態-動作對的Q值初始化為隨機值或零;基于當前狀態和ε-貪心策略選擇動作,其中,ε-貪心策略以ε概率隨機探索動作空間,以1-ε概率選擇當前Q值最大的動作;執行所選動作,觸發環境狀態從轉移至,并根據獎勵函數計算即時獎勵,所述獎勵函數包含市場份額獎勵項、成本懲罰項、碳排放懲罰項、技術平穩性懲罰項及約束違反懲罰項;采用式(7)更新Q值,式(7)如下所示: 其中,表示Q值;表示Q值學習率;表示折扣因子,用于控制未來獎勵的影響;為下一個狀態下的最大Q值,表示智能體選擇最優動作后的回報;通過下式(8)對行為策略進行迭代更新,式(8)所示: 其中,表示智能體在狀態下選擇的煉鋼工藝;對強化學習模型輸出的選擇策略進行仿真驗證,若仿真結果未達到預期優化目標,則通過離線梯度下降法調整強化學習模型的對應參數并重新訓練強化學習模型,直至滿足優化目標。
本發明涉及鋼鐵行業低碳工藝優化技術領域。本發明提供了一種鋼鐵行業煉鋼工藝優化方法、設備及存儲介質,包括以下步驟:建立煉鋼技術的參數化流程,定義物料、能源消耗、碳排放系數及成本參數,構建煉鋼工藝參數化模型;基于煉鋼工藝參數模型,定義煉鋼工藝的狀態空間和動作空間,設置多目標獎勵函數和對應的約束違反懲罰項,得到強化學習模型;基于Q-learning算法對強化學習模型進行訓練,通過狀態-動作-獎勵的交互循環更新Q值,動態調整選擇策略;對強化學習模型輸出的選擇策略進行仿真驗證。從而解決了現有鋼鐵行業低碳路徑研究方法中存在的動態適應性差、優化目標單一以及技術過渡不平穩的問題。