中國儲能網(wǎng)訊:
該文為國家重點研發(fā)計劃資助項目成果,2018年3月發(fā)表于MPCE 2018年第6卷第2期。
引文信息:
Zifa LIU, Ya LUO, Ranqun ZHUO, et al. Distributed reinforcement learning to coordinate current sharing and voltage restoration for islanded DC microgrid[J]. Journal of Modern Power Systems and Clean Energy, 2018, 6(2): 364-374
Distributed reinforcement learning to coordinate current sharing and voltage restoration for islanded DC microgrid
直流微電網(wǎng)協(xié)調(diào)均流和電壓恢復(fù)的分布式強化學習算法
DOI:10.1007/s40565-017-0323-y
作者:劉自發(fā),羅婭,卓然群,靳現(xiàn)林
由于電力系統(tǒng)直流電源和直流負載的比例增加,直流微電網(wǎng)受到的關(guān)注日益增多。直流微電網(wǎng)無需變流器進行交直流轉(zhuǎn)換,減少了變換時的電能損耗,可避免在交流微電網(wǎng)中常發(fā)生的問題, 例如同步和諧波污染等;且直流電網(wǎng)中不需要無功補償,電能質(zhì)量和可靠性也得到了提高。因此,直流微電網(wǎng)控制與管理成為目前國內(nèi)外學者研究的熱點。為獲得快速準確的控制效果,直流微電網(wǎng)普遍采用分布式分層下垂控制。然而直流微電網(wǎng)的均流和電壓恢復(fù)兩個重要控制目標之間存在矛盾。強化學習算法是一種直接與環(huán)境交互的學習算法, 計算條件要求低、計算過程簡單、能避免陷入局部收斂,是協(xié)調(diào)直流微電網(wǎng)均流和電壓恢復(fù)之間矛盾的有效方法。
1、直流微電網(wǎng)的分層協(xié)同控制方案
典型直流微電網(wǎng)控制策略分為兩層:1)一次控制,采用下垂控制模式,控制目標為快速響應(yīng)并維持系統(tǒng)的穩(wěn)定性;2)二次控制,控制目標為電壓恢復(fù)并以合理比例進行負荷分配。與交流微電網(wǎng)不同,直流微電網(wǎng)中下垂控制要預(yù)定義電壓和電流的關(guān)系,為解決分布式控制方式可能導(dǎo)致穩(wěn)態(tài)偏差和分布式電源(DG)間通信缺失的問題,二次控制中參考電壓控制變化量分成兩部分:1)電流調(diào)整分量,旨在實現(xiàn)比例功率調(diào)度;2)電壓調(diào)整分量旨在校正電壓偏差?;跔恐瓶刂频姆植际揭恢路呻x散方程表示,描述了迭代過程中每個代理(agent)狀態(tài)變量的變化,其變化規(guī)律與相鄰代理間的聯(lián)通系數(shù)、牽制增益和牽制一致預(yù)設(shè)值有關(guān)。其中,由一種自適應(yīng)更新法修正聯(lián)通系數(shù),在滿足即插即用條件下計算定義智能體總數(shù);牽制一致預(yù)設(shè)值由分布式一致法計算得出。基于牽制控制的直流微電網(wǎng)系統(tǒng)的一致性過程可由所有代理狀態(tài)方程構(gòu)成的矩陣表示,并利用李雅普諾夫函數(shù)證明了所用分布式一致法的穩(wěn)定性。
2、基于分布式強化學習法的直流微電網(wǎng)控制策略
本文提出的分布式強化學習(DRL)方案可以在發(fā)生擾動時瞬間響應(yīng), 實現(xiàn)分布式?jīng)Q策和協(xié)同恢復(fù)。DRL 是一種簡單的迭代算法, 通過探索未知環(huán)境得到的獎勵來獲得最佳動作, 可用于提高控制特性。在 DRL 過程中, 該解決方案根據(jù)相應(yīng)的獎勵信號更新其性能。因此, 每個智能體都可以優(yōu)化其相連電源、儲能和負荷的控制方案, 而其解集中的某些元素可以傳遞給其他智能體以達到共享解決方案。DRL基本控制結(jié)構(gòu)如圖1所示。
圖1 DRL基本控制結(jié)構(gòu)
針對DRL算法難以尋求全局獎勵函數(shù)的問題,本文利用分布式一致法分別計算均流技術(shù)比例系數(shù)以及和均流控制協(xié)同的電壓恢復(fù),獲得局部獎勵函數(shù),局部獎勵函數(shù)之和為全局獎勵函數(shù)。具體流程為:1)根據(jù)直流微電網(wǎng)的等比例均流和電壓恢復(fù)的要求,獲得每個代理的局部獎勵函數(shù)和相應(yīng)的電流比例系數(shù)以及電壓控制調(diào)整量;2)計算整個直流微電網(wǎng)的全局獎勵函數(shù)最大值,即DRL的優(yōu)化目標;3)分布式一致法來求解優(yōu)化問題;4)獲得DRL最優(yōu)解, 通過全局獎勵的同步過程,實現(xiàn)了直流微電網(wǎng)的協(xié)同比例電流共享和電壓恢復(fù)??刂剖疽鈭D如圖2所示。
圖2 控制示意圖
3、DRL控制協(xié)調(diào)均流和電壓恢復(fù)效果分析
本文所用的創(chuàng)新DRL 策略結(jié)合牽制控制和基于強化學習的分布式一致法的優(yōu)點,對孤島微電網(wǎng)進行快速有效的控制。所提出的分布式一致法可用于發(fā)現(xiàn)全局信息, 實現(xiàn)牽制同步, 也可以滿足通信網(wǎng)絡(luò)中變化要求,例如通信線路開關(guān)或代理即插即用操作。利用基于局部和全局獎勵的DRL 可求解全局獎勵最大值, 并為獲得 直流微電網(wǎng)最佳控制方案。因此, 所提出的策略可以協(xié)調(diào)自治直流微電網(wǎng)的等比例均流和電壓恢復(fù)。為了分析所提出的 DRL 的有效性和適應(yīng)性, 在PSCAD/EMTDC 平臺上模擬了一個典型的含5個分布式電源機組的直流微電網(wǎng)控制系統(tǒng)。其配置如圖3所示。
圖3 直流微電網(wǎng)控制系統(tǒng)配置
在 MATLAB 中編寫了 DRL算法,包括局部獎勵的計算、分布式一致法信息共享以及基于牽制控制的分布式一致法。將PSCAD模型和 MATLAB 程序通過基于 Fortran 語言的接口程序連接在一起, 說明模擬直流微電網(wǎng)的通信拓撲結(jié)構(gòu)。對三種典型場景進行仿真,包括“過負荷”、“過負荷+增加一個新的通信鏈路”和“ 過負荷+一個DG代理的退出”,結(jié)果表明,無論在過負荷還是過負荷同時發(fā)生通信鏈路的改變,系統(tǒng)中每個代理的均流比例系數(shù)均能收斂到同一值,電壓水平也能跟隨電流控制量靈活調(diào)整到一個新的協(xié)同狀態(tài)。以場景3“過負荷+一個DG代理的退出”為例,結(jié)果如圖4所示。由圖可見,每個DG的均流比例系數(shù)和局部獎勵值均收斂到相同值,均流效果協(xié)同電壓恢復(fù)效果很好,證明了所用方法的有效性和優(yōu)越性,即 DRL 控制策略在每種情況下都能快速有效地工作。
圖4仿真結(jié)果
作者介紹
劉自發(fā):博士,華北電力大學電氣與電子工程學院教授,主要研究方向包括電網(wǎng)規(guī)劃、新能源并網(wǎng)技術(shù)、分布式發(fā)電技術(shù)和綜合評估。
羅婭:華北電力大學碩士研究生,主要研究方向包括電網(wǎng)規(guī)劃、風電場并網(wǎng)技術(shù)。
卓然群: 華北電力大學碩士研究生,主要研究方向包括電網(wǎng)規(guī)劃、可再生能源發(fā)電分析。
靳現(xiàn)林:碩士,高級工程師,主要研究方向包括風電場運行管理工作。