本文亮點(diǎn):1.對(duì)實(shí)際場(chǎng)景下的大規(guī)模的鋰電池組數(shù)據(jù)進(jìn)行SOC多步預(yù)測(cè),研究了不同算法的應(yīng)用效果 2.根據(jù)算法預(yù)測(cè)結(jié)果,進(jìn)一步分析了數(shù)據(jù)分布多樣性對(duì)模型的泛化能力的影響規(guī)律
摘 要 數(shù)據(jù)驅(qū)動(dòng)模型預(yù)測(cè)荷電狀態(tài)(SOC)依賴高質(zhì)量的實(shí)驗(yàn)數(shù)據(jù),在應(yīng)用于實(shí)際使用場(chǎng)景下的分布多樣的鋰電池組數(shù)據(jù)時(shí)會(huì)出現(xiàn)預(yù)測(cè)的準(zhǔn)確性不穩(wěn)定即泛化能力差的情況,限制了模型的實(shí)際應(yīng)用。研究實(shí)際場(chǎng)景下的大規(guī)模數(shù)據(jù)的分布多樣性對(duì)SOC預(yù)測(cè)模型的泛化性影響具有重要意義。因此,對(duì)32個(gè)鋰電池組的實(shí)際運(yùn)行數(shù)據(jù)集進(jìn)行研究,采用經(jīng)典算法與多輸入多輸出(MIMO)策略結(jié)合來(lái)預(yù)測(cè)多步SOC,對(duì)每份數(shù)據(jù)分別建立模型進(jìn)行SOC預(yù)測(cè),研究了不同算法的應(yīng)用效果并分析了數(shù)據(jù)分布多樣性對(duì)模型的泛化能力的影響規(guī)律。結(jié)果表明:對(duì)大規(guī)模的鋰電池組數(shù)據(jù),LR-MIMO模型訓(xùn)練精度普遍優(yōu)于RF-MIMO、KNN-MIMO、LSTM-MIMO模型,其預(yù)測(cè)未來(lái)0.5 h的SOC的R2一般在0.98及以上,MAPE基本低于0.05。與其他模型相比,LR-MIMO模型有優(yōu)秀的預(yù)測(cè)性能,預(yù)測(cè)其他數(shù)據(jù)集的R2基本在0.95以上。而KNN-MIMO模型的預(yù)測(cè)精度與RF-MIMO模型相當(dāng),R2大致在0.7以上,LSTM-MIMO模型的預(yù)測(cè)性能因數(shù)據(jù)集不同存在較明顯的差異;當(dāng)數(shù)據(jù)滿足SOC與電壓的相關(guān)系數(shù)≥0.9、SOC和電壓分布范圍廣、核密度曲線呈左偏趨勢(shì)、分布較均勻時(shí),可使模型訓(xùn)練精度提高。
關(guān)鍵詞 鋰離子電池;荷電狀態(tài);數(shù)據(jù)驅(qū)動(dòng);分布多樣性;泛化性
鋰電池需要高效智能的電池管理系統(tǒng)確保其安全穩(wěn)定運(yùn)行,荷電狀態(tài)(state of charge, SOC)估計(jì)是其中一項(xiàng)關(guān)鍵技術(shù)。數(shù)據(jù)驅(qū)動(dòng)方法估計(jì)SOC具有靈活性和建模簡(jiǎn)單的特點(diǎn),在復(fù)雜的電池運(yùn)行情況下有潛在的優(yōu)勢(shì),受到學(xué)者的廣泛關(guān)注。數(shù)據(jù)驅(qū)動(dòng)方法是根據(jù)大量的測(cè)量數(shù)據(jù),將輸出變量和輸入變量之間的關(guān)系直接映射到數(shù)據(jù)驅(qū)動(dòng)模型中。
目前的研究利用鋰電池的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行SOC的估計(jì),包含線性回歸、樹模型及神經(jīng)網(wǎng)絡(luò)等方法。線性回歸(linear regression, LR)算法用于探索自變量與因變量之間的線性關(guān)系,結(jié)構(gòu)簡(jiǎn)單,計(jì)算量少,對(duì)實(shí)現(xiàn)在線SOC預(yù)測(cè)非常有利?;跇涞姆椒ㄊ峭ㄟ^(guò)對(duì)特征空間進(jìn)行劃分,逐步建立決策樹模型,來(lái)預(yù)測(cè)因變量。其中,隨機(jī)森林(random forest, RF)是通過(guò)隨機(jī)選擇特征和樣本,構(gòu)建多個(gè)決策樹,并將其集成,提高模型預(yù)測(cè)SOC的精度和魯棒性。RF方法在處理多特征、高維度的鋰電池?cái)?shù)據(jù)的任務(wù)時(shí),效果良好。K近鄰(K-nearest neighbors, KNN)是基于相似性的技術(shù),將測(cè)試點(diǎn)的數(shù)值估計(jì)為k個(gè)最近訓(xùn)練點(diǎn)的某屬性數(shù)值的加權(quán)平均值,能捕捉鋰電池特征與預(yù)測(cè)目標(biāo)之間的復(fù)雜關(guān)系,獲得準(zhǔn)確的預(yù)測(cè)結(jié)果。神經(jīng)網(wǎng)絡(luò)通過(guò)輸入層接收數(shù)據(jù),再通過(guò)隱藏層的線性和非線性變換進(jìn)行特征提取和表達(dá),最后由輸出層輸出結(jié)果。長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)是常用的預(yù)測(cè)SOC的神經(jīng)網(wǎng)絡(luò)方法,具有捕獲時(shí)間序列數(shù)據(jù)中的信息的優(yōu)勢(shì)、較強(qiáng)的建模和分析能力,被廣泛研究。為了拓展數(shù)據(jù)驅(qū)動(dòng)模型在不同類型鋰電池的SOC估計(jì)中的應(yīng)用,研究者們利用不同類型的鋰電池實(shí)驗(yàn)數(shù)據(jù),進(jìn)行了模型的遷移學(xué)習(xí)研究。
盡管使用數(shù)據(jù)驅(qū)動(dòng)方法進(jìn)行鋰電池SOC估計(jì)的研究發(fā)展迅速,但目前仍存在一些問(wèn)題:
(1)數(shù)據(jù)驅(qū)動(dòng)模型普遍利用高質(zhì)量且大量的鋰電池實(shí)驗(yàn)數(shù)據(jù),而實(shí)際使用的鋰電池?cái)?shù)據(jù)由于生產(chǎn)工藝、環(huán)境條件、使用習(xí)慣等因素,在概率密度等方面分布多樣,數(shù)據(jù)質(zhì)量不同。不同質(zhì)量的實(shí)際數(shù)據(jù)進(jìn)一步影響模型內(nèi)部的參數(shù)確定,可能出現(xiàn)過(guò)擬合,難以得到可靠的預(yù)測(cè)結(jié)果。
(2)對(duì)數(shù)據(jù)的依賴可能會(huì)導(dǎo)致數(shù)據(jù)驅(qū)動(dòng)模型的泛化能力差,即模型在未見過(guò)的新數(shù)據(jù)上的表現(xiàn)能力差。面對(duì)分布差異大的鋰電池?cái)?shù)據(jù)時(shí),模型在原數(shù)據(jù)上學(xué)到的知識(shí)的適用性低,使得預(yù)測(cè)的準(zhǔn)確性不穩(wěn)定,預(yù)測(cè)精度下降。
這些問(wèn)題降低了數(shù)據(jù)驅(qū)動(dòng)方法的實(shí)用性和可靠性,因此研究實(shí)際場(chǎng)景下的大規(guī)模鋰電池?cái)?shù)據(jù)的分布多樣性對(duì)SOC預(yù)測(cè)模型的泛化性影響具有重要意義。本工作對(duì)32個(gè)鋰電池組實(shí)際運(yùn)行數(shù)據(jù)集進(jìn)行研究,分別建立模型進(jìn)行SOC預(yù)測(cè),并考慮到先進(jìn)電池管理技術(shù)的需求,將經(jīng)典算法與多輸入多輸出(multi-input multi output, MIMO)策略多步預(yù)測(cè)結(jié)合來(lái)預(yù)測(cè)未來(lái)一段時(shí)間的SOC,對(duì)比研究不同算法的應(yīng)用效果。在此基礎(chǔ)上,分析了數(shù)據(jù)分布多樣性對(duì)多步SOC預(yù)測(cè)模型的泛化能力的影響,有助于數(shù)據(jù)驅(qū)動(dòng)方法的實(shí)際應(yīng)用發(fā)展。
1 研究方法
研究的主要框架如圖1所示,主要包含4個(gè)部分。首先,采集了不同情況下的32份鋰電池組實(shí)際數(shù)據(jù)集,選取電池組總電壓、電流、SOC、溫度作為特征,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。其次,建立SOC的多步預(yù)測(cè)模型,包含線性回歸、K近鄰、隨機(jī)森林、長(zhǎng)短期記憶網(wǎng)絡(luò)4種方法。然后,將數(shù)據(jù)輸入到參數(shù)尋優(yōu)后的模型中,對(duì)每份數(shù)據(jù)分別進(jìn)行訓(xùn)練并預(yù)測(cè)除本身外的其他數(shù)據(jù)集,統(tǒng)計(jì)每種方法的訓(xùn)練和預(yù)測(cè)結(jié)果。最后,分析數(shù)據(jù)分布多樣性對(duì)模型泛化性的影響規(guī)律,分析結(jié)果可評(píng)估鋰電池組數(shù)據(jù)集是否有利于得到高準(zhǔn)確性的荷電狀態(tài)預(yù)測(cè)模型。
圖1 研究框架
2 模型建立及預(yù)測(cè)流程
2.1 模型算法
本工作將經(jīng)典算法拓展至SOC的多步預(yù)測(cè),采用4種典型的算法:線性回歸、K近鄰回歸、隨機(jī)森林、長(zhǎng)短期記憶。這4種算法的基本原理,如圖2所示。
圖2 經(jīng)典算法原理圖:(a) LR;(b) KNN;(c) RF;(d) LSTM
2.1.1 線性回歸算法
線性回歸算法LR是研究一個(gè)因變量與多個(gè)自變量的線性方法,它的一般形式如式(1)所示:
式中,x=[x1,x2,x3…xk]是輸入特征,β=[β1, β2…βk]是輸入特征的回歸系數(shù),可以采用最小二乘法獲得,滿足實(shí)際值與預(yù)測(cè)值的殘差平方和最小的要求。
2.1.2 K近鄰回歸算法
K近鄰回歸算法是一種非參數(shù)回歸方法,首先在歷史數(shù)據(jù)中提取數(shù)據(jù)特征即狀態(tài)向量,然后選取k個(gè)與當(dāng)前數(shù)據(jù)特征最相似的歷史數(shù)據(jù)用于預(yù)測(cè),預(yù)測(cè)結(jié)果為k個(gè)最鄰近樣本的某個(gè)屬性平均值,見式(2)。
式中,ωi為第i個(gè)樣本的權(quán)重,一般可將鄰近樣本的距離作為屬性的權(quán)值。
衡量相似度的函數(shù)為距離函數(shù),采用歐氏距離,即:
2.1.3 隨機(jī)森林算法
隨機(jī)森林是一種基于決策樹的集成學(xué)習(xí)算法,加入了bagging套袋和隨機(jī)子空間的思想來(lái)解決決策樹模型精度不高、易過(guò)擬合的問(wèn)題。隨機(jī)森林采用自助法重抽樣技術(shù)從數(shù)據(jù)中有放回地隨機(jī)抽樣來(lái)構(gòu)成自助樣本集,根據(jù)CART(classification and regression trees, 分類與回歸樹)算法構(gòu)建決策樹,每個(gè)樹具有根節(jié)點(diǎn)、中間節(jié)點(diǎn)和葉子節(jié)點(diǎn),如圖2(c)所示。CART算法的屬性選擇量度是基尼指數(shù),假設(shè)數(shù)據(jù)集D包含m個(gè)類別,其基尼指數(shù)GD的計(jì)算見式(4)。
式中,pj為j類元素出現(xiàn)的頻率。
對(duì)于每個(gè)屬性,考慮每種可能的二元?jiǎng)澐?,選擇該屬性產(chǎn)生的最小基尼指數(shù)的子集作為其分裂子集,在此規(guī)則下,由上至下不斷分裂,直到生成決策樹,最終取每個(gè)樹結(jié)果的平均值作為預(yù)測(cè)值,即
式中,hk表示決策樹,K為樹的數(shù)量。
2.1.4 LSTM算法
LSTM網(wǎng)絡(luò)是一類特殊的RNN,是為了解決RNN在建模長(zhǎng)期依賴關(guān)系時(shí)存在梯度消失或爆炸問(wèn)題而提出的。常用的單個(gè)LSTM單元如圖2(d)所示,LSTM主要包括3個(gè)門,即輸入門、輸出門和遺忘門,它們用來(lái)決定一個(gè)單元是應(yīng)該記住還是忘記新獲得的信息。另外,利用tanh函數(shù)和sigmoid函數(shù)對(duì)信息進(jìn)行過(guò)濾。單元的每個(gè)部分如式(6)所示。
式中,σ表示sigmoid激活函數(shù);xk為網(wǎng)絡(luò)在時(shí)間步長(zhǎng)k時(shí)的輸入;hk-1為前一個(gè)時(shí)間步長(zhǎng)k-1時(shí)的輸出;W代表權(quán)重;i、f、o、c分別表示輸入門、遺忘門、輸出門和存儲(chǔ)單元;b是偏置。sigmoid函數(shù)的輸出范圍在0~1之間,它決定了將傳遞多少信息,例如,如果一個(gè)門的值接近0,則輸入門不會(huì)記住新的輸入信息,過(guò)去的記憶應(yīng)該被遺忘門忘記,所以對(duì)于輸出門來(lái)說(shuō),記憶不會(huì)影響后續(xù)的輸出。為了防止過(guò)擬合,在模型的LSTM層之間添加了dropout層。
2.2 模型策略
k時(shí)刻的SOC是電池參數(shù)的函數(shù),可以用式(7)來(lái)表達(dá),Φk代表k時(shí)刻的電池參數(shù),而k=1,2…tE,tE代表最后的時(shí)刻。為了進(jìn)行時(shí)間序列的SOC估計(jì),顯然,需要確定輸入時(shí)刻的范圍tw,即輸入步長(zhǎng),SOC可表示為式(8),而此時(shí)k≥tw>0。若要進(jìn)行多時(shí)刻的估計(jì),輸出步長(zhǎng)不止一個(gè)時(shí)刻,SOC可用式(9)表示。
多輸入多輸出策略即通過(guò)建立一個(gè)多輸出模型來(lái)一次預(yù)測(cè)多步SOC值,不僅利用了輸入的多時(shí)刻的電池參數(shù)的相關(guān)性,并且考慮了輸出的多時(shí)刻的SOC的相關(guān)性,有效減少了遞歸策略中的誤差累積問(wèn)題,總的原理圖如圖3所示。
圖3 多步預(yù)測(cè)策略原理圖
2.3 模型預(yù)測(cè)流程
本工作鋰離子電池SOC多步預(yù)測(cè)的流程框架如圖4所示,主要步驟包括:數(shù)據(jù)采集和處理、模型訓(xùn)練與優(yōu)化、預(yù)測(cè)結(jié)果評(píng)價(jià)。
圖4 基于大規(guī)模數(shù)據(jù)的SOC多步預(yù)測(cè)研究框架
2.3.1 數(shù)據(jù)采集及預(yù)處理
本工作數(shù)據(jù)來(lái)源于某共享電動(dòng)自行車實(shí)際運(yùn)行的歷史數(shù)據(jù),該電動(dòng)自行車電池組由14個(gè)電池單體串聯(lián)組成,其基本參數(shù)見表1。電動(dòng)自行車的電池管理系統(tǒng)的傳感器將電池的相關(guān)數(shù)據(jù)通過(guò)無(wú)線傳輸組件上傳到云服務(wù)器進(jìn)行存儲(chǔ),利用計(jì)算機(jī)可下載和提取數(shù)據(jù)。共采集32個(gè)實(shí)際運(yùn)行數(shù)據(jù)集,內(nèi)存大小總共1.66 GB,最大的數(shù)據(jù)集包含近80萬(wàn)條數(shù)據(jù)。每個(gè)數(shù)據(jù)集中包含的傳感信息有電池溫度、電池組總電壓、電池單體電壓、電池容量、SOC等,電池的運(yùn)行狀態(tài)通過(guò)電流的正負(fù)來(lái)反映充放電,圖5為部分?jǐn)?shù)據(jù)集的SOC曲線,可以看出不同數(shù)據(jù)集的SOC分布情況不同。每個(gè)數(shù)據(jù)集采樣間隔都為10 s,記為一個(gè)時(shí)間步長(zhǎng)??紤]到電池的SOC預(yù)測(cè)主要與溫度、電池組總電壓、電流、SOC 4個(gè)變量相關(guān),所以本工作選取這些變量作為特征進(jìn)行探究。
表1 鋰離子電池主要參數(shù)
圖5 SOC曲線:(a)數(shù)據(jù)集1;(b)數(shù)據(jù)集2;(c)數(shù)據(jù)集3
數(shù)據(jù)采集過(guò)程中由于傳輸不穩(wěn)定、傳感器故障等,實(shí)際數(shù)據(jù)通常存在缺失值、異常值等,這不僅會(huì)影響模型的訓(xùn)練,也會(huì)極大地影響SOC的預(yù)測(cè)結(jié)果,所以需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗和數(shù)據(jù)標(biāo)準(zhǔn)化。
(1)數(shù)據(jù)清洗。經(jīng)統(tǒng)計(jì),每個(gè)數(shù)據(jù)集的缺失值占總的數(shù)據(jù)量的比例很小,所以采用簡(jiǎn)單的線性插值法來(lái)填補(bǔ)數(shù)據(jù)集中的缺失值,使用四分位數(shù)范圍規(guī)則過(guò)濾異常值。由于共享電動(dòng)車使用是隨機(jī)的,數(shù)據(jù)采集過(guò)程中電動(dòng)車的空閑時(shí)間較多,可能存在較多電流為0的數(shù)據(jù),這些數(shù)據(jù)視為正常數(shù)據(jù),不做處理。
(2)數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)標(biāo)準(zhǔn)化是對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,本工作使用min-max方法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化:
式中,x為初始數(shù)據(jù);xmax、xmin分別表示數(shù)據(jù)中的最大值和最小值;xscale為數(shù)據(jù)標(biāo)準(zhǔn)化結(jié)果。
2.3.2 模型訓(xùn)練及優(yōu)化
將預(yù)處理后的電池?cái)?shù)據(jù)集按8∶2的比例劃分為訓(xùn)練集和測(cè)試集,利用訓(xùn)練集訓(xùn)練多步預(yù)測(cè)模型。為減少誤差累積,利用少量的電池信息預(yù)測(cè)較長(zhǎng)時(shí)間段的SOC,輸入步長(zhǎng)設(shè)定為10,輸出步長(zhǎng)設(shè)定為180,在此基礎(chǔ)上,利用多個(gè)實(shí)際數(shù)據(jù)集,采用網(wǎng)格搜索方法優(yōu)化模型超參數(shù)。
2.3.3 模型評(píng)估
利用測(cè)試集對(duì)多步預(yù)測(cè)模型的性能進(jìn)行評(píng)估,采用的評(píng)價(jià)指標(biāo)為平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)和擬合優(yōu)度R2。平均絕對(duì)百分比誤差可以表示為:
式中,yi?表示第i個(gè)預(yù)測(cè)值,yi表示第i個(gè)真實(shí)值,n表示樣本個(gè)數(shù)。
擬合優(yōu)度表征模型的預(yù)測(cè)值與真實(shí)值之間的擬合效果,即:
一般而言,MAPE越小,模型預(yù)測(cè)誤差越小,精度越高;R2越接近1,模型的擬合效果越好,精度越高。當(dāng)預(yù)測(cè)誤差遠(yuǎn)大于均值基準(zhǔn)誤差,R2將出現(xiàn)負(fù)值,為了便于展現(xiàn)訓(xùn)練與預(yù)測(cè)效果,后續(xù)遇到這樣的特殊情況時(shí),將R2的負(fù)值設(shè)為0。
3 數(shù)據(jù)分布多樣性分析
受不同溫度、不同行駛速度、不同使用習(xí)慣等因素的影響,鋰電池組數(shù)據(jù)集的分布存在多樣性,本工作主要從兩個(gè)角度探究其對(duì)模型泛化性的影響。
3.1 特征相關(guān)性
數(shù)據(jù)集特征之間的相關(guān)性強(qiáng)弱可能會(huì)對(duì)預(yù)測(cè)模型產(chǎn)生影響,若特征之間相關(guān)性強(qiáng),有助于模型捕捉其內(nèi)在關(guān)系,若相關(guān)性弱,模型可能對(duì)特征之間的內(nèi)在聯(lián)系作出誤判。皮爾遜相關(guān)系數(shù)法是常用的準(zhǔn)確衡量2個(gè)變量之間的關(guān)系密切程度的方法,本工作采用其計(jì)算特征相關(guān)性。
當(dāng)2組變量分別為X=(x1,x2…xn)、Y=(y1,y2…yn)時(shí),變量X和Y的皮爾遜相關(guān)系數(shù)ρ(X,Y)根據(jù)式(13)計(jì)算:
式中,X和Y代表變量;μX為變量X的平均值;μY為變量Y的平均值;ρ(X,Y)的范圍為[-1,1],ρ(X,Y)絕對(duì)值越大,特征相關(guān)性越高。
3.2 核密度分布
數(shù)據(jù)的概率密度分布會(huì)影響模型的訓(xùn)練,采用非參數(shù)核密度估計(jì)方法進(jìn)行估計(jì)。核密度估計(jì)的計(jì)算見式(14),x1,x2…xn為數(shù)據(jù)中獨(dú)立同分布的n個(gè)樣本點(diǎn)。
式中,h為帶寬;K(u)為核函數(shù),通常選取以零為中心的對(duì)稱單峰概率密度函數(shù),文獻(xiàn)[32]中指出,當(dāng)帶寬給定時(shí),核函數(shù)的選擇對(duì)最終的估計(jì)精度影響小,本工作選擇高斯核作為核函數(shù)。帶寬h對(duì)估計(jì)結(jié)果有重要影響,采用拇指法則確定最優(yōu)帶寬,即假定圖片屬于某個(gè)參數(shù)族,當(dāng)平均積分均方誤差取最小值時(shí),以正態(tài)參考準(zhǔn)則求得最優(yōu)帶寬,求解如式(15)所示:
式中,n為數(shù)據(jù)的樣本量;σ為數(shù)據(jù)的標(biāo)準(zhǔn)差。
4 實(shí)驗(yàn)結(jié)果
4.1 大規(guī)模數(shù)據(jù)的多步SOC預(yù)測(cè)結(jié)果
4.1.1 模型訓(xùn)練性能
LR、RF、KNN、LSTM模型結(jié)合MIMO策略的32個(gè)數(shù)據(jù)集的訓(xùn)練結(jié)果,如圖6所示。4個(gè)模型的多個(gè)數(shù)據(jù)集的R2都在0.95以上,說(shuō)明每個(gè)方法都可以準(zhǔn)確預(yù)測(cè)多步SOC,其中,LR-MIMO模型的R2總體最高,基本維持在0.98以上。而4個(gè)模型也都出現(xiàn)了部分?jǐn)?shù)據(jù)集精度很低的情況,這可能是受數(shù)據(jù)分布的影響。在MAPE指標(biāo)方面,LR-MIMO模型明顯低于其他3個(gè)模型,誤差基本在0.05以下。綜合來(lái)看,對(duì)多個(gè)數(shù)據(jù)集訓(xùn)練時(shí),LR-MIMO模型精度高于RF-MIMO、KNN-MIMO、LSTM-MIMO模型,低精度的概率較低。
圖6 不同方法的訓(xùn)練結(jié)果: (a) LR-MIMO;(b)KNN-MIMO;(c) RF-MIMO;(d) LSTM-MIMO
4.1.2 模型預(yù)測(cè)性能
當(dāng)步長(zhǎng)與訓(xùn)練情況保持一致時(shí),每個(gè)數(shù)據(jù)集的模型預(yù)測(cè)除本身外的數(shù)據(jù)集的R2結(jié)果如圖7所示。由圖得,LR-MIMO模型在預(yù)測(cè)所有數(shù)據(jù)集時(shí),除了第1、17、30個(gè)的數(shù)據(jù)集的預(yù)測(cè)效果相對(duì)較低,其他數(shù)據(jù)集的R2預(yù)測(cè)結(jié)果下限都在0.95以上,預(yù)測(cè)精度高。
圖7 不同方法的預(yù)測(cè)結(jié)果:(a) LR-MIMO;(b) KNN-MIMO;(c) RF-MIMO;(d) LSTM-MIMO
RF-MIMO、KNN-MIMO和LSTM-MIMO模型的預(yù)測(cè)數(shù)據(jù)集的R2結(jié)果的中位數(shù)基本維持在0.9及以上,整體來(lái)看,KNN-MIMO模型的預(yù)測(cè)精度與RF-MIMO模型相近,R2基本在0.7以上,LSTM-MIMO模型的預(yù)測(cè)精度下限通常高于RF-MIMO模型,上限通常低于RF-MIMO模型。
LSTM-MIMO模型在不同數(shù)據(jù)集上的預(yù)測(cè)結(jié)果與其他3個(gè)模型存在顯著差異,這種現(xiàn)象的原因可能是由于LSTM-MIMO模型對(duì)于數(shù)據(jù)集的特征分布敏感性較高,導(dǎo)致其在不同數(shù)據(jù)集上表現(xiàn)出不同的預(yù)測(cè)能力。經(jīng)過(guò)比較,可以發(fā)現(xiàn)LR-MIMO模型在預(yù)測(cè)大規(guī)模數(shù)據(jù)的多步SOC時(shí)有優(yōu)秀的預(yù)測(cè)性能。
4.1.3 模型訓(xùn)練與預(yù)測(cè)關(guān)系
為了全面地觀察每個(gè)方法的每個(gè)數(shù)據(jù)集的SOC 多步預(yù)測(cè)效果,便于分析訓(xùn)練和預(yù)測(cè)的規(guī)律,將每個(gè)方法的每個(gè)數(shù)據(jù)集的訓(xùn)練與預(yù)測(cè)的所有R2結(jié)果繪制成熱力圖,如圖8所示。由圖得,LR-MIMO模型的結(jié)果基本都在0.9以上,精度低的結(jié)果占比小,而KNN-MIMO、RF-MIMO、LSTM-MIMO模型在0.9以上的結(jié)果占比較小。
圖8 不同方法的訓(xùn)練與預(yù)測(cè)結(jié)果:(a) LR-MIMO;(b) KNN-MIMO;(c) RF-MIMO;(d) LSTM-MIMO
LR-MIMO模型在32個(gè)數(shù)據(jù)集的訓(xùn)練和預(yù)測(cè)方面表現(xiàn)的優(yōu)秀性能可能是由于電池的相關(guān)特征之間的線性關(guān)系更為顯著,而非線性關(guān)系較不明顯。
從總體來(lái)看,觀察到每個(gè)方法在訓(xùn)練和預(yù)測(cè)SOC方面呈現(xiàn)出4種類型的情況:訓(xùn)練精度高且預(yù)測(cè)精度高、訓(xùn)練精度高但預(yù)測(cè)精度低、訓(xùn)練精度低且預(yù)測(cè)精度低、訓(xùn)練精度低但預(yù)測(cè)精度高。這種現(xiàn)象可以歸因于不同方法對(duì)訓(xùn)練和測(cè)試數(shù)據(jù)的適應(yīng)程度以及模型的泛化能力不同。高訓(xùn)練和預(yù)測(cè)精度表明模型在訓(xùn)練數(shù)據(jù)上有效學(xué)習(xí)并成功預(yù)測(cè)未知數(shù)據(jù),而高訓(xùn)練但低預(yù)測(cè)精度可能是由于訓(xùn)練的模型泛化到新數(shù)據(jù)的能力低。低訓(xùn)練和預(yù)測(cè)精度意味著模型無(wú)法捕捉到數(shù)據(jù)中的關(guān)鍵特征或模式。低訓(xùn)練但高預(yù)測(cè)精度可能是模型具備一定泛化能力,能夠準(zhǔn)確預(yù)測(cè)未見過(guò)的數(shù)據(jù)。
4.2 數(shù)據(jù)分布多樣性對(duì)模型的泛化性影響
根據(jù)圖8的結(jié)果,每種方法都出現(xiàn)了高的訓(xùn)練精度,同時(shí)也存在某些數(shù)據(jù)集的訓(xùn)練精度低。為了進(jìn)一步研究,根據(jù)R2>0.95和R2<0.55的指標(biāo)尋找出4種方法基本都訓(xùn)練精度高、訓(xùn)練精度低的數(shù)據(jù)集來(lái)進(jìn)行研究。
4.2.1 數(shù)據(jù)集特征的相關(guān)性
對(duì)訓(xùn)練精度高和訓(xùn)練精度低的共同數(shù)據(jù)集特征之間的皮爾遜相關(guān)系數(shù)進(jìn)行計(jì)算,統(tǒng)計(jì)結(jié)果表明,數(shù)據(jù)集中SOC與電流、溫度的相關(guān)性對(duì)模型訓(xùn)練沒有呈現(xiàn)出明顯規(guī)律。然而,SOC與電壓的相關(guān)性對(duì)訓(xùn)練產(chǎn)生了影響,如圖9所示,在共同數(shù)據(jù)集中,相關(guān)性按照從高到低的順序排列。通常情況下,訓(xùn)練精度高的數(shù)據(jù)集中SOC與電壓的相關(guān)系數(shù)ρ(SOC,電壓)≥0.9,而訓(xùn)練精度低的數(shù)據(jù)集中SOC與電壓的相關(guān)系數(shù)ρ(SOC,電壓)<0.9。
圖9 數(shù)據(jù)集的相關(guān)系數(shù)
4.2.2 數(shù)據(jù)集的核密度分布
鑒于SOC與電壓相關(guān)性大小對(duì)模型訓(xùn)練的影響,采用核密度估計(jì)方法探究訓(xùn)練精度高和訓(xùn)練精度低的共同數(shù)據(jù)集中SOC和電壓的概率密度分布。圖10是共同數(shù)據(jù)集SOC和電壓的核密度分布情況。訓(xùn)練精度高的數(shù)據(jù)集的SOC和電壓分布范圍廣,模型可學(xué)習(xí)到的內(nèi)容多,在SOC和電壓分別為95~100 V、57~58 V時(shí)核密度大,其他區(qū)間核密度小,呈現(xiàn)出左偏趨勢(shì),總體上均勻分布,這是由于共享電動(dòng)單車為了保證使用,常處于滿電狀態(tài),并且良好使用時(shí)的采集數(shù)據(jù)會(huì)在各個(gè)區(qū)間都有所分布。另外,SOC數(shù)據(jù)總體均勻分布有助于模型學(xué)習(xí)到更普適的規(guī)律,提高了模型對(duì)新樣本的泛化能力,從而使得模型在新數(shù)據(jù)上表現(xiàn)更好。
圖10 共同數(shù)據(jù)集的核密度分布:(a)高精度數(shù)據(jù)集的SOC分布;(b)低精度數(shù)據(jù)集的SOC分布;(c)高精度數(shù)據(jù)集的電壓分布;(d)低精度數(shù)據(jù)集的電壓分布
而訓(xùn)練精度低的數(shù)據(jù)集的SOC和電壓核密度分布如圖10(b)、(d)所示,范圍較窄,某些區(qū)間的核密度極大,SOC和電壓最大值分別在0.14及1.4以上,總體不均勻,數(shù)據(jù)集分布較極端,這可能是因?yàn)楣蚕黼妱?dòng)單車使用后未及時(shí)進(jìn)行充電維護(hù)或用戶未停回站點(diǎn),導(dǎo)致電池組的SOC和電壓處于部分區(qū)間時(shí)的數(shù)據(jù)多。這使得模型訓(xùn)練時(shí),可能會(huì)更容易受到某些特定部分?jǐn)?shù)據(jù)的影響,導(dǎo)致過(guò)擬合的風(fēng)險(xiǎn)增加。
5 結(jié) 論
研究大規(guī)模實(shí)際使用的鋰電池組數(shù)據(jù)的分布多樣性對(duì)數(shù)據(jù)驅(qū)動(dòng)模型泛化性的影響,可促進(jìn)數(shù)據(jù)驅(qū)動(dòng)方法估計(jì)SOC的實(shí)用性和可靠性發(fā)展。本工作采用經(jīng)典算法與MIMO策略結(jié)合來(lái)預(yù)測(cè)多步SOC,針對(duì)32個(gè)實(shí)際鋰電池組的運(yùn)行數(shù)據(jù)建立了多步SOC預(yù)測(cè)模型,預(yù)測(cè)時(shí)長(zhǎng)設(shè)定為0.5 h(輸出步長(zhǎng)為180),比較了不同算法的應(yīng)用效果并探究了數(shù)據(jù)分布多樣性對(duì)多步SOC預(yù)測(cè)模型的影響。具體結(jié)論如下所述。
(1)LR-MIMO模型訓(xùn)練精度表現(xiàn)出較高的穩(wěn)定性,R2基本在0.98以上,MAPE基本在0.05以下,總體優(yōu)于KNN-MIMO、RF-MIMO、LSTM-MIMO模型。
(2)在預(yù)測(cè)除本身外的數(shù)據(jù)集時(shí),LR-MIMO模型展現(xiàn)出優(yōu)秀的預(yù)測(cè)性能,R2基本在0.95以上,而KNN-MIMO模型的預(yù)測(cè)精度與RF-MIMO模型相當(dāng),R2大致在0.7以上,LSTM-MIMO模型的預(yù)測(cè)性能存在較為明顯的差異。
(3)為了獲得高訓(xùn)練精度的數(shù)據(jù)驅(qū)動(dòng)模型,數(shù)據(jù)集應(yīng)滿足以下要求:SOC與電壓的相關(guān)系數(shù)≥0.9,SOC和電壓分布范圍廣,核密度曲線呈左偏趨勢(shì),總體分布均勻。