文獻(xiàn)標(biāo)識(shí)碼:A
DOI: 10.19358/j.issn.2096-5133.2018.08.012
中文引用格式:謝天保,崔田.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的品牌汽車銷量預(yù)測(cè)研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2018,37(8):50-53.
0 引言
近年來(lái),,我國(guó)汽車產(chǎn)銷呈現(xiàn)較快增長(zhǎng),產(chǎn)銷總量屢創(chuàng)歷史新高,,據(jù)中國(guó)汽車工業(yè)協(xié)會(huì)統(tǒng)計(jì)數(shù)據(jù),,2016年中國(guó)汽車產(chǎn)銷均超2 800萬(wàn)輛,連續(xù)八年蟬聯(lián)全球第一[1],。據(jù)車主之家網(wǎng)站提供的數(shù)據(jù)顯示,,2009~2016年我國(guó)銷量排名前十的品牌汽車占比高達(dá)55.84%,對(duì)于我國(guó)汽車消費(fèi)者而言,,品牌效應(yīng)十分顯著,。但是汽車生產(chǎn)廠商追求規(guī)模效應(yīng)時(shí)存在一定的盲目性,導(dǎo)致產(chǎn)能過(guò)剩的問(wèn)題日益凸顯,。在嚴(yán)峻的形勢(shì)下,,汽車生產(chǎn)企業(yè)應(yīng)認(rèn)真分析市場(chǎng)未來(lái)的需求量和可能存在的變化趨勢(shì),合理規(guī)劃生產(chǎn)計(jì)劃,,采用以銷定產(chǎn)的生產(chǎn)策略,。因此如何準(zhǔn)確地預(yù)測(cè)銷量,對(duì)于汽車生產(chǎn)企業(yè)研究市場(chǎng)行情及時(shí)調(diào)整生產(chǎn)經(jīng)營(yíng)策略有著極其重要的意義,。隨著人工智能的出現(xiàn)以及基于網(wǎng)絡(luò)數(shù)據(jù)的預(yù)測(cè)研究的廣泛開(kāi)展,,將網(wǎng)絡(luò)搜索數(shù)據(jù)應(yīng)用于汽車銷量的預(yù)測(cè)已成為研究的熱點(diǎn)。
傳統(tǒng)的汽車銷量預(yù)測(cè)研究采用的主要方法有灰色系統(tǒng)理論[2],、時(shí)間序列模型[3]以及人工神經(jīng)網(wǎng)絡(luò)[4]等,,但這些研究采用的數(shù)據(jù)時(shí)間粒度比較大,,研究對(duì)象大都集中于我國(guó)汽車年度總銷量的預(yù)測(cè),研究成果難以應(yīng)用推廣,。文獻(xiàn)[5]在建立網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)與汽車銷量理論框架的基礎(chǔ)上,,使用自動(dòng)推薦技術(shù)選取關(guān)鍵詞并進(jìn)行關(guān)鍵詞合成,然后針對(duì)不同價(jià)格區(qū)間的汽車銷量與相應(yīng)合成指數(shù)進(jìn)行建模預(yù)測(cè)且平均絕對(duì)誤差百分?jǐn)?shù)均不超過(guò)4%,,但是同一價(jià)格區(qū)間內(nèi)包含眾多不同品牌車型,,預(yù)測(cè)結(jié)果無(wú)法提供有價(jià)值的決策支持;文獻(xiàn)[6],、文獻(xiàn)[7]針對(duì)大眾途觀和寶馬汽車銷量進(jìn)行預(yù)測(cè)研究,,通過(guò)人工方式進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)關(guān)鍵詞的選取,發(fā)現(xiàn)加入百度關(guān)鍵詞作為解釋變量的模型相比傳統(tǒng)的ARMA模型,,預(yù)測(cè)精度有了一定程度的提高,;文獻(xiàn)[8]利用經(jīng)濟(jì)變量和谷歌在線搜索數(shù)據(jù)建立預(yù)測(cè)月度汽車銷售數(shù)據(jù)的多變量模型,結(jié)果表明包括谷歌搜索數(shù)據(jù)在內(nèi)的模型在統(tǒng)計(jì)上超過(guò)了大多數(shù)預(yù)測(cè)領(lǐng)域的傳統(tǒng)模型,;文獻(xiàn)[9]提出了一種搜索數(shù)據(jù)關(guān)鍵特征選取方法,,但是該選取方法最終僅僅保留了相關(guān)性最高的一個(gè)關(guān)鍵特征,難免會(huì)造成有效信息的損失,。
綜上所述,,目前的研究存在的問(wèn)題包括研究對(duì)象與時(shí)間粒度選擇不當(dāng),網(wǎng)絡(luò)數(shù)據(jù)特征分析及選取的科學(xué)體系暫未形成,,傳統(tǒng)模型預(yù)測(cè)性能具有局限性,。本文擬基于網(wǎng)絡(luò)搜索數(shù)據(jù),將品牌汽車銷量作為研究對(duì)象,,時(shí)間粒度選取為月度,,將傳統(tǒng)相關(guān)性分析與基于LASSO的特征選擇方法相結(jié)合,篩選出最優(yōu)的關(guān)鍵特征數(shù)據(jù),,然后應(yīng)用多種機(jī)器學(xué)習(xí)算法建立品牌汽車銷量的預(yù)測(cè)模型,,從而實(shí)現(xiàn)針對(duì)性更強(qiáng)、更準(zhǔn)確,、更具有應(yīng)用價(jià)值的品牌汽車銷量的預(yù)測(cè),。
1 網(wǎng)絡(luò)搜索數(shù)據(jù)關(guān)鍵特征選取
本文選取“大眾”、“本田”,、“奧迪”三個(gè)比較有代表性的品牌汽車作為研究對(duì)象,,收集了2011年1月~2017年12月期間各品牌汽車月度銷量數(shù)據(jù)。根據(jù)消費(fèi)者購(gòu)買(mǎi)決策過(guò)程,,消費(fèi)者在產(chǎn)生購(gòu)車需求后,,大多數(shù)購(gòu)車消費(fèi)者都會(huì)通過(guò)搜索引擎從網(wǎng)絡(luò)中快速獲取到所需要的信息,而關(guān)鍵詞搜索是在線信息搜索時(shí)最常用的策略,,所以將用戶搜索關(guān)鍵詞作為網(wǎng)絡(luò)搜索數(shù)據(jù)的關(guān)鍵特征,。本文選擇國(guó)內(nèi)應(yīng)用最為廣泛的百度搜索引擎的百度指數(shù)作為網(wǎng)絡(luò)搜索關(guān)鍵詞數(shù)據(jù)來(lái)源,。下面以“大眾”品牌汽車為例進(jìn)行詳細(xì)說(shuō)明。
1.1 關(guān)鍵詞的選取及拓展
本文采用文本挖掘的方法,,結(jié)合汽車品牌,、熱銷車型信息、車型配置指標(biāo)數(shù)據(jù)等各個(gè)方面的信息,,對(duì)網(wǎng)絡(luò)上與大眾品牌汽車相關(guān)的新聞,、論壇文章、點(diǎn)評(píng),、分享交流等信息進(jìn)行查找收集,,剔除掉一些無(wú)用信息后,再使用NLPIR漢語(yǔ)分詞系統(tǒng)對(duì)原始文本進(jìn)行關(guān)鍵詞提取,,得到關(guān)鍵詞列表及其權(quán)重,,選定其中權(quán)值較高的“大眾”、“大眾4S店”,、“大眾SUV”、“大眾POLO”,、“大眾商務(wù)車”等為初始關(guān)鍵詞,。然后圍繞選取的初始關(guān)鍵詞綜合使用了長(zhǎng)尾關(guān)鍵詞拓展法、站長(zhǎng)工具以及網(wǎng)頁(yè)相關(guān)搜索推薦等方法拓展出數(shù)量更多的關(guān)鍵詞,,剔除重復(fù)或者有歧義的關(guān)鍵詞后建立了一個(gè)包含276個(gè)關(guān)鍵詞的初始詞庫(kù),。
1.2 關(guān)鍵詞搜索指數(shù)相關(guān)性分析
首先利用網(wǎng)絡(luò)爬蟲(chóng)工具獲取初始詞庫(kù)中各關(guān)鍵詞相同時(shí)間段內(nèi)月度搜索數(shù)據(jù),針對(duì)關(guān)鍵詞搜索數(shù)據(jù)進(jìn)行預(yù)處理(剔除缺失數(shù)據(jù)超過(guò)6個(gè)月或者搜索指數(shù)過(guò)低的關(guān)鍵詞數(shù)據(jù)),,最后得到118個(gè)符合要求的關(guān)鍵詞搜索數(shù)據(jù),。但是并不是每個(gè)關(guān)鍵詞搜索數(shù)據(jù)都與實(shí)際銷量存在相關(guān)關(guān)系。所以本文首先應(yīng)用傳統(tǒng)相關(guān)性分析方法通過(guò)判定各個(gè)關(guān)鍵詞搜索數(shù)據(jù)與大眾品牌汽車銷量的Spearman秩相關(guān)系數(shù),,篩選出相關(guān)系數(shù)大于0.5的搜索關(guān)鍵詞(顯著相關(guān)),,共計(jì)37個(gè)。然后采用時(shí)差相關(guān)分析確定上一步篩選出的關(guān)鍵詞搜索指數(shù)與大眾品牌汽車銷量的時(shí)滯階數(shù)均處于滯后1~3階的范圍(網(wǎng)絡(luò)搜索行為是一種即時(shí)性行為,,而購(gòu)買(mǎi)汽車作為重大經(jīng)濟(jì)決策,,消費(fèi)者一般都會(huì)在做出購(gòu)買(mǎi)決策前幾個(gè)月就開(kāi)始搜索相關(guān)的信息)。
現(xiàn)有研究針對(duì)相關(guān)性分析結(jié)果一般有兩種處理方法:第一種是直接選取相關(guān)性最高的作為唯一的解釋變量,;第二種是利用指數(shù)合成方法將合成后的關(guān)鍵指數(shù)作為解釋變量,。兩種方法難免都會(huì)造成有效信息的損失。但是若保留所有的解釋變量,,解釋變量之間也可能存在多重共線性,,所以本文在相關(guān)性分析基礎(chǔ)上應(yīng)用LASSO算法來(lái)進(jìn)一步分析與選取特征[10]。
1.3 基于LASSO的特征選取
在高維數(shù)據(jù)變量選擇方法的研究領(lǐng)域中,,Tibshirani在1996年提出普通線性模型下的Least Absolute Shrinkage and Selection Operate(LASSO)算法,,LASSO算法就是在損失函數(shù)后面加上懲罰項(xiàng)(即L1正則項(xiàng)),,L1正則項(xiàng)可以約束方程的稀疏性,這種稀疏性即可應(yīng)用于特征的選擇,,這種方法與傳統(tǒng)的算法相比優(yōu)點(diǎn)在于可以在進(jìn)行連續(xù)的變量選擇的同時(shí)進(jìn)行模型參數(shù)估計(jì)[11],。而且LASSO算法可以有效解決解釋變量多重共線性的問(wèn)題,使得后續(xù)建立的模型擁有穩(wěn)定的性能,。
針對(duì)上一節(jié)相關(guān)性分析結(jié)果,,采用R語(yǔ)言中的glmnet包實(shí)現(xiàn)的LASSO算法對(duì)關(guān)鍵詞搜索數(shù)據(jù)進(jìn)行分析與特征選取。通過(guò)分析模型的Lambda解路徑圖可以發(fā)現(xiàn),,隨著懲罰的力度加大,,越來(lái)越多的變量系數(shù)會(huì)被壓縮為0,而那些在Lambda比較大時(shí)仍然擁有非零系數(shù)的變量就是越重要的解釋變量[12-13],。本文選取平均絕對(duì)誤差(MAE)作為評(píng)價(jià)指標(biāo),,通過(guò)交叉驗(yàn)證得到最優(yōu)Lambda值,模型MAE與Lambda之間的關(guān)系如圖1所示,。
圖1中左側(cè)虛線是最佳Lambda取值(lambda.min=0.143 065),,也就是模型MAE最低時(shí)的Lambda取值,此時(shí)非零系數(shù)的變量個(gè)數(shù)僅為12個(gè),,相比之前37個(gè)關(guān)鍵詞特征數(shù)據(jù)已經(jīng)大幅度地縮減,。通過(guò)查看coefficients參數(shù)可以得到模型的Intercept為5.630 547 963 2,所選取的關(guān)鍵詞變量及其所對(duì)應(yīng)的參數(shù)估計(jì)如表1所示,。
至此,,本文首先進(jìn)行關(guān)鍵詞的選取及拓展,然后將傳統(tǒng)相關(guān)性分析與基于LASSO的特征選擇相結(jié)合應(yīng)用于搜索數(shù)據(jù)關(guān)鍵詞選取,,最終選出針對(duì)“大眾”品牌汽車的12個(gè)網(wǎng)絡(luò)搜索數(shù)據(jù)關(guān)鍵特征,。使用同樣的方法,篩選得出“本田”及“奧迪”品牌汽車對(duì)應(yīng)的網(wǎng)絡(luò)搜索數(shù)據(jù)關(guān)鍵特征分別為12個(gè)和13個(gè),。
2 實(shí)驗(yàn)分析與討論
通過(guò)LASSO算法的應(yīng)用有效地解決了解釋變量多重共線性的問(wèn)題,,同時(shí)在特征選擇的過(guò)程中也得到了LASSO線性回歸模型參數(shù)估計(jì),但是該模型及現(xiàn)有研究大都使用基于最小二乘法的線性回歸模型,,都無(wú)法解決異方差性及解釋變量與被解釋變量非線性關(guān)系的問(wèn)題,,這就會(huì)增加系數(shù)估計(jì)值的方差,結(jié)果造成系數(shù)估計(jì)值不穩(wěn)定,,對(duì)異常值非常敏感,,繼而會(huì)嚴(yán)重影響回歸線,最終影響預(yù)測(cè)值的準(zhǔn)確度[14],。所以本文又選取了兩種非線性的機(jī)器學(xué)習(xí)算法建立模型并進(jìn)行詳細(xì)的對(duì)比分析,。
本文選取2011年1月~2016年12月的數(shù)據(jù)作為訓(xùn)練集,將2017年12個(gè)月的數(shù)據(jù)作為測(cè)試集,,采用R語(yǔ)言針對(duì)“大眾”,、“本田”,、“奧迪”品牌汽車的銷量預(yù)測(cè)建立了支持向量回歸模型及隨機(jī)森林模型,按照MAE值最小原則應(yīng)用網(wǎng)格搜索法(GridSearch)進(jìn)行模型參數(shù)調(diào)優(yōu),,同時(shí)針對(duì)三個(gè)品牌建立傳統(tǒng)的時(shí)間序列預(yù)測(cè)模型——自回歸積分滑動(dòng)平均模型(ARIMA)進(jìn)行綜合比較分析,。為了有效和直觀地衡量不同模型的預(yù)測(cè)能力,本文選取均方根誤差(RMSE),、平均絕對(duì)百分比誤差(MAPE)兩個(gè)指標(biāo)來(lái)評(píng)估預(yù)測(cè)結(jié)果,,各模型測(cè)試集預(yù)測(cè)結(jié)果如表2所示。
從表2可以看出,,無(wú)論從RMSE還是MAPE來(lái)說(shuō),,機(jī)器學(xué)習(xí)模型的預(yù)測(cè)效果均有顯著優(yōu)勢(shì),相比傳統(tǒng)的時(shí)間序列ARIMA模型大幅度提高了預(yù)測(cè)準(zhǔn)確度,,而且從MAPE指標(biāo)結(jié)果來(lái)看,,ARIMA模型對(duì)于不同品牌汽車銷量預(yù)測(cè)差異非常大(奧迪比本田高了近15%),機(jī)器學(xué)習(xí)模型預(yù)測(cè)性能比較穩(wěn)定,。所有模型中性能最優(yōu)的是隨機(jī)森林模型,,預(yù)測(cè)平均誤差為6.4%,比ARIMA模型降低了12.2個(gè)百分點(diǎn),,相比文獻(xiàn)[15],、[16]對(duì)大眾及奧迪相同品牌汽車月度銷量預(yù)測(cè)的MAPE分別降低了2.81%和4.63%,預(yù)測(cè)精度有了顯著提升,。從本質(zhì)上分析,網(wǎng)絡(luò)搜索數(shù)據(jù)與對(duì)應(yīng)品牌汽車銷量之間的關(guān)系并不是單純的線性關(guān)系,,其中非線性關(guān)系的程度應(yīng)該大于線性關(guān)系的程度,,因而兩種非線性機(jī)器學(xué)習(xí)模型的預(yù)測(cè)更為精確。
以“大眾”為例展示各模型測(cè)試集的預(yù)測(cè)值與實(shí)際值對(duì)比如圖2所示,。其中可以看出LASOO線性回歸模型(圖(b))及支持向量回歸模型(圖(c))的預(yù)測(cè)精度明顯優(yōu)于ARIMA模型(圖(a)),,ARIMA模型雖然能夠預(yù)測(cè)銷量的基本趨勢(shì),但整體預(yù)測(cè)效果比較差,,而且以上三種模型的峰值敏感度都較低,,即對(duì)峰值的預(yù)測(cè)誤差均比較大。通過(guò)與隨機(jī)森林模型(圖(d))進(jìn)行對(duì)比,,可以清晰直觀地看出,,隨機(jī)森林模型與其他模型相比在峰值預(yù)測(cè)準(zhǔn)確度上有明顯差異,顯然隨機(jī)森林模型對(duì)于峰值和整體預(yù)測(cè)的結(jié)果都更精確,。由此可以得出結(jié)論,,針對(duì)汽車品牌粒度的月度銷量預(yù)測(cè)問(wèn)題,建立基于網(wǎng)絡(luò)搜索數(shù)據(jù)關(guān)鍵特征的隨機(jī)森林模型是一種切實(shí)可行的方案,。
3 結(jié)論
本文以品牌汽車銷量為研究對(duì)象,,通過(guò)關(guān)鍵詞的選取及拓展,,將相關(guān)性分析與基于LASSO的特征選擇相結(jié)合,最終篩選出針對(duì)不同品牌汽車的網(wǎng)絡(luò)搜索數(shù)據(jù)關(guān)鍵特征,,在解決多重共線性及減少過(guò)擬合的基礎(chǔ)上保留最有效的數(shù)據(jù),,然后分別建立了傳統(tǒng)時(shí)間序列模型及三種機(jī)器學(xué)習(xí)模型,通過(guò)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,,發(fā)現(xiàn)機(jī)器學(xué)習(xí)模型的預(yù)測(cè)效果均有顯著優(yōu)勢(shì),,其中隨機(jī)森林模型預(yù)測(cè)性能最優(yōu)。本文提出的基于網(wǎng)絡(luò)搜索數(shù)據(jù)的預(yù)測(cè)方法可以利用前期網(wǎng)絡(luò)搜索數(shù)據(jù)預(yù)測(cè)后續(xù)汽車銷量,,而相應(yīng)品牌的汽車生產(chǎn)廠商可以根據(jù)預(yù)測(cè)結(jié)果及時(shí)調(diào)整企業(yè)的生產(chǎn)和營(yíng)銷策略,。模型的可靠性檢驗(yàn)及推廣應(yīng)用是接下來(lái)的研究方向。
參考文獻(xiàn)
[1] 中國(guó)汽車工業(yè)協(xié)會(huì).中國(guó)汽車工業(yè)發(fā)展年度報(bào)告(2016)[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2016.
[2] 黃琦.基于灰色理論的汽車銷售量預(yù)測(cè)研究[J].機(jī)械制造,2013,51(4):78-80.
[3] 胡彥君.ARIMA模型在汽車銷量預(yù)測(cè)中的應(yīng)用及SAS實(shí)現(xiàn)[J].河北企業(yè),2012(4):11-12.
[4] 王旭天. 基于BP神經(jīng)網(wǎng)絡(luò)的我國(guó)汽車銷量預(yù)測(cè)分析[D].上海:東華大學(xué),2016.
[5] 袁慶玉,彭賡,劉穎,等.基于網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)的汽車銷量預(yù)測(cè)研究[J].管理學(xué)家(學(xué)術(shù)版),2011(1):12-24.
[6] 孔令頂.基于互聯(lián)網(wǎng)搜索量的大眾途觀汽車銷量預(yù)測(cè)研究[J].時(shí)代金融,2015(30):222,226.
[7] 王守中,崔東佳,彭賡.基于Web搜索數(shù)據(jù)的寶馬汽車銷量預(yù)測(cè)研究[J].經(jīng)濟(jì)師,2013(12):22-24,,26.
[8] FANTAZZINI D, TOKTAMYSOVA Z. Forecasting german car sales using Google data and multivariate models[J].International Journal of Production Economics,2015,170: 97-135.
[9] 李憶,文瑞,楊立成.網(wǎng)絡(luò)搜索指數(shù)與汽車銷量關(guān)系研究——基于文本挖掘的關(guān)鍵詞獲?。跩].現(xiàn)代情報(bào),2016,36(8):131-136,177.
[10] 趙東波. 線性回歸模型中多重共線性問(wèn)題的研究[D].錦州:渤海大學(xué),2017.
[11] 李鋒,蓋玉潔,盧一強(qiáng).測(cè)量誤差模型的自適應(yīng)LASSO變量選擇方法研究[J].中國(guó)科學(xué):數(shù)學(xué),2014,44(9):983-1006.
[12] 劉曉寧.基于Lasso特征選擇的方法比較[J].安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2014,13(1):26-30.
[13] 李春紅,吳英,覃朝勇.基于LASSO變量選擇方法的網(wǎng)絡(luò)廣告點(diǎn)擊率預(yù)測(cè)模型研究[J].數(shù)理統(tǒng)計(jì)與管理,2016,35(5):803-809.
[14] 郭貔,王力,郝元濤.基于LASSO回歸模型與百度搜索數(shù)據(jù)構(gòu)建的流感疫情預(yù)測(cè)系統(tǒng)[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2017,34(2):186-191.
[15] 崔東佳. 大數(shù)據(jù)時(shí)代背景下的品牌汽車銷量預(yù)測(cè)的實(shí)證研究[D].開(kāi)封:河南大學(xué),2014.
[16] 田銳鋒.用季節(jié)性交乘模型預(yù)測(cè)奧迪汽車在華銷量[J].統(tǒng)計(jì)與管理,2016(8):70-71.
(收稿日期:2018-04-03)
作者簡(jiǎn)介:
謝天保(1966-),,男,,博士,副教授,,主要研究方向:數(shù)據(jù)挖掘,、電子商務(wù)與決策支持。
崔田(1991-),,通信作者,,男,碩士研究生,,主要研究方向:數(shù)據(jù)挖掘,、電子商務(wù)。E-mail:[email protected],。