所謂探索性數(shù)據(jù)分析(EDA" title="EDA">EDA),,是指對(duì)已有的數(shù)據(jù)(特別是調(diào)查或觀察得來(lái)的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過(guò)作圖,、制表,、方程擬合,、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。特別是當(dāng)我們對(duì)這些數(shù)據(jù)中的信息沒(méi)有足夠的經(jīng)驗(yàn),,不知道該用何種傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行分析時(shí),,探索性數(shù)據(jù)分析就會(huì)非常有效。探索性數(shù)據(jù)分析在上世紀(jì)六十年代被提出,,其方法由美國(guó)著名統(tǒng)計(jì)學(xué)家約翰·圖基(John Tukey)命名,。
EDA的出現(xiàn)主要是在對(duì)數(shù)據(jù)進(jìn)行初步分析時(shí),往往還無(wú)法進(jìn)行常規(guī)的統(tǒng)計(jì)分析,。這時(shí)候,,如果分析者先對(duì)數(shù)據(jù)進(jìn)行探索性分析,辨析數(shù)據(jù)的模式與特點(diǎn),,并把它們有序地發(fā)掘出來(lái),,就能夠靈活地選擇和調(diào)整合適的分析模型,并揭示數(shù)據(jù)相對(duì)于常見(jiàn)模型的種種偏離,。在此基礎(chǔ)上再采用以顯著性檢驗(yàn)和置信區(qū)間估計(jì)為主的統(tǒng)計(jì)分析技術(shù),,就可以科學(xué)地評(píng)估所觀察到的模式或效應(yīng)的具體情況。
所以概括起來(lái)說(shuō),,分析數(shù)據(jù)可以分為探索和驗(yàn)證兩個(gè)階段,。探索階段強(qiáng)調(diào)靈活探求線索和證據(jù),發(fā)現(xiàn)數(shù)據(jù)中隱藏的有價(jià)值的信息,,而驗(yàn)證階段則著重評(píng)估這些證據(jù),相對(duì)精確地研究一些具體情況,。在驗(yàn)證階段,,常用的主要方法是傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,在探索階段,,主要的方法就是EDA,,下面我們重點(diǎn)對(duì)EDA做進(jìn)一步的說(shuō)明。
EDA的特點(diǎn)有三個(gè):一是在分析思路上讓數(shù)據(jù)說(shuō)話,,不強(qiáng)調(diào)對(duì)數(shù)據(jù)的整理,。傳統(tǒng)統(tǒng)計(jì)方法通常是先假定一個(gè)模型,例如數(shù)據(jù)服從某個(gè)分布(特別常見(jiàn)的是正態(tài)分布),,然后使用適合此模型的方法進(jìn)行擬合,、分析及預(yù)測(cè)。但實(shí)際上,,多數(shù)數(shù)據(jù)(尤其是實(shí)驗(yàn)數(shù)據(jù))并不能保證滿足假定的理論分布,。因此,傳統(tǒng)方法的統(tǒng)計(jì)結(jié)果常常并不令人滿意,,使用上受到很大的局限,。EDA則可以從原始數(shù)據(jù)出發(fā),,深入探索數(shù)據(jù)的內(nèi)在規(guī)律,而不是從某種假定出發(fā),,套用理論結(jié)論,,拘泥于模型的假設(shè)。
二是EDA分析方法靈活,,而不是拘泥于傳統(tǒng)的統(tǒng)計(jì)方法,。傳統(tǒng)的統(tǒng)計(jì)方法以概率論為基礎(chǔ),使用有嚴(yán)格理論依據(jù)的假設(shè)檢驗(yàn),、置信區(qū)間等處理工具,。EDA處理數(shù)據(jù)的方式則靈活多樣,分析方法的選擇完全從數(shù)據(jù)出發(fā),,靈活對(duì)待,,靈活處理,什么方法可以達(dá)到探索和發(fā)現(xiàn)的目的就使用什么方法,。這里特別強(qiáng)調(diào)的是EDA更看重的是方法的穩(wěn)健性,、耐抗性,而不刻意追求概率意義上的精確性,。
三是EDA分析工具簡(jiǎn)單直觀,,更易于普及。傳統(tǒng)的統(tǒng)計(jì)方法都比較抽象和深?yuàn)W,,一般人難于掌握,,EDA則更強(qiáng)調(diào)直觀及數(shù)據(jù)可視化,更強(qiáng)調(diào)方法的多樣性及靈活性,,使分析者能一目了然地看出數(shù)據(jù)中隱含的有價(jià)值的信息,,顯示出其遵循的普遍規(guī)律及與眾不同的突出特點(diǎn),促進(jìn)發(fā)現(xiàn)規(guī)律,,得到啟迪,,滿足分析者的多方面要求,這也是EDA對(duì)于數(shù)據(jù)分析的的主要貢獻(xiàn),。
值得一提的是,,正因?yàn)镋DA更強(qiáng)調(diào)直觀及圖形顯示,所以它采用了很多創(chuàng)新的可視化技術(shù),目前這些可視化技術(shù)已經(jīng)有了很好的實(shí)現(xiàn)載體,,目前最為主流的探索性數(shù)據(jù)分析軟件是以圖形效果好,、交互性強(qiáng)、易學(xué)易用著稱的統(tǒng)計(jì)發(fā)現(xiàn)軟件JMP" title="JMP">JMP,。即使不具備統(tǒng)計(jì)學(xué)基礎(chǔ)的分析者也能在JMP的幫助下,,輕松地發(fā)現(xiàn)數(shù)據(jù)、擬合以及殘差的規(guī)律,,獲得意想不到的發(fā)現(xiàn),,為后續(xù)的分析啟發(fā)思路,、指明方向。
下面,,用一個(gè)典型的小案例來(lái)說(shuō)明EDA的實(shí)際應(yīng)用,。
我們?yōu)榱藢?duì)全球經(jīng)濟(jì)的發(fā)展趨勢(shì)和世界頂級(jí)公司的經(jīng)營(yíng)狀況做一些研究,可以從公共網(wǎng)站上下載數(shù)據(jù)(如http://www.forbes.com/lists中的福布斯2000強(qiáng)名單),,用JMP略作整理之后可以得到如表一所示的數(shù)據(jù)表,,其中包含了上榜公司的名稱、所屬行業(yè),、所屬國(guó)家,、上榜年份、上榜排名,、市場(chǎng)價(jià)值,、資產(chǎn)額、銷售額,、利潤(rùn)額等9個(gè)變量,,總計(jì)14000條記錄(每年2000條,從2004年至2010年共7個(gè)年度)?,F(xiàn)在的問(wèn)題是:數(shù)據(jù)有了,,其中到底隱藏著怎樣的有價(jià)值的信息呢?我們又如何發(fā)現(xiàn)這些信息呢,?
有人說(shuō):既然是連續(xù)型數(shù)據(jù),,又包含時(shí)間變量,應(yīng)該用時(shí)間序列方法進(jìn)行分析,!的確,,時(shí)間序列可以告訴我們變量隨時(shí)間的變化,然而實(shí)際中我們所希望和可以得到的有價(jià)值的信息,,往往遠(yuǎn)不止“隨時(shí)間變化”這么簡(jiǎn)單,更何況,,需要分析這些商業(yè)數(shù)據(jù)的用戶常常并不清楚什么是“時(shí)間序列分析”方法,。
還有人說(shuō):用一些傳統(tǒng)的圖形工具,比如折線圖,、柱狀圖,、餅圖等等來(lái)分析,不就可以進(jìn)行數(shù)據(jù)探索了嗎,?這種方法似乎是可行的,,但這些數(shù)據(jù)中有不少類別變量,他們的分類水平很多(例如年份跨越7年,,行業(yè)分為30個(gè),,國(guó)家有75個(gè)之多,,公司名稱更是多達(dá)3505個(gè)),這樣一來(lái),,光作圖可能就讓我們筋疲力盡了,,“數(shù)據(jù)探索”又從何談起?
表一 經(jīng)JMP軟件整理的福布斯2000強(qiáng)排行數(shù)據(jù)
什么方法才能很好地探索這些數(shù)據(jù),,從中發(fā)現(xiàn)我們所期望的,、甚至意想不到的重要信息呢?我們應(yīng)該從哪里著手分析才能找到這些信息呢,?我們來(lái)嘗試運(yùn)用現(xiàn)代EDA中的可視 化技術(shù)“泡泡圖”來(lái)邊看邊想,。在JMP軟件的幫助下,我們可以很快得到類似圖一的圖形,,其中的橫軸代表公司的市值,,縱軸代表公司的銷售額,泡泡的大小代表公司的利潤(rùn)額,,泡泡的顏色代表公司所屬的行業(yè),。最有意義的是,所有的泡泡并不是靜止不動(dòng)的,,它們的位置,、大小等都會(huì)隨著年度的變化而動(dòng)態(tài)變化。與此同時(shí),,整個(gè)變化的歷史軌跡線也會(huì)在圖中顯示出來(lái),。
這樣一來(lái),我們就可以直觀地發(fā)現(xiàn)一些明顯的數(shù)據(jù)特征,。就拿圖中標(biāo)識(shí)出來(lái)的兩家知名公司來(lái)說(shuō),。我們會(huì)發(fā)現(xiàn)通用電氣General Electric的經(jīng)營(yíng)業(yè)績(jī)比較穩(wěn)定,而??松梨贓xxon Mobil就相對(duì)顯得大起大落一些,。雖然兩者有明顯不同,但自2008年起,,市場(chǎng)價(jià)值均有顯著的回落,,這應(yīng)當(dāng)與當(dāng)時(shí)席卷全球的經(jīng)濟(jì)危機(jī)有關(guān)。
圖一 基于JMP軟件生成的動(dòng)態(tài)泡泡圖
有人在發(fā)現(xiàn)這些特征后會(huì)迸出一些新的想法:通用電氣,、??松梨诙际敲绹?guó)的企業(yè),中國(guó)企業(yè)的表現(xiàn)又如何的呢,?我們可以在使用“泡泡圖”的同時(shí),,在JMP中調(diào)用“數(shù)據(jù)篩選”功能就可以得到類似圖三的界面。
從中可以清晰地觀察到,自2004年以來(lái)的7年間,,共有392個(gè)次的中國(guó)企業(yè)登上了福布斯排行榜,。雖然在數(shù)量上、市值,、銷售額等經(jīng)營(yíng)指標(biāo)上與世界頂級(jí)企業(yè)有一定差距,,但以中石油Petro China、中石化Sinopec China Petroleum等位代表的一批國(guó)有大型企業(yè)發(fā)展速度很快,,令世界矚目,。
圖二 JMP軟件中動(dòng)態(tài)泡泡圖與數(shù)據(jù)篩選的配合使用
實(shí)際上,探索性數(shù)據(jù)分析還遠(yuǎn)遠(yuǎn)不止這些,。分析人士完全可以在數(shù)據(jù)分析的初期不受太多理論條件的束縛,,充分展開想象的翅膀,多角度,、多層面地對(duì)現(xiàn)有數(shù)據(jù)的規(guī)律進(jìn)行可視化的探索,,新的線索往往就會(huì)自然而然地出現(xiàn)了,為下一步的統(tǒng)計(jì)建模與預(yù)測(cè)等精細(xì)化分析奠定良好的基礎(chǔ),。
總之,,探索性數(shù)據(jù)分析強(qiáng)調(diào)靈活地探求線索和證據(jù),重在發(fā)現(xiàn)數(shù)據(jù)中可能隱藏著的有價(jià)值的信息,,比如數(shù)據(jù)的分布模式,、變化趨勢(shì),可能的交互影響,,異常變化等等,,而傳統(tǒng)的統(tǒng)計(jì)方法則側(cè)重于評(píng)估已經(jīng)發(fā)現(xiàn)的證據(jù),通常要求分析人員具備一定的統(tǒng)計(jì)學(xué)基礎(chǔ),。根據(jù)不同的業(yè)務(wù)目的和數(shù)據(jù)資源選用不同的技術(shù),,或者綜合使用這兩類技術(shù),將會(huì)使我們更快地獲得更多的發(fā)現(xiàn),。對(duì)于大都不具備統(tǒng)計(jì)學(xué)功底但數(shù)據(jù)分析任務(wù)卻越來(lái)越多的企業(yè)人員(如市場(chǎng)分析人員,、質(zhì)量管理人員等)來(lái)說(shuō),重視,、學(xué)習(xí)并用好探索性數(shù)據(jù)分析往往能事半功倍,。