1. 數(shù)據(jù)采集:讓數(shù)據(jù)匯聚到一起
當(dāng)前,,以大數(shù)據(jù)、物聯(lián)網(wǎng),、人工智能為核心的數(shù)字化浪潮正席卷全球,,全世界每時(shí)每刻都在產(chǎn)生大量的數(shù)據(jù),人類產(chǎn)生的數(shù)據(jù)總量呈指數(shù)級(jí)增長(zhǎng),。面對(duì)如此巨大的數(shù)據(jù)規(guī)模,,如何采集并進(jìn)行轉(zhuǎn)換、存儲(chǔ)以及分析,,是人們?cè)跀?shù)據(jù)開(kāi)發(fā)利用過(guò)程中面臨的巨大挑戰(zhàn),。其中,數(shù)據(jù)采集又是所有數(shù)據(jù)處理行為的前提,。
數(shù)據(jù)采集是指從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的過(guò)程,。數(shù)據(jù)采集系統(tǒng)整合了信號(hào)、傳感器,、激勵(lì)器等數(shù)據(jù)采集設(shè)備和一系列應(yīng)用軟件,。目前,數(shù)據(jù)采集廣泛應(yīng)用于互聯(lián)網(wǎng)及分布式領(lǐng)域,,如攝像頭,、麥克風(fēng)都是數(shù)據(jù)采集工具。
數(shù)據(jù)采集并不是隨隨便便,、雜亂無(wú)章地采集數(shù)據(jù),,而是對(duì)數(shù)據(jù)有一定的要求。例如,,要求數(shù)據(jù)量是全面的,,具有足夠的分析價(jià)值,;是多維度和多類型的,,能夠滿足不同的需求;是高效的,,具有比較明確的針對(duì)性和時(shí)效性,。常用的數(shù)據(jù)采集方法主要有傳感器采集,、日志文件采集、網(wǎng)絡(luò)爬蟲采集,。
傳感器采集:傳感器通常用于測(cè)量物理變量,,一般包括聲音、溫濕度,、距離,、電流等,將測(cè)量值轉(zhuǎn)化為數(shù)字信號(hào)并傳送到數(shù)據(jù)采集點(diǎn),,讓物體擁有“觸覺(jué)”“味覺(jué)”和“嗅覺(jué)”等“感官”,,變得鮮活起來(lái)。
日志文件采集:日志文件數(shù)據(jù)一般由數(shù)據(jù)源系統(tǒng)產(chǎn)生,,用于記錄對(duì)數(shù)據(jù)源的各種操作活動(dòng),,如網(wǎng)絡(luò)監(jiān)控的流量管理、金融應(yīng)用中的股票記賬和Web服務(wù)器記錄的用戶訪問(wèn)行為,。很多互聯(lián)網(wǎng)企業(yè)采用日志文件采集方式,,如Hadoop的Chukwa、Cloudera的Flume,、Facebook的Scribe等,。這些工具均使用分布式架構(gòu),能滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求,。
網(wǎng)絡(luò)爬蟲采集:網(wǎng)絡(luò)爬蟲是指為搜索引擎下載并存儲(chǔ)網(wǎng)頁(yè)的程序,,它是針對(duì)搜索引擎和Web緩存的主要數(shù)據(jù)采集方法。該方法將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),,以結(jié)構(gòu)化的形式將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,,支持圖片、音頻,、視頻等文件或附件的采集,,附件與正文可以自動(dòng)關(guān)聯(lián)。
由于所采集數(shù)據(jù)的種類錯(cuò)綜復(fù)雜,,因此對(duì)不同種類的數(shù)據(jù)進(jìn)行分析必須運(yùn)用提取技術(shù),。通過(guò)不同方式,可以獲得各種類型的結(jié)構(gòu)化,、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù),。在現(xiàn)實(shí)生活中,數(shù)據(jù)的種類有很多,。而且,,不同種類的數(shù)據(jù),其產(chǎn)生的方式不同,。針對(duì)大數(shù)據(jù)采集,,目前主要流行運(yùn)用以下技術(shù),。
Hive:Hive是由Facebook開(kāi)發(fā)的數(shù)據(jù)倉(cāng)庫(kù),可支持SQL相似的查詢聲明性語(yǔ)言(HiveQL),,可自定義插入相關(guān)腳本(Map-Reduce),,并且支持基本數(shù)據(jù)類型、多種集合和組合等,。只需要一些簡(jiǎn)單的查詢語(yǔ)句,,就能分析計(jì)算數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。
Transform:Transform操作是大數(shù)據(jù)采集中的一個(gè)關(guān)鍵流程,,利用多種數(shù)據(jù)分析和計(jì)算系統(tǒng)對(duì)清洗后的數(shù)據(jù)進(jìn)行處理和分析,。
Apache Sqoop:將數(shù)據(jù)在Hadoop HDFS分布式文件系統(tǒng)和生產(chǎn)數(shù)據(jù)庫(kù)相互轉(zhuǎn)換,需要考慮數(shù)據(jù)是否一致,,以及資源配置等問(wèn)題,。為了防止使用效率不高的腳本進(jìn)行傳輸,將使用Apache Sqoop,。Apache Sqoop能快速實(shí)現(xiàn)導(dǎo)入和導(dǎo)出數(shù)據(jù),解決數(shù)據(jù)來(lái)回轉(zhuǎn)換中暴露的問(wèn)題,,還可通過(guò)數(shù)據(jù)庫(kù)元數(shù)據(jù)預(yù)測(cè)數(shù)據(jù)類型,。
數(shù)據(jù)采集是挖掘數(shù)據(jù)價(jià)值的第一步,當(dāng)數(shù)據(jù)量越來(lái)越大時(shí),,可提取出來(lái)的有用數(shù)據(jù)必然也就更多,。只要善用數(shù)據(jù)化處理平臺(tái),便能夠保證數(shù)據(jù)分析結(jié)果的有效性,,助力實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng),。
2. 數(shù)據(jù)分析:機(jī)器學(xué)習(xí)和深度挖掘
數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)數(shù)據(jù)進(jìn)行分析,將它們加以匯總和理解并消化,,以求最大化地開(kāi)發(fā)數(shù)據(jù)功能,。數(shù)據(jù)分析的目的是把隱藏在一大批看似雜亂無(wú)章的數(shù)據(jù)背后的信息提煉出來(lái),并總結(jié)出內(nèi)在規(guī)律,。
數(shù)據(jù)分析的概念不難理解,,但數(shù)據(jù)分析是通過(guò)什么方法來(lái)實(shí)現(xiàn)的呢?這就要借助機(jī)器學(xué)習(xí),。機(jī)器學(xué)習(xí)是研究如何用機(jī)器來(lái)模擬人類學(xué)習(xí)活動(dòng)的一門學(xué)科,,它是研究機(jī)器如何獲取新知識(shí)和新技能并識(shí)別現(xiàn)有知識(shí)的學(xué)問(wèn)。此處所說(shuō)的“機(jī)器”是指計(jì)算機(jī),、電子計(jì)算機(jī),、中子計(jì)算機(jī)、光子計(jì)算機(jī)或神經(jīng)計(jì)算機(jī)等,。機(jī)器學(xué)習(xí)主要包括三種類型:監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí),。
監(jiān)督學(xué)習(xí)從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)一個(gè)函數(shù),,當(dāng)有新數(shù)據(jù)時(shí),,可以根據(jù)這個(gè)函數(shù)預(yù)測(cè)結(jié)果,,如圖1,、圖2所示,。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求包括輸入和輸出,,也可以說(shuō)是特征和目標(biāo),。訓(xùn)練集中的目標(biāo)是由人標(biāo)注的,。監(jiān)督學(xué)習(xí)分為回歸和分類兩種類型,,包括線性回歸、Logistic回歸,、CART,、樸素貝葉斯、KNN等幾種算法,?;貧w是精確值預(yù)測(cè)。例如,,根據(jù)已有的銷售價(jià)格和銷售數(shù)量建立模型,,預(yù)測(cè)新銷售價(jià)格對(duì)應(yīng)的銷售數(shù)量,,就是回歸的過(guò)程,。
圖1 監(jiān)督學(xué)習(xí)模型
圖2 監(jiān)督學(xué)習(xí)預(yù)測(cè)模型
無(wú)監(jiān)督學(xué)習(xí)就是輸入一些并不知道輸出的數(shù)據(jù),然后給這些數(shù)據(jù)打上標(biāo)簽,,如圖3所示,。它主要有關(guān)聯(lián)、群集及維度降低三種類型,,集中使用Apriori,、K-means、PCA三種算法,。其實(shí),,我們每天看的新聞分類就是一個(gè)無(wú)監(jiān)督學(xué)習(xí),由新聞網(wǎng)站收集網(wǎng)絡(luò)新聞,,根據(jù)主題將新聞分成各類鏈接,,讀者點(diǎn)擊鏈接時(shí)會(huì)展現(xiàn)相關(guān)的新聞,,而這些新聞的關(guān)聯(lián)性不是人工實(shí)現(xiàn)的,是算法自動(dòng)分的,。簡(jiǎn)單地說(shuō),,監(jiān)督學(xué)習(xí)是根據(jù)已經(jīng)存在的數(shù)據(jù),如現(xiàn)有銷售價(jià)格和銷售數(shù)量,,預(yù)測(cè)在新的銷售價(jià)格下能賣出多少數(shù)量的商品,;而無(wú)監(jiān)督學(xué)習(xí)則是在不知道數(shù)據(jù)的輸出是什么的情況下,根據(jù)特征進(jìn)行分類和預(yù)測(cè),。
圖3 無(wú)監(jiān)督學(xué)習(xí)模型
強(qiáng)化學(xué)習(xí)是讓機(jī)器通過(guò)不斷的測(cè)試,,在環(huán)境中獲得高分。在這個(gè)過(guò)程中,,機(jī)器會(huì)一而再,、再而三地出錯(cuò),從而獲取規(guī)律,。近兩年比較有名的Alpha Go事件,,其實(shí)就是機(jī)器通過(guò)不斷學(xué)習(xí)游戲和變換新步驟而得到高分的實(shí)例。那么,,計(jì)算機(jī)是怎樣學(xué)習(xí)的呢,?其實(shí),計(jì)算機(jī)就像一位虛擬的老師,,只是這位老師比較嚴(yán)厲,,它不會(huì)提前告訴你怎樣移動(dòng),不會(huì)教你怎樣學(xué)習(xí),,就像學(xué)校的教導(dǎo)主任一樣只對(duì)你的行為進(jìn)行監(jiān)督和打分,,而不負(fù)責(zé)教學(xué)。在這種情況下,,我們?cè)鯓荧@得高分呢,?我們只需要記住高分和低分分別對(duì)應(yīng)的行為,在下一次打分時(shí)盡量表示出高分行為,,避免低分行為,,就能夠做到。據(jù)此,,機(jī)器學(xué)習(xí)主要是從歷史數(shù)據(jù)獲得模型來(lái)預(yù)測(cè)未知屬性,,而人類是通過(guò)經(jīng)驗(yàn)總結(jié)規(guī)律以預(yù)測(cè)未來(lái),如圖4所示,。
圖4 機(jī)器學(xué)習(xí)與人類思考對(duì)比
說(shuō)到機(jī)器學(xué)習(xí),,不能不提到近年來(lái)出現(xiàn)的一個(gè)新詞——信息機(jī)器。信息機(jī)器與信息技術(shù)密切相關(guān),它不是傳統(tǒng)意義上的機(jī)械機(jī)器,,而是接收信息,、處理信息的新型機(jī)器,誕生于媒介新技術(shù)的革新和變遷,,更多地體現(xiàn)出人類與機(jī)器的交互性,。例如,在機(jī)器學(xué)習(xí)的過(guò)程中,,實(shí)際上機(jī)器也不斷地產(chǎn)生數(shù)據(jù)和信息,這種現(xiàn)象值得人們高度關(guān)注和研究,。
除了機(jī)器學(xué)習(xí),,還要提到數(shù)據(jù)分析的另一種方法——深度挖掘。這就好比挖掘機(jī)挖土,,挖得越深,,就越有可能挖到有價(jià)值的東西。數(shù)據(jù)領(lǐng)域的深度挖掘,,就是從大量數(shù)據(jù)中通過(guò)算法搜索隱藏于其中的信息的過(guò)程,。深度挖掘本質(zhì)上類似于機(jī)器學(xué)習(xí)和人工智能的基礎(chǔ),其主要目的是從各種各樣的數(shù)據(jù)來(lái)源中提取有用信息,,然后將這些信息合并,,深度分析其中的規(guī)律和內(nèi)在關(guān)聯(lián)。這就意味著深度挖掘不是一種用來(lái)證明假說(shuō)的方法,,而是用于構(gòu)建各種各樣假說(shuō)的方法,。深度挖掘不能告訴人們這些問(wèn)題的答案,只能說(shuō)明A和B可能存在相關(guān)關(guān)系,,但是無(wú)法說(shuō)出A和B存在什么樣的相關(guān)關(guān)系,。與機(jī)器學(xué)習(xí)相比,深度挖掘的概念更廣,,機(jī)器學(xué)習(xí)只是深度挖掘領(lǐng)域的一個(gè)分支領(lǐng)域,。
深度挖掘廣泛應(yīng)用于商務(wù)管理、生產(chǎn)控制,、市場(chǎng)分析,、工程設(shè)計(jì)和科學(xué)探索中,通過(guò)各種方法來(lái)挖掘數(shù)據(jù),,主要包括分類,、回歸分析、聚類,、關(guān)聯(lián)規(guī)則,、特征、變化和偏差分析、Web頁(yè)挖掘等,,它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘,。
數(shù)據(jù)挖掘是一種決策支持過(guò)程,它通過(guò)高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),,做出歸納性的推理,,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,,減少風(fēng)險(xiǎn),,做出正確的決策。在市場(chǎng)經(jīng)濟(jì)比較發(fā)達(dá)的國(guó)家和地區(qū),,許多企業(yè)都開(kāi)始在原有信息系統(tǒng)的基礎(chǔ)上通過(guò)深度挖掘?qū)I(yè)務(wù)信息進(jìn)行深加工,,以構(gòu)筑自己的競(jìng)爭(zhēng)優(yōu)勢(shì),擴(kuò)大自己的營(yíng)業(yè)額,。美國(guó)運(yùn)通公司(American Express)有一個(gè)用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫(kù),,其數(shù)據(jù)量已達(dá)到5GB,并仍在隨著業(yè)務(wù)發(fā)展而不斷更新,。運(yùn)通公司通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘,,制定了“關(guān)聯(lián)結(jié)算(Relation ship Billing)優(yōu)惠”的促銷策略,即如果顧客在一家商店用運(yùn)通卡購(gòu)買一套時(shí)裝,,那么在同一家商店再買一雙鞋就可以得到比較大的折扣,。這樣既可以增加商店的銷售量,也可以增加運(yùn)通卡在該商店的使用率,。類似的方法在食品行業(yè)也備受青睞,。全球著名的卡夫(Kraft)食品公司建立了一個(gè)擁有3000萬(wàn)條客戶資料的數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)是通過(guò)收集對(duì)公司發(fā)出優(yōu)惠券等促銷手段做出積極反應(yīng)的客戶和銷售記錄而建立起來(lái)的,??ǚ蚬就ㄟ^(guò)深度挖掘了解特定客戶的興趣和口味,以此為基礎(chǔ)向他們發(fā)送特定產(chǎn)品的優(yōu)惠券,,并推薦符合他們口味和健康狀況的卡夫產(chǎn)品食譜,。此外,出版業(yè)也是數(shù)據(jù)深度挖掘的受益者,。例如,,美國(guó)讀者文摘(Reader's Digest)出版公司運(yùn)行著一個(gè)已有40年積累的業(yè)務(wù)數(shù)據(jù)庫(kù),里面包含遍布全球的1億多個(gè)訂戶的資料,,數(shù)據(jù)庫(kù)每天24小時(shí)連續(xù)運(yùn)行,,保證數(shù)據(jù)不斷實(shí)時(shí)更新。正是基于對(duì)客戶資料數(shù)據(jù)庫(kù)進(jìn)行深度挖掘的優(yōu)勢(shì),,讀者文摘出版公司的業(yè)務(wù)才能夠從通俗雜志擴(kuò)展到專業(yè)雜志,、書刊和音像制品的出版和發(fā)行,。
3. 數(shù)據(jù)關(guān)聯(lián):因果關(guān)系or相關(guān)關(guān)系
大數(shù)據(jù)時(shí)代,紛繁蕪雜的數(shù)據(jù)描述的是一個(gè)混沌的世界,,只有找出看似不相干的數(shù)據(jù)背后隱藏的邏輯關(guān)系和本質(zhì)規(guī)律,,才可能看清楚許多真相。目前,,對(duì)于數(shù)據(jù)之間的關(guān)系,,存在兩種較主流的看法,即因果關(guān)系和相關(guān)關(guān)系,。
對(duì)于因果關(guān)系,,通俗地解釋是指一個(gè)事件(即“因”)和另一個(gè)事件(即“果”)之間的作用關(guān)系,其中后一事件被認(rèn)為是前一事件的結(jié)果,。從西方哲學(xué)的角度來(lái)看,,亞里士多德較早提出的“四因說(shuō)”,即質(zhì)料因,、形式因,、動(dòng)力因,、目的因,,歸納了一般導(dǎo)致結(jié)果發(fā)生的幾個(gè)原因解釋。后來(lái),,在亞里士多德宇宙論的基礎(chǔ)上,,托馬斯· 阿奎那又對(duì)這四種原因進(jìn)行了等級(jí)排列,認(rèn)為目的因>動(dòng)力因>質(zhì)料因>形式因,。阿奎那把第一因歸為上帝,,認(rèn)為塵世的很多事件都是在上帝的設(shè)計(jì)或計(jì)劃之中。這種觀點(diǎn)流傳了很久,。不過(guò),,在后來(lái)的歷史中,亞里士多德的“四因說(shuō)”遭到了后世學(xué)者的批評(píng),。當(dāng)代西方哲學(xué)中廣為流傳的關(guān)于因果關(guān)系的定義出自大衛(wèi)· 休謨的理論,。他提出,人們只是發(fā)展了一個(gè)思考習(xí)慣,,把前后相繼的兩類客體或事件聯(lián)系起來(lái),,除此之外,人們是無(wú)法感知到原因和結(jié)果的,。然而,,雖然圍繞因果關(guān)系是否存在的爭(zhēng)論一直延綿不絕,但不可否認(rèn)的是在傳統(tǒng)社會(huì)中,,因果關(guān)系的確對(duì)人們分析事物的原因起著巨大的潛移默化的作用,。
大數(shù)據(jù)時(shí)代,,由于數(shù)據(jù)對(duì)經(jīng)濟(jì)生活各個(gè)方面的影響,有學(xué)者對(duì)事物之間的關(guān)聯(lián)提出了新的詮釋,。例如,,舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中一再?gòu)?qiáng)調(diào),人們應(yīng)該在很大程度上從對(duì)因果關(guān)系的追求中解脫出來(lái),,轉(zhuǎn)而將注意力放在相關(guān)關(guān)系的發(fā)現(xiàn)和使用上,。他提出,相關(guān)關(guān)系是指當(dāng)一個(gè)數(shù)據(jù)發(fā)生變化時(shí),,另一個(gè)數(shù)據(jù)也可能隨之變化,,這兩個(gè)數(shù)據(jù)有時(shí)候沒(méi)有必然聯(lián)系。兩者可能是正相關(guān),,也可能是負(fù)相關(guān),;可能是強(qiáng)相關(guān),也可能是弱相關(guān),?!拔覀儧](méi)有必要非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲”“相關(guān)關(guān)系能夠幫助我們更好地了解這個(gè)世界”,,他認(rèn)為建立在相關(guān)關(guān)系分析法上的預(yù)測(cè)是大數(shù)據(jù)的核心,。通過(guò)找到關(guān)聯(lián)物并監(jiān)控它,人們就能夠預(yù)測(cè)未來(lái),。在大數(shù)據(jù)的背景下,,相關(guān)關(guān)系較因果關(guān)系能在預(yù)測(cè)功能上展現(xiàn)出更大的優(yōu)勢(shì)。對(duì)于人們來(lái)說(shuō),,大數(shù)據(jù)最關(guān)鍵的作用就是利用相關(guān)關(guān)系進(jìn)行研究,,把數(shù)據(jù)里面的金子挖出來(lái),或者利用相關(guān)性預(yù)防或促成某些結(jié)果的發(fā)生,。由于數(shù)據(jù)超級(jí)海量,,需要一定的速度應(yīng)對(duì)信息社會(huì)“數(shù)據(jù)爆炸”和諸多涌現(xiàn)出來(lái)的“復(fù)雜性”,然后才是對(duì)其過(guò)程和背后原因的探詢,。
舍恩伯格提到的相關(guān)關(guān)系與因果關(guān)系有很明顯的不同,。因果關(guān)系中,當(dāng)一個(gè)表示原因的數(shù)據(jù)發(fā)生變化時(shí),,它對(duì)應(yīng)的結(jié)果數(shù)據(jù)也會(huì)發(fā)生變化,,這兩個(gè)數(shù)據(jù)一定是必然關(guān)系。但是,,有的時(shí)候追求因果關(guān)系顯得既無(wú)必要又無(wú)可能,。例如,在實(shí)際生活中,,如果要證明熬夜導(dǎo)致禿頭,,可以找兩組身體狀況基本一樣的人,,讓一組熬夜,另一組在正常時(shí)間睡覺(jué),。如果熬夜組禿頭的概率大于不熬夜組,,那么基本可以證明熬夜和禿頭存在因果關(guān)系。但是,,這種實(shí)驗(yàn)在現(xiàn)實(shí)中很難做到,,因?yàn)檫B原本的客觀環(huán)境都不能保持一致。而且,,這種實(shí)驗(yàn)也違背道德,,因?yàn)楹茈y逼大家熬夜,也無(wú)法實(shí)時(shí)追蹤是否熬夜,。因此,,用因果關(guān)系來(lái)證明和解釋這個(gè)現(xiàn)象有待商榷。
那么,,大數(shù)據(jù)時(shí)代的關(guān)系到底是因果關(guān)系,、相關(guān)關(guān)系,還是因果關(guān)系和相關(guān)關(guān)系并存呢,?這大概還是取決于人們對(duì)數(shù)據(jù)功能的定位,。在相關(guān)關(guān)系中,預(yù)測(cè)是大數(shù)據(jù)的核心功能,。對(duì)于快速變化的世界來(lái)說(shuō),,探究相關(guān)關(guān)系的確比因果關(guān)系成本更低,,耗時(shí)更少,,而且也更顯必要。例如,,全球最大的零售商沃爾瑪擁有一個(gè)超大型的歷史交易記錄數(shù)據(jù)庫(kù),,這個(gè)數(shù)據(jù)庫(kù)包括每位顧客的購(gòu)物清單、消費(fèi)額,、購(gòu)物籃中的商品,、具體的購(gòu)買時(shí)間以及購(gòu)物時(shí)的天氣。經(jīng)過(guò)分析發(fā)現(xiàn)一個(gè)規(guī)律,,就是每當(dāng)季節(jié)性颶風(fēng)來(lái)臨之前,,不僅手電筒的銷量增加,蛋撻的銷量也會(huì)增加,。因此,,后來(lái)每當(dāng)季節(jié)性颶風(fēng)來(lái)臨時(shí),沃爾瑪會(huì)把庫(kù)存的蛋撻放在靠近颶風(fēng)用品的位置,,這樣既方便了行色匆匆的顧客,,又大幅增加了商品的銷量,。在這樣的案例中,并沒(méi)有必要探究為什么手電筒和蛋撻的銷量會(huì)增加,,只要知道這種相關(guān)關(guān)系就行,。
通過(guò)相關(guān)關(guān)系進(jìn)行預(yù)測(cè)的案例還有很多。美國(guó)折扣零售商塔吉特曾經(jīng)做過(guò)一項(xiàng)關(guān)于懷孕女性的預(yù)測(cè),。公司分析團(tuán)隊(duì)查看了登記在嬰兒禮物登記簿上的女性消費(fèi)記錄,,發(fā)現(xiàn)這些準(zhǔn)媽媽會(huì)在懷孕第三個(gè)月左右的時(shí)候買很多無(wú)香乳液,之后還會(huì)陸續(xù)買些營(yíng)養(yǎng)品,,整個(gè)孕期大概能產(chǎn)生對(duì)20多種關(guān)聯(lián)物的需求,。通過(guò)這些關(guān)聯(lián)物,公司分析團(tuán)隊(duì)可以看出準(zhǔn)媽媽們的懷孕趨勢(shì),,甚至能夠據(jù)此準(zhǔn)確地推測(cè)出她們的預(yù)產(chǎn)期,,這樣就能夠在她們?cè)衅诘拿總€(gè)階段給她們寄送相應(yīng)的優(yōu)惠券,從而增加銷售額,。所以,,不論是追求相關(guān)關(guān)系,還是因果關(guān)系,,歸根結(jié)底都是看其能為主體提供什么樣的價(jià)值,,以及主體需要實(shí)現(xiàn)什么樣的價(jià)值。
4. 數(shù)據(jù)質(zhì)量:“清洗”后的數(shù)據(jù)更可靠
大數(shù)據(jù)時(shí)代,,人們關(guān)注的焦點(diǎn)是如何發(fā)揮數(shù)據(jù)的價(jià)值,,卻鮮有人關(guān)注數(shù)據(jù)質(zhì)量這個(gè)最根本的問(wèn)題。實(shí)際上,,大數(shù)據(jù)處理的關(guān)鍵是解決數(shù)據(jù)質(zhì)量問(wèn)題,。《大數(shù)據(jù)資產(chǎn):聰明的企業(yè)怎樣致勝于數(shù)據(jù)治理》一書的作者托尼·費(fèi)舍爾(Tony Fisher)曾提到:“如果基本數(shù)據(jù)不可靠,,大多數(shù)企業(yè)的大數(shù)據(jù)計(jì)劃要么會(huì)失敗,,要么效果會(huì)低于預(yù)期。造成上述結(jié)果的關(guān)鍵原因在于,,數(shù)據(jù)生命周期之中流入了不一致,、不準(zhǔn)確、不可靠的數(shù)據(jù),?!痹愀獾臄?shù)據(jù)質(zhì)量常常意味著糟糕的業(yè)務(wù)決策,將直接導(dǎo)致數(shù)據(jù)統(tǒng)計(jì)分析不準(zhǔn)確,、監(jiān)管業(yè)務(wù)難,、高層領(lǐng)導(dǎo)難以決策等問(wèn)題。據(jù)IBM統(tǒng)計(jì),,錯(cuò)誤或不完整的數(shù)據(jù)會(huì)導(dǎo)致業(yè)務(wù)系統(tǒng)不能正常發(fā)揮優(yōu)勢(shì)甚至失效,;數(shù)據(jù)分析員每天有30%的時(shí)間浪費(fèi)在辨別數(shù)據(jù)是否是“壞數(shù)據(jù)”上,;低劣的數(shù)據(jù)質(zhì)量嚴(yán)重降低了全球企業(yè)的年收入。因此,,只有規(guī)避數(shù)據(jù)錯(cuò)誤,、保障數(shù)據(jù)質(zhì)量,才能真正讓各數(shù)據(jù)使用方從大數(shù)據(jù)應(yīng)用中獲益,。
近年來(lái),,數(shù)據(jù)質(zhì)量管理應(yīng)運(yùn)而生。所謂數(shù)據(jù)質(zhì)量管理,,是指對(duì)在數(shù)據(jù)存在的各個(gè)周期中出現(xiàn)的一系列數(shù)據(jù)質(zhì)量問(wèn)題,,利用識(shí)別監(jiān)控等措施改善和提高數(shù)據(jù)質(zhì)量的管理水平。
其中,,數(shù)據(jù)清洗是數(shù)據(jù)質(zhì)量管理中重要的一環(huán),,主要是對(duì)數(shù)據(jù)進(jìn)行重新核驗(yàn),修正錯(cuò)誤數(shù)據(jù)和去除重復(fù)數(shù)據(jù),,通過(guò)過(guò)濾掉這些“臟數(shù)據(jù)”,,盡可能地使數(shù)據(jù)保持一致性和準(zhǔn)確性,提高數(shù)據(jù)質(zhì)量,。
關(guān)于數(shù)據(jù)質(zhì)量管理,,不同的主體有不同思路。曾有篇文章以古人治理黃河水患為例來(lái)說(shuō)明如何管理數(shù)據(jù)質(zhì)量,,令人印象深刻,。
文章提到,現(xiàn)在的數(shù)據(jù)集成融合就和古人筑堤壩一樣:古人筑堤壩是為了約束河水,,拓展人類的生存空間,;今人做數(shù)據(jù)集成融合是為了挖掘數(shù)據(jù)價(jià)值,拓展企業(yè)的生存空間,。古人提出:在修筑大堤前,,黃河“左右游蕩,,寬緩而不迫”,;筑堤后河道變窄,發(fā)生洪水時(shí)泄流不暢,,常決口為患,。如今的企業(yè)在信息化初期,各類業(yè)務(wù)系統(tǒng)恣意生長(zhǎng),,這個(gè)階段就像修筑大堤前的黃河雖然有問(wèn)題,,但是不明顯。后來(lái),,企業(yè)業(yè)務(wù)需求增長(zhǎng),,需要按照統(tǒng)一的架構(gòu)和標(biāo)準(zhǔn)把各類數(shù)據(jù)集成起來(lái),,這個(gè)階段就像筑堤束水之后的黃河,各種問(wèn)題撲面而來(lái),。古人治理黃河水患,,主要有兩種方式,一種是“疏通”,,另一種是“圍堵”,。數(shù)據(jù)質(zhì)量治理也可以借鑒古人“疏”與“堵”的智慧和考量?!笆琛本褪情_(kāi)展頂層設(shè)計(jì),,制定統(tǒng)一數(shù)據(jù)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn),,設(shè)計(jì)數(shù)據(jù)質(zhì)量的管理機(jī)制,,建立相應(yīng)的組織架構(gòu)和管理制度,采用分類處理的方式持續(xù)提升數(shù)據(jù)質(zhì)量,?!岸隆本褪且蕾嚰夹g(shù)手段,通過(guò)增加數(shù)據(jù)清洗處理邏輯的復(fù)雜度,,使用數(shù)據(jù)質(zhì)量工具來(lái)發(fā)現(xiàn)數(shù)據(jù)處理中的問(wèn)題,。
5. 數(shù)據(jù)反壟斷:避免數(shù)據(jù)孤島的新手段
在2018年12月25日舉行的新興科技中國(guó)全球峰會(huì)上,被譽(yù)為“互聯(lián)網(wǎng)之父”的麻省理工學(xué)院教授蒂姆·伯納斯·李發(fā)表了重要講話,。1991年,,他提出了互聯(lián)網(wǎng)的基石協(xié)議——超文本傳輸協(xié)議,并進(jìn)一步發(fā)明了互聯(lián)網(wǎng),。然而,,在此次會(huì)議上,“互聯(lián)網(wǎng)之父”對(duì)當(dāng)前的互聯(lián)網(wǎng)表示了失望,,稱“已經(jīng)失去了原有的精神,,需要破而后立”。
伯納斯·李指出,,互聯(lián)網(wǎng)的發(fā)展曾經(jīng)有一個(gè)非常重要的長(zhǎng)尾效應(yīng),。不同規(guī)模的企業(yè)都有自己的生存空間。但是今天,,長(zhǎng)尾效應(yīng)失敗了,。目前,互聯(lián)網(wǎng)世界的頭部效應(yīng)是明顯的,,一些網(wǎng)站占據(jù)了主導(dǎo)地位及大部分市場(chǎng)份額,。他指出,人類仍然面臨許多“數(shù)據(jù)孤島”。每個(gè)人都在互聯(lián)網(wǎng)上產(chǎn)生了很多數(shù)據(jù),,但是這些數(shù)據(jù)都在像Facebook這樣的大公司手里,,而且無(wú)法連接。這些孤立的“島嶼”不尊重個(gè)人,,令人沮喪,。互聯(lián)網(wǎng)誕生的初衷是人們可以在互聯(lián)網(wǎng)世界中形成一個(gè)“自由開(kāi)放的社區(qū)”來(lái)展示自己的個(gè)人想象力,。然而,,在目睹了一系列個(gè)人數(shù)據(jù)濫用丑聞后,他對(duì)互聯(lián)網(wǎng)的現(xiàn)狀感到失望,。
伯納斯·李對(duì)現(xiàn)在互聯(lián)網(wǎng)的不滿可以歸根于一個(gè)很時(shí)髦的詞——數(shù)據(jù)壟斷?,F(xiàn)在,人們提到數(shù)據(jù)壟斷,,主要形容“重要數(shù)據(jù)被控制在少數(shù)人手中,,并被不合理地分配和使用”的一種狀態(tài),而且主要針對(duì)互聯(lián)網(wǎng)巨頭企業(yè)而言,。其實(shí),,最早出現(xiàn)的“數(shù)據(jù)壟斷”一詞是針對(duì)政府的,與“數(shù)據(jù)民主”相對(duì)應(yīng),。近年來(lái),,美國(guó)、英國(guó),、澳大利亞,、新西蘭等國(guó)家相繼建立了政府?dāng)?shù)據(jù)門戶,將以前由政府擁有的公共數(shù)據(jù)推上互聯(lián)網(wǎng),,掀起了“數(shù)據(jù)民主化”的浪潮,。所謂數(shù)據(jù)民主化,是指將政府,、企業(yè)等所擁有的各類公共數(shù)據(jù)推上互聯(lián)網(wǎng),,允許任何人訪問(wèn)和下載。也就是說(shuō),,政府不應(yīng)該成為數(shù)據(jù)的壟斷者,,公民應(yīng)該擁有對(duì)數(shù)據(jù)的知情權(quán)、發(fā)言權(quán)和決策權(quán),。
在我國(guó),,“數(shù)據(jù)壟斷”一詞是伴隨著菜鳥和順豐事件而興起的。2017年“六一”兒童節(jié)期間,,菜鳥和順豐像兩個(gè)爭(zhēng)搶糖果的小孩子在網(wǎng)絡(luò)上隔空“掐架”:6月1日下午,菜鳥官微發(fā)出一則“菜鳥關(guān)于順豐暫停物流數(shù)據(jù)接口的聲明”,,稱順豐主動(dòng)關(guān)閉了豐巢自提柜(由深圳順豐投資有限公司控股的豐巢科技所提供的智能快遞自提柜)和淘寶平臺(tái)物流數(shù)據(jù)信息回傳,;隨后,,順豐回應(yīng)稱,菜鳥以安全為由單方面切斷了豐巢的信息接口,,并指責(zé)菜鳥索要豐巢的所有包裹信息(包括非淘系訂單),,認(rèn)為菜鳥有意讓其從騰訊云切換至阿里云。不過(guò),,監(jiān)管部門并沒(méi)有讓這場(chǎng)“掐架”持續(xù)多久,。在國(guó)家郵政局的調(diào)停下,6月3日12點(diǎn),,菜鳥和順豐握手言和,,全面恢復(fù)了業(yè)務(wù)合作和數(shù)據(jù)傳輸。
然而,,這場(chǎng)突如其來(lái)的鬧劇,,最后卻是由用戶和賣家買單。在菜鳥和順豐切斷數(shù)據(jù)接口后,,淘寶天貓的賣家無(wú)法通過(guò)后臺(tái)錄入順豐快遞單號(hào),,相當(dāng)一部分賣家受到影響。根據(jù)菜鳥網(wǎng)絡(luò)給出的說(shuō)法,,雙方發(fā)生爭(zhēng)執(zhí)后,,菜鳥收到了大量賣家和消費(fèi)者的詢問(wèn)。受影響的賣家擔(dān)心的是如果繼續(xù)采用順豐發(fā)貨,,可能造成財(cái)產(chǎn)損失,,也會(huì)引起買家集中投訴。但是,,由于順豐在冷鏈物流配送的速度上遙遙領(lǐng)先于其他民營(yíng)快遞公司,,要找到合適的替代者確實(shí)不容易。
菜鳥和順豐事件引起了全民熱議,。在輿論發(fā)展過(guò)程中,,討論越來(lái)越集中于數(shù)據(jù)方面,“數(shù)據(jù)壟斷”問(wèn)題被提了出來(lái),。不過(guò),,這里的對(duì)象不是政府,而是企業(yè),。
當(dāng)前,,關(guān)于數(shù)據(jù)壟斷沒(méi)有形成統(tǒng)一的定義。從數(shù)據(jù)占有角度來(lái)說(shuō),,數(shù)據(jù)壟斷是指獨(dú)占數(shù)據(jù),。但獨(dú)占數(shù)據(jù)本身并不違反《反壟斷法》,即使獨(dú)占的是海量數(shù)據(jù)。從數(shù)據(jù)流動(dòng)的角度來(lái)說(shuō),,數(shù)據(jù)壟斷意味著不共享數(shù)據(jù),。從個(gè)人信息保護(hù)角度來(lái)說(shuō),數(shù)據(jù)壟斷是指控制個(gè)人數(shù)據(jù),。從數(shù)據(jù)收益角度來(lái)說(shuō),,數(shù)據(jù)壟斷是指獨(dú)占數(shù)據(jù)收益。這些說(shuō)法都有各自的道理,,但是又都不完全準(zhǔn)確,。要構(gòu)成數(shù)據(jù)壟斷行為,至少應(yīng)該包括三個(gè)要素:一是數(shù)據(jù)可能造成進(jìn)入壁壘或擴(kuò)張壁壘,;二是擁有大數(shù)據(jù)形成市場(chǎng)支配地位并濫用,;三是因數(shù)據(jù)產(chǎn)品而形成市場(chǎng)支配地位并濫用。
2019年2月4日,,德國(guó)反壟斷機(jī)構(gòu)聯(lián)邦卡特爾局(Federal Cartel Office)采取行動(dòng)禁止德國(guó)境內(nèi)Facebook在未經(jīng)用戶同意的情況下收集某些類型的消費(fèi)者數(shù)據(jù),,指出其數(shù)據(jù)聚合行為是對(duì)其市場(chǎng)力量的濫用。聯(lián)邦卡特爾局一再?gòu)?qiáng)調(diào),,一方面,,除非用戶同意,否則Facebook不能將其擁有的WhatsApp或Instagram賬戶數(shù)據(jù)與其主要平臺(tái)上的其他賬戶予以關(guān)聯(lián),;另一方面,,對(duì)于從第三方網(wǎng)站收集其個(gè)人數(shù)據(jù)的情形,用戶同樣保有同意權(quán),。關(guān)于Facebook未來(lái)的數(shù)據(jù)處理政策,,聯(lián)邦卡特爾局正在引入Facebook數(shù)據(jù)的內(nèi)部剝離措施。與此同時(shí),, Facebook對(duì)這一裁決提出上訴,,認(rèn)為聯(lián)邦卡特爾局低估了其在德國(guó)面臨的激烈的競(jìng)爭(zhēng)環(huán)境,曲解了其GDPR合規(guī)狀態(tài),,而且破壞了歐洲法律引入的確保歐盟內(nèi)整體一致的數(shù)據(jù)保護(hù)標(biāo)準(zhǔn)的機(jī)制,。