摘 要: 不同于以往的滿意度模型中頭腦風(fēng)暴和問卷調(diào)研等手段建立指標(biāo)體系的思路,以大量掩埋和分布在各個(gè)網(wǎng)絡(luò)平臺中的評論信息為基礎(chǔ),,通過文本挖掘手段分析消費(fèi)者對筆記本電腦重點(diǎn)關(guān)注的角度和內(nèi)容,,確立評價(jià)指標(biāo)體系;基于Formell模型,,使用多元回歸方法,,建立了筆記本電腦滿意度模型。該研究過程基于消費(fèi)者的真實(shí)感受,,提煉出了消費(fèi)者對筆記本電腦最為關(guān)注的優(yōu)勢屬性和缺陷屬性,,幫助產(chǎn)品制造商全面、準(zhǔn)確地了解消費(fèi)者的需求和心理期望,。同時(shí),,滿意度模型有助于消費(fèi)者和制造商對筆記本電腦的滿意度進(jìn)行綜合測算,、比較和選擇。
關(guān)鍵詞: 網(wǎng)絡(luò)論壇,;文本挖掘;筆記本電腦,;滿意度
0 引言
當(dāng)前,,互聯(lián)網(wǎng)網(wǎng)站為數(shù)眾多的產(chǎn)品評論以及打分為消費(fèi)者相互交流提供了平臺。這些評價(jià)內(nèi)容豐富,,包含以往消費(fèi)者對該產(chǎn)品的情感傾向,,它們的存在將影響潛在買家所做出的購買決策。
在不受以往頭腦風(fēng)暴和傳統(tǒng)調(diào)查問卷結(jié)構(gòu)限制的環(huán)境下,,從自身出發(fā)的論壇消費(fèi)者評價(jià)有更強(qiáng)的主動性和真實(shí)性,,能夠全面深入地反映消費(fèi)者的真實(shí)感受。但數(shù)量眾多的評論與潛在消費(fèi)者有限的時(shí)間,、精力存在矛盾,,容易出現(xiàn)一葉障目的問題。這些信息運(yùn)用文本挖掘技術(shù)進(jìn)行處理和量化之后能夠更清晰地反映出消費(fèi)者對某產(chǎn)品的滿意程度和感情傾向,。
本文以筆記本電腦為對象,,嘗試基于網(wǎng)絡(luò)論壇文本挖掘的滿意度模型建立思路。
1 相關(guān)理論和研究
1.1 產(chǎn)品評論挖掘
產(chǎn)品評論挖掘通過對結(jié)果進(jìn)行分析,,用文本挖掘的方法將整理出的結(jié)果呈現(xiàn)給用戶和商家,。短短幾年間,無論是在英文還是在中文領(lǐng)域,,產(chǎn)品評論挖掘技術(shù)都取得了很大的進(jìn)步,。通過用戶隨意發(fā)表一段產(chǎn)品評論來表達(dá)對產(chǎn)品使用之后的看法,商家和購買者都可以輕易地從這些評論中獲取各自所需要的信息,。
通常情況下,,對產(chǎn)品評論挖掘的目的主要有兩點(diǎn):一是面向該產(chǎn)品的潛在購買者,使他們能夠快速,、準(zhǔn)確,、全面、及時(shí)地了解已經(jīng)購買該產(chǎn)品的消費(fèi)者的真實(shí)體驗(yàn)感受,,減少產(chǎn)品信息搜索成本,;二是面向產(chǎn)品的制造商,幫助其能夠全面,、準(zhǔn)確地了解消費(fèi)者的需求和心理期望,,使他們能夠有針對性地改進(jìn)產(chǎn)品并且設(shè)計(jì)新產(chǎn)品。
1.2 Fomell模型
1989年,,美國密歇根大學(xué)質(zhì)量研究中心的Fomell教授總結(jié)了理論研究的成果,,提出了把顧客期望,、購買過程中各種屬性影響等多方面因素組成了一個(gè)計(jì)量經(jīng)濟(jì)學(xué)邏輯模型,即Fomell邏輯模型,。該模型是迄今為止最成熟和運(yùn)用最廣泛的顧客滿意度指數(shù)理論,。
1.3 相關(guān)研究現(xiàn)狀
在國外,2002年是評論挖掘開始興起的一年,,TURNEY P[1]首先提出將語義傾向性應(yīng)用在非監(jiān)督的評論分類上,,并設(shè)計(jì)了一個(gè)簡單的算法,即將評論分為推薦和不推薦兩類,;2003年學(xué)者DAVE K,、LAWRENCE S、PENNOCK D對觀點(diǎn)抽取和語義分類進(jìn)行了系統(tǒng)研究[2],;ABRAHAMS A S等人和樊衛(wèi)國教授合作在2012年利用評論挖掘進(jìn)行汽車產(chǎn)品缺陷的發(fā)現(xiàn),,并建立相應(yīng)的決策支持系統(tǒng)[3],在實(shí)踐中取得較好效果,。
由于中文和英文的差異,,中文領(lǐng)域的評論挖掘剛剛起步。2007年,,評論挖掘以及句子的語義傾向性判別己經(jīng)成為很多學(xué)者的研究熱點(diǎn),;2011年,郗亞輝,、張明等學(xué)者[4]將產(chǎn)品評論挖掘劃分為4個(gè)子任務(wù),,介紹了國內(nèi)外學(xué)者對每個(gè)子任務(wù)的研究成果,并給出了該領(lǐng)域進(jìn)一步的研究方向,;2012年,,出現(xiàn)了一些產(chǎn)品評論挖掘的研究成果,如參考文獻(xiàn)[5],、[6]等,;2013年,結(jié)合微博的社會性特點(diǎn)構(gòu)建的微博產(chǎn)品評論挖掘模型[7]出現(xiàn),。
2 領(lǐng)域特征詞匯提取
2.1 筆記本電腦領(lǐng)域文本選取
讀取來自于互聯(lián)網(wǎng)的約200篇筆記本領(lǐng)域相關(guān)文本,,大致為筆記本廣告和筆記本新聞,這兩類文本多為筆記本電腦公司官方或者分銷商為介紹其產(chǎn)品而對其進(jìn)行的描述,,因此這類文章中有大量屬性詞匯以及描述性詞匯,;再者這類文本的長度一般比較長,適合統(tǒng)計(jì)詞頻,,獲取筆記本電腦領(lǐng)域特有屬性詞匯,,所以從以上文本中事先做出重點(diǎn)特征詞匯的抽取是后面研究的基礎(chǔ)。
2.2 筆記本電腦領(lǐng)域重點(diǎn)特征詞匯提取
領(lǐng)域內(nèi)的特殊屬性詞匯在評論中出現(xiàn)的頻率較高,,表達(dá)的意思也比較重要,,具體詞匯獲取辦法和步驟是:(1)把從互聯(lián)網(wǎng)上獲取的文本轉(zhuǎn)換整理為文本格式,;(2)對每一個(gè)文本利用軟件ROST Content Mining進(jìn)行分詞處理以及詞頻統(tǒng)計(jì);(3)設(shè)置一個(gè)閾值,,將符合條件的詞匯提取出來,。
經(jīng)過提取,共有86個(gè)高頻詞匯進(jìn)入筆記本領(lǐng)域產(chǎn)品屬性詞匯表,,根據(jù)字母排序如表1所示,。
3 筆記本電腦評論挖掘過程
3.1 挖掘?qū)ο筮x取
在進(jìn)行筆記本電腦評論挖掘之前,首先要明確大部分評論的構(gòu)成要素以及所要挖掘的重點(diǎn)要素,,這些要素直接決定了應(yīng)該關(guān)注評論中的哪些內(nèi)容。評論內(nèi)容的存在形式?jīng)Q定著最后進(jìn)行數(shù)據(jù)分析時(shí)所采用的數(shù)學(xué)模型和方法,。
在實(shí)際的評論挖掘工作中,,默認(rèn)一條完整的產(chǎn)品評論需要包含6個(gè)要素:誰,、評論時(shí)間、在哪里評論,、所針對的產(chǎn)品、具體針對哪個(gè)屬性和評分,。所以筆記本電腦產(chǎn)品評論的抽取對象包含:(1)意見表達(dá)者(人或組織),;(2)意見表達(dá)時(shí)間(包括評論的原始發(fā)表時(shí)間和評論的更新時(shí)間);(3)意見表達(dá)空間(諸如網(wǎng)絡(luò)論壇,、討論組,、專業(yè)評論網(wǎng)站等);(4)產(chǎn)品名稱(品牌,、型號),;(5)產(chǎn)品屬性;(6)評分,。
3.2 筆記本電腦評論的網(wǎng)頁抓取
3.2.1 評論抓取方式和范圍
大量可用的評論意見零散地分布在各個(gè)網(wǎng)頁中,,因此利用爬蟲程序識別評論信息并抓取評論網(wǎng)頁。由于筆記本電腦有較快的更新速度,,不能對所有頁面都進(jìn)行抓取,,因此人為設(shè)定抓取時(shí)間為2012年8月至2013年3月,抓取空間為點(diǎn)評狂,、太平洋電腦評價(jià)網(wǎng)站和中關(guān)村筆記本論壇,,抓取品牌為Sony和ThinkPad。
3.2.2 數(shù)據(jù)庫設(shè)計(jì)
為抓取信息存儲,,設(shè)計(jì)原始網(wǎng)頁數(shù)據(jù)庫和抽取信息數(shù)據(jù)庫,。其中,原始網(wǎng)頁數(shù)據(jù)庫是網(wǎng)頁原封不動的信息存儲,,而抽取信息數(shù)據(jù)庫則是用來存儲抽取之后的重要信息,。抓取步驟如下:
?。?)設(shè)計(jì)原始網(wǎng)頁數(shù)據(jù)庫,包括URL,、評論者,、評論時(shí)間、機(jī)型,、優(yōu)點(diǎn),、缺點(diǎn)、評分,、價(jià)格,。
(2)在原始網(wǎng)頁數(shù)據(jù)庫基礎(chǔ)上對重點(diǎn)名詞和形容詞進(jìn)行抽取后,,存儲于抽取信息數(shù)據(jù)庫,,包括了URL、評論者,、評論時(shí)間,、機(jī)型、優(yōu)點(diǎn)屬性,、缺點(diǎn)屬性,、其他、評分,、價(jià)格,。
(3)根據(jù)以上兩步數(shù)據(jù)庫中存儲的信息以及筆記本電腦領(lǐng)域特殊詞匯,,通過數(shù)據(jù)庫的查找篩選功能統(tǒng)計(jì)出各個(gè)詞頻,。
3.3 評論挖掘結(jié)果分析
將筆記本電腦屬性作為此次評論挖掘的重要研究對象之一,在整個(gè)研究中有重要作用,。通常從商家角度概括筆記本電腦性能特點(diǎn)及優(yōu)勢,,但從消費(fèi)者的個(gè)人傾向出發(fā)來看待該筆記本電腦的屬性能反映廣大消費(fèi)者對該筆記本電腦的心理期望才是本文研究的重點(diǎn)。
為了方便研究,,將筆記本電腦屬性分為內(nèi)在屬性,、外在屬性和抽象屬性三類。內(nèi)在屬性包括筆記本電腦樣式,、大小,、重量以及硬件等性質(zhì);外在屬性包括包裝,、價(jià)格,、相關(guān)服務(wù)等;抽象屬性是通過使用之后由于不同消費(fèi)者的不同感受而引起的,即所謂的情感傾向,。
抽取的評論詞根據(jù)英文字母排序,,存在大量不同的詞語表達(dá)著相同意思的情況,例如“價(jià)錢,、價(jià)格,、費(fèi)用”和“電池、電源”,。因此,,將所有屬性按內(nèi)在屬性、外在屬性和抽象屬性進(jìn)行重新分類,,并且將內(nèi)在屬性繼續(xù)分為筆記本電腦硬件類屬性和外觀類屬性,,如表2所示。
根據(jù)表2所示的筆記本電腦屬性分類進(jìn)行詞頻抽取,,具體原則是:對某個(gè)產(chǎn)品出現(xiàn)了哪些特征屬性,,是褒還是貶,出現(xiàn)頻次分別為多少,;在匯總的屬性當(dāng)中,消費(fèi)者更關(guān)心哪些屬性,;對于同一條評論,,消費(fèi)者更關(guān)心哪些屬性,消費(fèi)者關(guān)注的屬性之間是否有聯(lián)系,?;谝陨蠋c(diǎn)考慮,將86個(gè)高頻詞匯再次概括為45個(gè)具體屬性,,并對出現(xiàn)頻次進(jìn)行了合并統(tǒng)計(jì),,統(tǒng)計(jì)結(jié)果將在之后的頻數(shù)分析中進(jìn)行詳細(xì)說明。
詞頻權(quán)值法是根據(jù)詞在文檔中出現(xiàn)的頻率來確定其重要程度的一種加權(quán)方法,,即wk=fk,,其中fk為特征項(xiàng)出現(xiàn)的詞頻。wk的計(jì)算公式如式(1)所示,,其中,,nt表示屬性在所有的評論中出現(xiàn)的次數(shù)。
將嚴(yán)格分類后的45個(gè)屬性進(jìn)行詞頻測試,,每一種屬性的具體權(quán)重如表3所示,。
從表3可以看出,消費(fèi)者在市面購買筆記本電腦和使用過程中,,對于顯示屏和鍵盤此類屬性的關(guān)注度遠(yuǎn)遠(yuǎn)超過了市面上銷售人員在介紹筆記本時(shí)所用的處理器,、網(wǎng)卡、內(nèi)存等屬性,。對于普通消費(fèi)者來說,,顯示屏分辨率大小,、鍵盤舒適程度以及電池的續(xù)航能力等帶有直觀感受的筆記本電腦屬性更容易影響消費(fèi)者的購買傾向。與臺式機(jī)相比,,筆記本電腦最大的特點(diǎn)就是便于攜帶,,所以筆記本電腦的重量在外觀類屬性中遠(yuǎn)遠(yuǎn)高于設(shè)計(jì)風(fēng)格。對于外在屬性來說,,用途屬性主要是以商務(wù),、辦公、游戲等形容詞為基礎(chǔ)進(jìn)行統(tǒng)計(jì),,而服務(wù)質(zhì)量包括了在購買時(shí)的服務(wù)態(tài)度,、售后服務(wù)是否到位等。從表3可以看出,,筆記本電腦的用途,、價(jià)格屬性遠(yuǎn)遠(yuǎn)高于其他屬性,可以反映出人們在購買筆記本電腦的過程中性價(jià)比始終是一個(gè)至關(guān)重要的影響因素,。
消費(fèi)者對性能方面和硬件方面的屬性關(guān)注度普遍高于一些外在屬性,,說明大部分顧客還是更看重筆記本電腦的內(nèi)在品質(zhì)。在硬件屬性和外觀屬性中,,前5項(xiàng)所占比例雖有不同,,但差距并不大。相比之下,,對于外在屬性,,消費(fèi)者似乎對于價(jià)格和用途的關(guān)注遠(yuǎn)遠(yuǎn)高于其他外在屬性,同時(shí)對一些直觀方面的屬性(例如電池持續(xù)能力,、散熱能力以及顯示屏分辨率能力等)關(guān)注度遠(yuǎn)遠(yuǎn)超過一些常規(guī)屬性,。畢竟對于廣大非專業(yè)消費(fèi)者來說,其并不了解筆記本電腦的相關(guān)硬件知識,,而市面上通常的宣傳資料以及經(jīng)銷商在為顧客講解時(shí)卻時(shí)常側(cè)重于其硬件配置等方面,。通過以上頻數(shù)分析,建議銷售人員在介紹其新產(chǎn)品時(shí)關(guān)注的方向可以側(cè)重于消費(fèi)者能夠直觀感受到的一些功能屬性,。
4 筆記本電腦滿意度模型建立
評論中包含的屬性數(shù)量和屬性特征自然是該筆記本電腦是否符合消費(fèi)者心理的一個(gè)重要因素,,評價(jià)屬性數(shù)量尤其是優(yōu)勢屬性數(shù)越多,表明該產(chǎn)品的滿意度越高,。再者,,通過消費(fèi)者對于不同屬性的關(guān)注度的區(qū)別,不同屬性對于影響筆記本電腦滿意度的權(quán)重也勢必不同,。
Formell模型主要是通過顧客對質(zhì)量,、價(jià)值的感知,顧客忠誠,顧客抱怨進(jìn)行多元回歸分析,。而根據(jù)實(shí)際研究情況,,本文選擇了直接將所有感受即所收集的評價(jià)分為優(yōu)點(diǎn)和缺點(diǎn),利用優(yōu)缺點(diǎn)出現(xiàn)的次數(shù)和相應(yīng)評分的回歸模型與第一部分中相關(guān)屬性在整個(gè)評價(jià)中所占權(quán)重建立筆記本電腦滿意度模型,。
首先進(jìn)行優(yōu)勢屬性回歸,。如表4所示,首先提取出根據(jù)權(quán)值模型計(jì)算出的整個(gè)評價(jià)中權(quán)值最大的10個(gè)屬性,;然后根據(jù)所抽取的評價(jià)信息,,如果該評價(jià)中出現(xiàn)了首行所示的屬性,則記為1,,否則為0,;之后在最后一列中提取出該評價(jià)的評論者在網(wǎng)上或論壇上所給出的評分。在做滿意度評價(jià)時(shí),,統(tǒng)一把評分設(shè)定成以10為標(biāo)準(zhǔn),。根據(jù)以上規(guī)則整理好評價(jià),進(jìn)行評分以及各屬性的回歸分析,,如表5所示,。
筆記本電腦優(yōu)點(diǎn)滿意度回歸=4.28+1.46×重量+1.00×外觀+0.88×散熱+0.58×鍵盤+0.89×屏幕+1.04×顏色+2.28×開機(jī)+1.29×價(jià)格+1.37×電池+1.70×系統(tǒng)。
根據(jù)之前的分析得出,,每一種筆記本電腦優(yōu)勢屬性的權(quán)重有著很大的差別,,從而在進(jìn)行優(yōu)點(diǎn)回歸之后乘以相應(yīng)的屬性權(quán)值即為優(yōu)點(diǎn)回歸模型,記為:
同理,,用相同的方法可以得到筆記本電腦缺陷模型。首先根據(jù)權(quán)重評價(jià)模型中對出現(xiàn)的筆記本電腦缺點(diǎn)的統(tǒng)計(jì),,抽取出12個(gè)出現(xiàn)頻數(shù)較高的屬性并做出布爾統(tǒng)計(jì)矩陣,,結(jié)果如表6所示。
之后利用評分以及屬性進(jìn)行回歸分析得出回歸分析系數(shù),,結(jié)果如表7所示,。
從而得出消費(fèi)者對于筆記本電腦缺陷的抱怨程度模型= -(8.13+0.58×電池+1.61×開機(jī)+0.32×散熱+1.35×系統(tǒng)+0.80×屏幕+0.65×硬盤+0.41×價(jià)格+0.39×鍵盤+1.62×接口+1.21×速度+1.29×聲音+0.89×自帶軟件)
從標(biāo)準(zhǔn)回歸方程可以看出,影響筆記本電腦顧客滿意度的因素即為筆記本電腦的重點(diǎn)屬性,,包括由筆記本硬件屬性,、內(nèi)在外在屬性以及它們每種屬性在之前詞頻模型中所占的權(quán)重。
5 結(jié)論
本文基于產(chǎn)品評論挖掘理論,、Fomell模型,,使用文本挖掘、多元回歸,、數(shù)據(jù)庫等方法和技術(shù),,完成了筆記本電腦領(lǐng)域特征詞匯的提取、產(chǎn)品評論的挖掘、滿意度評價(jià)模型的建立三項(xiàng)工作,。本文研究思路不同于以往的頭腦風(fēng)暴,、問卷調(diào)研、AHP等建立評價(jià)指標(biāo)體系的思路,,充分利用了網(wǎng)絡(luò)論壇上豐富的消費(fèi)者評論信息,,提取和挖掘消費(fèi)者最真實(shí)的產(chǎn)品使用體驗(yàn)來建立指標(biāo)體系和滿意度模型,研究成果對消費(fèi)者和產(chǎn)品制造商有參考借鑒意義,。
參考文獻(xiàn)
[1] TURNEY P. Thumbs up or thumbs down semantic orientation applied to unsupervised classification of reviews[J]. Proceedings of the Association of Computational Linguistics(ACL02),, Philadelphia, 2002: 417-424.
[2] DAVE K,, LAWRENCE S,, PENNOCK D M. Mining the peanut gallery: opinion extraction and semantic classification of product reviews[C]. Proceedings of the 12th International Conference on World Wide Web, New York,, 2003:519-528.
[3] ABRAHAMS A S,, Jiao Jian, WANG G A,, et al. Vehicle defect discovery from social media[J]. Decision Support Systems,, 2012(54): 87-97.
[4] 郗亞輝,張明,,袁方,,等.產(chǎn)品評論挖掘研究綜述[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2011,,46(5):16-23,,38.
[5] 易力,王麗亞.基于觀點(diǎn)挖掘的產(chǎn)品可用性建模與評價(jià)[J].計(jì)算機(jī)工程,,2012,,38(16):270-274.
[6] 李芳,何婷婷,,宋樂,,等.評價(jià)主題挖掘及其傾向性識別[J].計(jì)算機(jī)科學(xué),2012,,39(6):159-162.
[7] 唐曉波,,王洪艷.微博產(chǎn)品評論挖掘模型研究[J].情報(bào)雜志,2013,,32(2):107-111,,127.