文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.191367
中文引用格式: 李海磊,,楊文忠,,李東昊,,等. 基于特征融合的K-means微博話(huà)題發(fā)現(xiàn)模型[J].電子技術(shù)應(yīng)用,2020,,46(4):24-28,,33.
英文引用格式: Li Hailei,Yang Wenzhong,,Li Donghao,,et al. K-means Weibo topic discovery model based on feature fusion[J]. Application of Electronic Technique,2020,,46(4):24-28,33.
0 引言
根據(jù)CNNIC《中國(guó)互聯(lián)網(wǎng)信息中心》的第43次中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告,,截至2018年12月,我國(guó)網(wǎng)民規(guī)模達(dá)8.29億,,普及率達(dá)59.6%[1],。隨著互聯(lián)網(wǎng)和智能手機(jī)技術(shù)的快速發(fā)展,每個(gè)人都成為了信息的制造者,、傳播者和分享者,。作為社交娛樂(lè)、新聞來(lái)源和信息傳播的主要渠道之一,,微博已經(jīng)成為越來(lái)越受歡迎的平臺(tái),,微博的用戶(hù)群體龐大,每天都產(chǎn)生海量的數(shù)據(jù),,相比傳統(tǒng)的媒體(如報(bào)刊,、電視、廣播),人們可以在微博上及時(shí)獲得社會(huì)上的熱點(diǎn)話(huà)題,,因此,,吸引了大量的研究者進(jìn)行研究,并取得了大量的研究成果,。對(duì)于熱點(diǎn)話(huà)題的研究不僅可以幫助政府發(fā)現(xiàn)網(wǎng)絡(luò)輿情并監(jiān)管網(wǎng)絡(luò)輿情的走向,;還可以幫助企業(yè)了解消費(fèi)者的需求,及時(shí)調(diào)整公司的營(yíng)銷(xiāo)戰(zhàn)略,;還可以幫助用戶(hù)更好地提升閱讀的體驗(yàn),,及時(shí)了解國(guó)家大事、社會(huì)熱點(diǎn)事件,。因此,,對(duì)微博的話(huà)題發(fā)現(xiàn)進(jìn)行研究具有重要的意義。
1 國(guó)內(nèi)外研究現(xiàn)狀
TDT(Topic Detection and Tracking)是美國(guó)國(guó)際高級(jí)研究計(jì)劃局(DARPA)發(fā)起倡議的,,主要用于在新聞報(bào)道流中發(fā)現(xiàn)和跟蹤新事件,。傳統(tǒng)的話(huà)題檢測(cè)技術(shù)在長(zhǎng)文本中可以得到很好的結(jié)果,但是在微博短文本中很難得到好的效果,。這是由于微博短文本的稀疏性問(wèn)題,,以及網(wǎng)絡(luò)用語(yǔ)不規(guī)范化、口語(yǔ)化嚴(yán)重,,且文本中包含表情符號(hào),、圖片、視頻,,這給微博話(huà)題的發(fā)現(xiàn)帶來(lái)了極大的挑戰(zhàn),。
TDT的核心思想是將類(lèi)似的文檔聚集在一起形成主題。針對(duì)微博短文本熱點(diǎn)話(huà)題發(fā)現(xiàn)的方法主要有以下3種:基于統(tǒng)計(jì)分析,、學(xué)習(xí)模型分析和改進(jìn)相似度度量的方法,。基于統(tǒng)計(jì)分析的方法中,,研究者們認(rèn)為在微博平臺(tái)上,,熱點(diǎn)事件往往在短時(shí)間內(nèi)引起很多人的關(guān)注,會(huì)導(dǎo)致大量的評(píng)論和轉(zhuǎn)發(fā)信息,。根據(jù)這一特征,,學(xué)者們統(tǒng)計(jì)給定時(shí)間內(nèi)話(huà)題關(guān)鍵詞出現(xiàn)的頻率來(lái)檢測(cè)熱點(diǎn)話(huà)題。文獻(xiàn)[2]中Zheng Jun 等提出了一種通過(guò)劃分時(shí)間窗,,并根據(jù)每個(gè)時(shí)間窗中微博數(shù)據(jù)詞頻增長(zhǎng)率和相對(duì)詞頻的兩個(gè)因素提取微博數(shù)據(jù)的主題詞,,從而聚類(lèi)得到熱點(diǎn)話(huà)題的方法。文獻(xiàn)[3]中BENNY A通過(guò)使用特定的關(guān)鍵字收集tweet,,然后對(duì)其進(jìn)行匯總以找出與該關(guān)鍵字相關(guān)的主題,。文獻(xiàn)[4]中張雪松等針對(duì)傳統(tǒng)文本聚類(lèi)方法忽略詞之間的語(yǔ)義關(guān)系問(wèn)題,,提出了一種基于頻繁詞集的文本聚類(lèi)方法,得到更好的聚類(lèi)效果,。
在基于學(xué)習(xí)模型分析的方法中,,主要是通過(guò)對(duì)傳統(tǒng)的LDA主題模型的改進(jìn)來(lái)挖掘潛在主題進(jìn)行熱點(diǎn)話(huà)題檢測(cè)。文獻(xiàn)[5]中LIU G提出了將微博的時(shí)間屬性和標(biāo)簽屬性引入到LDA模型中的多屬性潛在狄利克雷分配(MA-LDA)模型,。文獻(xiàn)[6]石磊等提出一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)和主題模型的突發(fā)話(huà)題發(fā)現(xiàn)(RTM-SBTD)方法,,結(jié)果表明所提出的方法在多種評(píng)價(jià)指標(biāo)上優(yōu)于對(duì)比方法。文獻(xiàn)[7]中車(chē)?yán)偬岢隽艘环N多特征融合文本聚類(lèi)方法,,來(lái)發(fā)現(xiàn)新聞話(huà)題,。文獻(xiàn)[8]中曾祥坤等提出了一種文本主題提取模型和技術(shù),解決以往交通事故統(tǒng)計(jì)中交通違法行為難以挖掘的問(wèn)題,,以實(shí)例驗(yàn)證了該模型的有效性,。
基于改進(jìn)相似度度量的方法中,研究者們運(yùn)用不同的方法以得到更好的結(jié)果,。文獻(xiàn)[9]中ZHAO Y等針對(duì)傳統(tǒng)新聞話(huà)題檢測(cè)忽略其他屬性的問(wèn)題,提出了將文本與時(shí)間相似度結(jié)合起來(lái)的熱點(diǎn)話(huà)題檢測(cè)方法,。文獻(xiàn)[10]中黃建一提出了一種基于上下文相似度矩陣的Single-Pass短文本聚類(lèi)方法,。文獻(xiàn)[11]中李勇等針對(duì)現(xiàn)有話(huà)題檢測(cè)技術(shù)的不足,利用VSM和LDA模型對(duì)微博文本數(shù)據(jù)進(jìn)行混合建模,,融合微博社會(huì)關(guān)系,,提出了SPWSR聚類(lèi)算法進(jìn)行熱點(diǎn)話(huà)題發(fā)現(xiàn)。文獻(xiàn)[12]中MA R等人提出一種結(jié)合過(guò)濾數(shù)據(jù)和基于特征詞的文本相似度改進(jìn)的方法,,提高了聚類(lèi)的精度,。文獻(xiàn)[13]中李征提出了一種基于改進(jìn)文本相似度計(jì)算的聚類(lèi)方法,并且得到了很好的效果,。
綜上前3種微博話(huà)題的檢測(cè)研究雖然在一定程度上提高了話(huà)題發(fā)現(xiàn)的準(zhǔn)確性,,但是未能很好地解決微博短文本存在的高維稀疏的缺陷。因此,,本文在現(xiàn)有的研究基礎(chǔ)上,,根據(jù)微博短文本的特點(diǎn),提出了一種特征融合的文本表示方法,。首先,,對(duì)微博文本數(shù)據(jù)集進(jìn)行預(yù)處理,然后使用基于詞對(duì)的向量空間模型(Biterm_VSM)代替?zhèn)鹘y(tǒng)的向量空間模型對(duì)文本進(jìn)行建模,;同時(shí)為減少后面聚類(lèi)過(guò)程中語(yǔ)言二義性對(duì)聚類(lèi)準(zhǔn)確度產(chǎn)生的影響,,本文引入LDA主題模型對(duì)微博文本進(jìn)行建模,利用主題模型的優(yōu)點(diǎn)挖掘出微博短文本中潛在的語(yǔ)義知識(shí),。最后結(jié)合詞對(duì)向量空間模型和LDA主題模型,,將基于統(tǒng)計(jì)的方法和基于學(xué)習(xí)模型的方法融合為一體,,達(dá)到提高微博短文本聚類(lèi)質(zhì)量的目的。分析了常用的幾種聚類(lèi)算法的特點(diǎn)后,,本文選擇了劃分聚類(lèi)算法的經(jīng)典模型K-means算法,,并且把上一步得到的融合特征輸入到K-means聚類(lèi)算法中,進(jìn)行微博話(huà)題聚類(lèi),。
2 相關(guān)介紹
為解決傳統(tǒng)的話(huà)題檢測(cè)方法在微博短文本上存在的缺陷,,文中使用詞對(duì)向量空間模型(Biterm_VSM)來(lái)替代傳統(tǒng)的向量空間模型(VSM),并與LDA主題模型進(jìn)行結(jié)合,,更好地進(jìn)行話(huà)題發(fā)現(xiàn),。
2.1 詞對(duì)向量空間的基本概念
在一句文本中,往往僅用少量的詞就可以充分地表示這個(gè)句子的語(yǔ)義,,因此考慮使用多個(gè)詞作為一個(gè)文本的基本單元,,但是同時(shí)帶來(lái)的是高維度,使得模型過(guò)于復(fù)雜[14],。所以本文使用在一句文本中共現(xiàn)的詞對(duì)作為文本表示的基本單位,。
這個(gè)文本預(yù)處理之后為“重慶|ns路|n公交車(chē)|n人|n爭(zhēng)執(zhí)|v秒|n互毆|v個(gè)人|n錯(cuò)過(guò)|v站|n錯(cuò)過(guò)|v后半生|n愿|v逝者|n安息|v”。這個(gè)文本產(chǎn)生的詞對(duì)集合為{(重慶,,路),,(重慶,公交車(chē)),,…,,(逝者,安息)},。由于數(shù)據(jù)集中的詞對(duì)比詞在文本中出現(xiàn)的頻率要低,,因此其權(quán)重不使用詞對(duì)的詞頻-逆文檔頻率值(Vtf-idf)來(lái)表示,而是由詞對(duì)中兩個(gè)詞的Vtf-idf的和來(lái)表示:
2.2 LDA基本概念
話(huà)題發(fā)現(xiàn)模型應(yīng)用最廣泛的是基于詞袋理論的層次貝葉斯模型-隱含狄利克雷分布監(jiān)督話(huà)題模型LDA,,它可以計(jì)算出每篇文檔的主題概率分布[15-16],。在LDA主題模型中假設(shè)文檔是多個(gè)潛在隱含主題上的混合分布,文檔中的詞語(yǔ)屬于各個(gè)主題,。LDA概率模型圖如圖1所示,。
2.3 文本聚類(lèi)算法介紹
文本聚類(lèi)的主要算法有6種[7],分別為基于層次的,、基于密度的,、基于網(wǎng)格的、基于模型的,、基于圖論的和基于劃分的聚類(lèi)算法,。層次聚類(lèi)算法是通過(guò)對(duì)數(shù)據(jù)集合按照某種指定的方式進(jìn)行層次劃分,直到滿(mǎn)足某種收斂或者滿(mǎn)足某種符合的條件時(shí)算法停止,,層次聚類(lèi)算法分為凝聚式層次聚類(lèi)和分裂式層次聚類(lèi),;基于密度的算法是基于密度的,,不同于其他的聚類(lèi)算法是基于不同距離計(jì)算方式計(jì)算數(shù)據(jù)對(duì)象之間的距離,克服了基于距離算法只能發(fā)現(xiàn)一定距離內(nèi)的類(lèi)簇的局限性,;基于網(wǎng)格的算法是通過(guò)將數(shù)據(jù)空間形成有限的數(shù)目的網(wǎng)格單元,,然后在這些網(wǎng)格單元中進(jìn)行聚類(lèi)運(yùn)算;基于模型的算法是對(duì)數(shù)據(jù)建立數(shù)學(xué)模型,,并將數(shù)據(jù)集合與該模型進(jìn)行擬合,;基于圖論的聚類(lèi)方法通過(guò)對(duì)樣本數(shù)據(jù)的拉普拉斯矩陣的特征向量進(jìn)行聚類(lèi),從而達(dá)到對(duì)樣本數(shù)據(jù)聚類(lèi)的目的,;基于劃分的算法是首先將數(shù)據(jù)分為K組,,通過(guò)迭代的方法將數(shù)據(jù)劃分到不同的分組中,使得最終的分組滿(mǎn)足一定的條件,,類(lèi)簇間達(dá)到最大距離,,類(lèi)簇內(nèi)達(dá)到最小距離。
3 基于特征融合的微博話(huà)題發(fā)現(xiàn)模型
3.1 基本流程
本文方法的基本流程如圖2所示,,主要包括數(shù)據(jù)采集,、數(shù)據(jù)預(yù)處理、文本建模,、計(jì)算相似度,、基于K-means算法進(jìn)行文本聚類(lèi)、聚類(lèi)得到相應(yīng)的微博話(huà)題,。其中,文本建模過(guò)程包括:Biterm_VSM特征詞建模,、LDA的主題建模,。計(jì)算相似度包括:計(jì)算基于詞對(duì)特征值的文本相似度、計(jì)算基于主題的文本相似度,。
3.2 特征融合的文本相似度計(jì)算
在本文中,,確定文本相似度是進(jìn)行下面文本聚類(lèi)分析的關(guān)鍵一步。本文采用線(xiàn)性組合的方式將基于TF-IDF的詞對(duì)向量空間模型和基于LDA主題模型結(jié)合,,得到文本相似度,,即本文的特征融合文本相似度。
線(xiàn)性結(jié)合的公式如式(5)所示:
式中,,simBiterm_vsm(d1,,d2)為兩個(gè)文本間詞對(duì)向量空間模型的文本相似度,simLDA(d1,,d2)為兩個(gè)文本間主題向量空間模型的文本相似度,。
3.2.1 詞對(duì)向量空間模型文本相似度計(jì)算
不同的模型需要用不同的相似度計(jì)算方法,采用詞對(duì)的標(biāo)準(zhǔn)化TF-IDF值來(lái)衡量詞對(duì)向量空間模型中的文本,,采用歐氏距離來(lái)計(jì)算文本的相似度,。
計(jì)算公式如式(6)所示:
其中,,t1和t2分別為兩個(gè)文本,xi為文本t1的第i個(gè)特征向量,,yi為文本t2的第i個(gè)特征向量,。
在詞對(duì)向量空間模型中,文本向量的每個(gè)特征向量(詞對(duì))W的計(jì)算公式是式(1),。
3.2.2 主題向量空間模型文本相似度計(jì)算
采用服從Dirichlet分布的主題概率向量來(lái)表示LDA主題模型中的文本,,同樣采用歐氏距離來(lái)計(jì)算文本的相似度,公式如式(7)所示:
其中,,p和q為兩個(gè)文本的主題概率分布,,ai和bi為兩個(gè)文本中主題θi的概率分布。
3.3 特征融合的文本聚類(lèi)算法
本文聚類(lèi)算法采用的是經(jīng)典算法K-means算法[18],,該算法思想簡(jiǎn)單,,易于實(shí)現(xiàn),可以快速有效地處理大規(guī)模數(shù)據(jù),。
K-means聚類(lèi)算法的基本思想如下:
輸入:簇?cái)?shù)目K,,特征融合的文本向量矩陣
輸出:簇的集合D
步驟:
(1)從集合D中隨機(jī)選擇K個(gè)數(shù)據(jù)點(diǎn)作為話(huà)題簇的初始聚類(lèi)中心點(diǎn);
(2)計(jì)算每個(gè)微博向量與聚類(lèi)中心點(diǎn)的距離,,并將該微博向量分配到最近的中心點(diǎn),;
(3)重新計(jì)算K個(gè)簇的聚類(lèi)中心并更新;
(4)重復(fù)上面的2個(gè)過(guò)程,,直到話(huà)題簇的中心點(diǎn)不再變化,,或者達(dá)到收斂的條件停止算法;
(5)輸出聚類(lèi)簇的結(jié)果,。
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)環(huán)境
本文的實(shí)驗(yàn)是利用PyCharm平臺(tái)下的Python語(yǔ)言實(shí)現(xiàn)的,。所有實(shí)驗(yàn)均在一臺(tái)操作系統(tǒng)為64位的Windows 10家庭中文版的Lenovo臺(tái)式電腦上,處理器為Inter CoreTM i7-7700 [email protected] GHz 3.60 GHz,,內(nèi)存為8 GB,。
4.2 實(shí)驗(yàn)數(shù)據(jù)
通過(guò)使用八爪魚(yú)爬蟲(chóng)工具,采用關(guān)鍵詞爬取的方式采集2018年10月29日-2018年11月4日期間的12個(gè)新浪微博的話(huà)題數(shù)據(jù)共11 289條,。
為了提高后續(xù)聚類(lèi)檢測(cè)的速度和準(zhǔn)確率,,應(yīng)該盡可能剔除垃圾數(shù)據(jù),并在分詞之前過(guò)濾掉微博文本中的無(wú)用信息,。
(1)微博賬號(hào)中有一些“僵尸賬號(hào)”,。這些微博用戶(hù)發(fā)布的微博數(shù)很少,粉絲也很少,,有些甚至接近于0,。
(2)“@用戶(hù)”等信息具有主題的指向性或用戶(hù)對(duì)話(huà)。這種對(duì)話(huà)是一般性的,,與熱門(mén)話(huà)題無(wú)關(guān),。根據(jù)一些官方微博和大V,,眾所周知,微博的熱門(mén)話(huà)題很少涉及特定的用戶(hù),。因此,,應(yīng)該去掉“@用戶(hù)”以提高檢測(cè)的準(zhǔn)確性。
(3)按照上述的步驟對(duì)微博文本進(jìn)行處理后,,采用Jieba分詞工具對(duì)文本進(jìn)行分詞,。Jieba分詞是Python語(yǔ)言的一個(gè)中文分詞包,不僅可以分詞,,還可以進(jìn)行詞性標(biāo)注,,不同的詞性在語(yǔ)篇中起著不同的作用。主題的表達(dá)和關(guān)鍵功能的識(shí)別是動(dòng)詞,、名詞,。形容詞、介詞,、虛詞和數(shù)字等表達(dá)效果要低得多,。因此,要保留動(dòng)詞,、名詞,、地名詞,其余的詞均刪除,,可以使得文本建模過(guò)程中的維度進(jìn)一步降低,。
4.3 評(píng)價(jià)指標(biāo)
話(huà)題發(fā)現(xiàn)是一個(gè)聚類(lèi)的過(guò)程,而且實(shí)驗(yàn)使用的數(shù)據(jù)是無(wú)標(biāo)簽的,,因而無(wú)法使用類(lèi)似于分類(lèi)過(guò)程中的評(píng)價(jià)體系,,例如準(zhǔn)確率、精確率,、召回率以及由精確率和召回率得到的F1值。因此本文實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)采用的是聚類(lèi)的一種評(píng)價(jià)指標(biāo)——調(diào)整蘭德系數(shù)(Adjusted Rand Index,,ARI),。
蘭德系數(shù)(Rand Index,RI),,RI取值范圍為[0,,1],值越大意味著聚類(lèi)結(jié)果與真實(shí)情況越接近,。
其中,,E(RI)為蘭德系數(shù)的平均值,max(RI)為蘭德系數(shù)的最大值,。
4.4 對(duì)比試驗(yàn)
4.4.1 實(shí)驗(yàn)1
本文的對(duì)比實(shí)驗(yàn)1分別由下面的4部分組成:
(1)采用基于詞特征的傳統(tǒng)向量空間模型對(duì)微博文本進(jìn)行表示,,并由K-means聚類(lèi)算法進(jìn)行進(jìn)行聚類(lèi)實(shí)驗(yàn),;
(2)采用基于詞對(duì)特征的向量空間模型對(duì)微博文本進(jìn)行表示,并由K-means聚類(lèi)算法進(jìn)行進(jìn)行聚類(lèi)實(shí)驗(yàn),;
(3)采用基于主題向量空間模型對(duì)微博文本進(jìn)行表示,,并由K-means聚類(lèi)算法進(jìn)行進(jìn)行聚類(lèi)實(shí)驗(yàn);
(4)采用基于詞對(duì)特征向量空間模型和基于主題向量空間模型融合來(lái)對(duì)微博文本進(jìn)行表示,,并由K-means聚類(lèi)算法進(jìn)行聚類(lèi)實(shí)驗(yàn),。
實(shí)驗(yàn)結(jié)果如圖3所示。
圖3中顯示了特征融合模型(Biterm_LDA)與其他模型(VSM,、Biterm_VSM和LDA)的評(píng)價(jià)指標(biāo)對(duì)比情況,。從圖3中可以看出,結(jié)合了Biterm_VSM模型和LDA模型的Biterm_LDA模型比單純的VSM的性能要優(yōu),;單獨(dú)使用Biterm_VSM模型和LDA模型性能差不多,;相比于前3個(gè)模型,本文提出的特征融合模型的性能是最優(yōu)的,。
4.4.2 實(shí)驗(yàn)2
本文的實(shí)驗(yàn)2是主題為不同K值況下采用本文方法的對(duì)比情況,,實(shí)驗(yàn)結(jié)果如圖4所示。
從圖4中可以看出,,當(dāng)主題的數(shù)目越接近真實(shí)的微博話(huà)題數(shù)目時(shí),,效果越來(lái)越好;當(dāng)主題的數(shù)目超過(guò)真實(shí)的微博話(huà)題數(shù)目時(shí),,效果越來(lái)越差,。因此,主題模型K值的設(shè)定是很重要的,。從實(shí)驗(yàn)結(jié)果中可以看出,,當(dāng)K=12時(shí),得到的聚類(lèi)結(jié)果是最好的,,而且和實(shí)際的微博話(huà)題數(shù)目是最接近的,,說(shuō)明本文提出的模型是有效的。
4.4.3 實(shí)驗(yàn)3
本文的實(shí)驗(yàn)3為K-means算法與密度聚類(lèi)的DBCAN算法,、譜聚類(lèi)算法和凝聚式層次聚類(lèi)算法3種算法之間的對(duì)比實(shí)驗(yàn),,并且是在主題的數(shù)目K=12的情況下進(jìn)行的。實(shí)驗(yàn)結(jié)果如圖5所示,。
從圖5中可以看出,,本文提出的模型在微博短文本上,K-means聚類(lèi)算法比其余的3種算法效果表現(xiàn)更好,,分析可知,,DBSCAN密度聚類(lèi)算法對(duì)噪聲數(shù)據(jù)比較敏感,而且對(duì)參數(shù)的設(shè)置要求也較高,因此得到的結(jié)果有很大的差異,。譜聚類(lèi)和凝聚式層次聚類(lèi)在本文數(shù)據(jù)上的性能表現(xiàn)沒(méi)有K-means聚類(lèi)算法好,。
5 結(jié)論
本文針對(duì)傳統(tǒng)話(huà)題檢測(cè)方法的缺陷,提出了一種改進(jìn)的特征融合短文本聚類(lèi)的微博話(huà)題發(fā)現(xiàn)模型,,改進(jìn)了傳統(tǒng)的向量空間模型對(duì)微博短文本的表示方式,,引入詞對(duì)向量空間模型,并結(jié)合主題空間模型在潛在語(yǔ)義挖掘上的優(yōu)點(diǎn),,提高了微博話(huà)題發(fā)現(xiàn)的準(zhǔn)確性,。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的特征融合模型具有更優(yōu)的話(huà)題發(fā)現(xiàn)效果,。
雖然詞對(duì)比詞更能表達(dá)文本的語(yǔ)義信息,,但是微博短文本數(shù)據(jù)集中詞對(duì)的數(shù)量要遠(yuǎn)遠(yuǎn)多于詞的數(shù)量,這會(huì)造成文本轉(zhuǎn)化為向量時(shí)的維度過(guò)高,。而且K-means聚類(lèi)算法對(duì)初始聚類(lèi)中心點(diǎn)較為敏感,,對(duì)最終的聚類(lèi)結(jié)果有影響,因此下一步的工作方向就是解決主題K值的自適應(yīng)和K-means聚類(lèi)算法初始中心點(diǎn)選擇的問(wèn)題,。
參考文獻(xiàn)
[1] 中國(guó)互聯(lián)網(wǎng)信息中心.第43次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:中國(guó)互聯(lián)網(wǎng)信息中心,2019.
[2] Zheng Jun,,Li Yuanjun.A hot topic detection method for Chinese Microblog based on topic words[C].International Conference on Information Technology & Electronic Commerce,2015.
[3] BENNY A,,PHILIP M.Keyword based tweet extraction and detection of related topics[J].Procedia Computer Science,,2015,46(46):364-371.
[4] 張雪松,,賈彩燕.一種基于頻繁詞集表示的新文本聚類(lèi)方法[J].計(jì)算機(jī)研究與發(fā)展,,2018,55(1):102-112.
[5] LIU G,,XU X,,ZHU Y,et al.An improved latent Dirichlet allocation model for hot topic extraction[C].2014 IEEE International Conference on Big Data and Cloud Computing(BdCloud).IEEE Computer Society,,2014.
[6] 石磊,,杜軍平,梁美玉.基于RNN和主題模型的社交網(wǎng)絡(luò)突發(fā)話(huà)題發(fā)現(xiàn)[J].通信學(xué)報(bào),,2018,,39(4):189-198.
[7] 車(chē)?yán)伲瑮钚∑?多特征融合文本聚類(lèi)的新聞話(huà)題發(fā)現(xiàn)模型[J].國(guó)防科技大學(xué)學(xué)報(bào),,2017,39(3):85-90.
[8] 曾祥坤,,張俊輝,,石拓,等.基于主題提取模型的交通違法行為文本數(shù)據(jù)的挖掘[J].電子技術(shù)應(yīng)用,2019,,45(6):41-45.
[9] ZHAO Y,,ZHANG K,ZHANG H,,et al.-Hot topic detection based on combined content and time similarity[C].2017 International Conference on Progress in Informatics and Computing(PIC),,Nanjing,2017:399-403.
[10] 黃建一,,李建江,,王錚,等.基于上下文相似度矩陣的Single-Pass短文本聚類(lèi)[J].計(jì)算機(jī)科學(xué),,2019,,46(4):50-56.
[11] 李勇,張克亮.面向LDA和VSM模型的微博熱點(diǎn)話(huà)題發(fā)現(xiàn)研究[J].自動(dòng)化技術(shù)與應(yīng)用,,2016,,35(8):52-57.
[12] MA R,XU P,,LI L,,et al.Hotspot detection in social media based on improved strategy clustering[C].International Conference on Big Data,2019.
[13] 李征,,李斌.一種基于改進(jìn)相似度計(jì)算的文本聚類(lèi)方法[J].河南大學(xué)學(xué)報(bào)(自然科學(xué)版),,2018,48(4):415-420.
[14] 張文博,,米成剛,,楊雅婷.基于詞對(duì)向量的中文新聞話(huà)題檢測(cè)方法[J].廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,,58(2):231-236.
[15] BLEI D M,,NG A Y,JORDAN M I.Latent Dirichlet allocation[J].The Journal of Machine Learning Research,,2003,,3(4/5):993-1022.
[16] ZHANG Q,SUN Y.The collocation model based on LDA[C].SPIE Sixth International Conference on Electronics and Information Engineering,,Dalian,,China,2015.
[17] 譚夢(mèng)婕,,呂鑫,,陶飛飛.基于多特征融合的財(cái)經(jīng)新聞話(huà)題檢測(cè)研究[J].計(jì)算機(jī)工程,2019,,45(3):293-299,,308.
[18] 張杰,,卓靈,朱韻攸.一種K-means聚類(lèi)算法的改進(jìn)與應(yīng)用[J].電子技術(shù)應(yīng)用,,2015,,41(1):125-128.
作者信息:
李海磊1,楊文忠1,,2,,李東昊1,溫杰彬1,,錢(qián)蕓蕓1
(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,,新疆 烏魯木齊 830046;
2.中國(guó)電子科學(xué)研究院 社會(huì)安全風(fēng)險(xiǎn)感知與防控大數(shù)據(jù)應(yīng)用國(guó)家工程實(shí)驗(yàn)室,,北京 100041)