《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 測(cè)試測(cè)量 > 設(shè)計(jì)應(yīng)用 > 樣本不平衡的睡眠數(shù)據(jù)分期研究
樣本不平衡的睡眠數(shù)據(jù)分期研究
2016年微型機(jī)與應(yīng)用第18期
李玉平, 夏斌
上海海事大學(xué) 信息工程學(xué)院,上海 201306
摘要: 睡眠數(shù)據(jù)中各個(gè)階段的樣本數(shù)差異較大,,睡眠數(shù)據(jù)的自動(dòng)分期是一個(gè)典型的樣本不平衡的機(jī)器學(xué)習(xí)問題,。均衡樣本方法通過抽樣的手段來平衡樣本,是解決樣本不平衡問題的主要方法,。采用均衡樣本方法來平衡睡眠數(shù)據(jù)的不同階段的樣本,,并且結(jié)合多域特征(時(shí)域、頻域,、時(shí)頻域以及非線性)和隨機(jī)森林分類算法進(jìn)行分類預(yù)測(cè),。比較分析了樣本均衡處理和非均衡處理的分類結(jié)果,發(fā)現(xiàn)均衡處理后的數(shù)據(jù)取得了更好的分類效果,。
Abstract:
Key words :

  李玉平, 夏斌

  (上海海事大學(xué) 信息工程學(xué)院,,上海 201306)

       摘要:睡眠數(shù)據(jù)中各個(gè)階段的樣本數(shù)差異較大,睡眠數(shù)據(jù)的自動(dòng)分期是一個(gè)典型的樣本不平衡的機(jī)器學(xué)習(xí)問題,。均衡樣本方法通過抽樣的手段來平衡樣本,,是解決樣本不平衡問題的主要方法。采用均衡樣本方法來平衡睡眠數(shù)據(jù)的不同階段的樣本,,并且結(jié)合多域特征(時(shí)域,、頻域、時(shí)頻域以及非線性)和隨機(jī)森林分類算法進(jìn)行分類預(yù)測(cè),。比較分析了樣本均衡處理和非均衡處理的分類結(jié)果,,發(fā)現(xiàn)均衡處理后的數(shù)據(jù)取得了更好的分類效果。

  關(guān)鍵詞:睡眠分期,;數(shù)據(jù)不平衡,;隨機(jī)森林

0引言

  睡眠是生命過程中必不可少且十分重要的生理現(xiàn)象。依據(jù)國際R&K標(biāo)準(zhǔn)[1],,睡眠期可分為快速眼動(dòng)期,、非快速眼動(dòng)期(S1,S2,,S3,,S4)以及清醒期,區(qū)別分期主要以眼球是否進(jìn)行了陣發(fā)性快速運(yùn)動(dòng)為標(biāo)準(zhǔn),。根據(jù)上述睡眠分期標(biāo)準(zhǔn),,睡眠數(shù)據(jù)可分為6類,且不同類別的數(shù)據(jù)量之間具有較大的差異性,,即睡眠數(shù)據(jù)分期存在樣本不平衡的問題,。在應(yīng)用機(jī)器學(xué)習(xí)研究睡眠分期過程中,,樣本不平衡會(huì)導(dǎo)致睡眠分期結(jié)果不準(zhǔn)確,睡眠分期的可信度降低,。在以前的睡眠分期研究中,,研究的主要是睡眠數(shù)據(jù)特征的提取以及分類算法的選取[24],,并沒有研究睡眠分期樣本不平衡問題,。本文采用EEG、EOG,、EMG 3種信號(hào)5個(gè)通道的睡眠數(shù)據(jù),研究中發(fā)現(xiàn),,EOG信號(hào)會(huì)出現(xiàn)在EEG信號(hào)的一些睡眠分期(如清醒狀態(tài)和快速眼動(dòng)狀態(tài))中,,這種數(shù)據(jù)會(huì)對(duì)睡眠分期產(chǎn)生不好的影響[5]。本文通過對(duì)睡眠分期樣本不平衡的研究以及信號(hào)混雜的處理,,進(jìn)一步提高睡眠分期的準(zhǔn)確度,,同時(shí)對(duì)相關(guān)睡眠疾病的診斷和治療提供重要的參考意義。

  基于以上睡眠數(shù)據(jù)分期的討論,,本文采用均衡采樣的方法解決睡眠分期樣本不平衡問題,,同時(shí)研究睡眠數(shù)據(jù)的特征提取以減少信號(hào)混雜對(duì)睡眠分期的影響。

1方法

  1.1特征提取

  睡眠數(shù)據(jù)的特征主要?jiǎng)澐譃闀r(shí)域特征,、頻域特征,、時(shí)頻域特征以及非線性特征。本文中,,提取EEG,、EOG和EMG每種信號(hào)各38種特征。

  特征參數(shù)如下:第1~6種是6個(gè)時(shí)域特征[68]:均值(Mean),、方差(Variance),、峰度(Kurtosis)、偏度(Skewness),、過零率(Number of zero crossing,,NZC)、最大值(MaxV);第7~19種是頻域特征[810]:對(duì)4個(gè)子節(jié)律波分別提取各自范圍的功率譜能量(SP_),計(jì)算0.01~30 Hz頻帶的總功率譜能量(SP_D),,以及總功率譜能量的規(guī)范化能量比(NSP_),,即theta/beta、beta/alpha,、(theta+alpha)/beta, (theta+alpha)/(beta+alpha),;第20~35種是時(shí)頻域特征[810]:4個(gè)子節(jié)律波在當(dāng)前頻帶范圍上小波系數(shù)的均值、能量,、標(biāo)準(zhǔn)差以及相對(duì)于總頻帶范圍的絕對(duì)平均值,;第36~38種特征分別是Petrosian分形指數(shù),、Hurst指數(shù)、排列熵[1112],。

  1.2均衡采樣

  睡眠數(shù)據(jù)存在樣本不平衡的問題,,在6類的數(shù)據(jù)中,最多一類的數(shù)據(jù)集與最少的一類數(shù)據(jù)集的比例達(dá)到10倍以上,,存在嚴(yán)重不平衡現(xiàn)象,。本文應(yīng)用均衡采樣的方法處理樣本失衡的問題[13]:(1)分別計(jì)算6類睡眠分期數(shù)據(jù)的個(gè)數(shù)n1、n2,、n3,、n4、n5,、n6,;(2)去掉個(gè)數(shù)最少和個(gè)數(shù)最多的個(gè)數(shù)值,剩余為n1,、n2,、n3、n4,,計(jì)算這4類個(gè)數(shù)的平均值n,;(3)對(duì)6類數(shù)據(jù)按個(gè)數(shù)平均值n采樣,不足平均個(gè)數(shù)的類別重復(fù)采樣,,超過平均個(gè)數(shù)的類別欠采樣,;(4)整合6類數(shù)據(jù)采樣得到的新數(shù)據(jù)集即為均衡處理后的數(shù)據(jù)[4,14],。

  1.3隨機(jī)森林分類器

  隨機(jī)森林模型是決策樹集成的算法,,并且由一隨機(jī)向量決定決策樹的構(gòu)造。通過訓(xùn)練集得到隨機(jī)森林模型后,,當(dāng)有一個(gè)新的輸入樣本進(jìn)入時(shí),,就讓隨機(jī)森林的每一棵決策樹分別進(jìn)行判斷,判斷樣本所屬類別,,然后計(jì)算哪一個(gè)類別被選擇最多,,就預(yù)測(cè)該樣本所屬的類別。隨機(jī)森林算法特征參數(shù)較多,,測(cè)試結(jié)果不會(huì)出現(xiàn)過擬合的情形,;能夠處理高維度特征的睡眠數(shù)據(jù),不用做特征選擇,,對(duì)數(shù)據(jù)集的適應(yīng)能力強(qiáng),;訓(xùn)練速度快,能夠檢測(cè)不同特征之間的影響[13,15],。

  隨機(jī)森林實(shí)現(xiàn)過程為:(1)原始訓(xùn)練集為N,,采用集成算法有放回地隨機(jī)選取k個(gè)樣本集構(gòu)建k棵分類樹,,每次沒有被抽到的樣本組成k個(gè)袋外數(shù)據(jù);(2)設(shè)定mall變量,,在每棵樹的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取mtry個(gè)變量(mtry,n,mall),然后在mtry中選擇一個(gè)最佳的分類變量,,變量分類的閾值通過檢查每一個(gè)分類點(diǎn)確定;(3)每一棵樹最大限度地生長,,不做任何修剪,;(4)將構(gòu)造的多棵分類樹組成隨機(jī)森林,用隨機(jī)森林分類器對(duì)新的數(shù)據(jù)進(jìn)行判別與分類,,分類的結(jié)果按樹分類器投票數(shù)確定,。

2實(shí)驗(yàn)與結(jié)果

  2.1數(shù)據(jù)

  本文采用9名受試者的睡眠數(shù)據(jù)來驗(yàn)證分類方法和數(shù)據(jù)不平衡處理的可行性。數(shù)據(jù)集記錄了這9名志愿者一晚上的睡眠數(shù)據(jù),,以1~9命名這些數(shù)據(jù)集,。數(shù)據(jù)包含15個(gè)通道的睡眠時(shí)的信號(hào)數(shù)據(jù)以及呼吸頻率和身體溫度。對(duì)應(yīng)的EEG,、EOG、EMG信號(hào)按100 Hz進(jìn)行采樣,。數(shù)據(jù)集處理部分,,分別進(jìn)行了7/3分和留一方法,采用這兩種方法驗(yàn)證睡眠分期樣本不平衡的處理效果,。

  2.2數(shù)據(jù)預(yù)處理

  首先采用巴特沃夫?yàn)V波器提取原始睡眠數(shù)據(jù)中0.01~35 Hz的數(shù)據(jù),,并應(yīng)用高斯歸一化方法對(duì)數(shù)據(jù)進(jìn)行歸一化處理。由于采樣的睡眠數(shù)據(jù)可能存在標(biāo)簽不正確的問題,,因此會(huì)剔除不正確的標(biāo)簽數(shù)據(jù),。具體方法是,首先找出空標(biāo)簽或標(biāo)簽異常(不在已有類別中的標(biāo)簽),,根據(jù)標(biāo)簽對(duì)應(yīng)的位置,,剔除這些標(biāo)簽對(duì)應(yīng)的數(shù)據(jù)集,最后更新數(shù)據(jù)集,。采用以上方法進(jìn)行數(shù)據(jù)預(yù)處理之后,,得到7 461條數(shù)據(jù)。

  2.3均衡采樣數(shù)據(jù)

  經(jīng)預(yù)處理和特征提取之后,,對(duì)9個(gè)受試者的數(shù)據(jù)進(jìn)行整合,,數(shù)據(jù)總量為59 680。采用7/3分?jǐn)?shù)據(jù)集,,即70%數(shù)據(jù)做訓(xùn)練集,,30%數(shù)據(jù)做測(cè)試集,訓(xùn)練集數(shù)據(jù)量為41 773,,測(cè)試集數(shù)據(jù)量為17 907,。為了驗(yàn)證均衡采樣的可行性,,對(duì)訓(xùn)練集做均衡處理,得到22 465條新的訓(xùn)練集,。

  2.4結(jié)果

  本文第一種驗(yàn)證方法是7/3數(shù)據(jù)集,,結(jié)果如下:表1是所有數(shù)據(jù)集7/3分,對(duì)訓(xùn)練集進(jìn)行均衡處理的分類結(jié)果準(zhǔn)確率,;表2是均衡采樣數(shù)據(jù)集和普通數(shù)據(jù)集分類結(jié)果對(duì)比,;表3是不同信號(hào)組合,均衡采樣分類結(jié)果對(duì)比,。

圖像 002.png

圖像 003.png

圖像 004.png

圖像 001.png

第二種驗(yàn)證方法是對(duì)9個(gè)受試者的數(shù)據(jù)集進(jìn)行留一驗(yàn)證,。分別提取其中8個(gè)受試者的數(shù)據(jù)集作為訓(xùn)練集做均衡處理,剩下1個(gè)受試者的數(shù)據(jù)集作為測(cè)試集,。分類結(jié)果如圖1所示,。

  由表1得知,同時(shí)考慮EEG,、EOG,、EMG 3種信號(hào)5個(gè)通道的數(shù)據(jù)集,得到的分類準(zhǔn)確率達(dá)到84.33%,,wake類別的分類準(zhǔn)確率最高,,模型對(duì)wake類別的泛化能力最好,而S1類別數(shù)據(jù)量最少,,同時(shí)分類效果也最差,。由表2得知:均衡處理之后,wake,、S1,、S3、rem這4類睡眠分期結(jié)果得到了提升,,S4基本一致,,S2的結(jié)果降低了。由表3知:提取一種信號(hào)EEG時(shí),,睡眠分期準(zhǔn)確率比同時(shí)提取多種信號(hào)時(shí)的準(zhǔn)確率低,。由圖1留一驗(yàn)證知,2,、5,、9號(hào)受試者睡眠分期的結(jié)果達(dá)到了80%以上,分類效果較好;3,、6號(hào)受試者睡眠分期準(zhǔn)確率較低,。

3結(jié)論

  本研究采用了EEG、EOG、EMG 3種信號(hào)5個(gè)通道數(shù)據(jù)集,,并且應(yīng)用均衡采樣的方法處理訓(xùn)練集數(shù)據(jù)不平衡問題,,睡眠分期結(jié)果較好,平均分類準(zhǔn)確率得到了提升,,并且有4個(gè)睡眠分期的分類結(jié)果都得到了提升,。在今后對(duì)睡眠分期樣本不平衡的研究中,可以采用加權(quán)隨機(jī)森林或其他的方法處理睡眠數(shù)據(jù)集不平衡的問題,。

  參考文獻(xiàn)

 ?。?] RECHTSCHAFFEN A Q, KALES A A. A manual of standardized terminology, techniques, and scoring system for sleep stages of human subjects[J]. Psychiatry & Clinical Neurosciences, 1968,55.

  [2] 李谷,,范影樂,,龐全.基于排列組合熵的腦電信號(hào)睡眠分期研究[J].生物醫(yī)學(xué)工程學(xué)志,2009,,26(4):869-872.

 ?。?] Liu Derong,Pang Zhongyu,,LLOYD S R.A neural network method for detection of obstructive sleep apnea and narcolepsy based on pupil size and EEG[J].IEEE Transactions on Neural Networks,,2008,19(2):308-318.

 ?。?] ANAND A, PUGALENTHI G, FOGEL G B, et al. An approach for classification of highly imbalanced data using weighting and undersampling[J]. Amino Acids, 2010,39(5):1385-1391.

 ?。?] BREIMAN L, FRIEDMAN J, OLSHEN R, et al. Classification and regression trees[M]. New York: Chapman & Hall,1984.

 ?。?] SMITH J R. Automated EEG analysis with microcomputers[J]. Medical Instrumentation, 1980,14(6):319-321.

 ?。?] VURAL C, YILDIZ M. Determination of sleep stage separation ability of features extracted from EEG signals using principal component analysis[J]. Journal of Medical Systems,2010,34(1):83-89.

 ?。?] QQ圖片20161023220227.pngA comparative study on classification of sleep stage based on EEG signals using feature selection and classification algorithms[J]. Journal of Medical Systems,,2014,38(3):1-21.

 ?。?] HAMIDA T B,, AHMED B. Computer based sleep staging: challenges for the future[C]. 2013 IEEE GCC Conference and Exhibition, 2013:280-285.

  [10] AKIN M. Comparison of wavelet transform and FFT methods in the analysis of EEG signals[J]. Journal of Medical Systems,2002,26(3):241-247.

 ?。?1] FELL J, RSCHKE J, MANN K, et al. Discrimination of sleep stages: a comparison between spectral and nonlinear EEG measures[J]. Electroencephalography and Clinical Neurophysiology, 1996,,98(5):401-410.

  [12] PEREDA E, GAMUNDI A, RIAL R, et al. Nonlinear behavioor of human EEG: fractal exponent versus correlation dimension in awake and sleep stages[J]. Neuroscience Letters, 1998,250(2):91-94.

 ?。?3] 毛文濤,,王金婉,等.面向貫序不均衡數(shù)據(jù)的混合采樣極限學(xué)習(xí)機(jī)[J].計(jì)算機(jī)應(yīng)用,,2015, 35(8):2221-2226.

 ?。?4] He Haibo,GARCIA E A. Learning from imbalanced data[J],IEEE Transactions on Knowledge and Data Engineering,,2009,21(9):1263-1284.

 ?。?5] BREIMAN L. Random forests[J]. Machine Learning,,2001, 45(1):5=32.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載,。