手機短信以其短小、迅速、簡便、價格低廉等優(yōu)點成為一種重要的通信和交流方式, 受到眾多人士的青睞。然而, 手機短信與郵件一樣存在著垃圾信息問題。
目前, 垃圾短信過濾主要有黑名單過濾、關(guān)鍵詞過濾和基于文本分類的內(nèi)容過濾等方式。黑名單過濾和關(guān)鍵詞過濾方式能快速過濾垃圾短信, 但這兩種過濾方式實質(zhì)是基于規(guī)則的過濾, 雖然在一定程度上阻擋了一些垃圾短信, 但規(guī)則的方法需要更多的用戶自定義設(shè)置,很容易被反過濾。基于文本分類的短信過濾采用常見的分類算法, 如樸素貝葉斯、SVM、神經(jīng)網(wǎng)絡(luò)等。黎路 等人將貝葉斯分類應(yīng)用到J2ME 模擬環(huán)境中成功地過濾了中獎短信和祝福短信。浙江大學的金展、范晶等 將樸素貝葉斯和支持向量機結(jié)合, 解決了傳統(tǒng)垃圾短信過濾系統(tǒng)短信特征和內(nèi)容未能得到及時更新而導致過濾性能降低的問題。王忠軍將基于樸素貝葉斯短信過濾算法與基于最小風險貝葉斯算法進行了實驗分析和比較,結(jié)論是基于最小風險的短信過濾算法具有較好的性能。
然而, 短信過濾的準確率依賴于其訓練樣本的數(shù)量及質(zhì)量, 這些分類算法需要經(jīng)過訓練學習建立分類器模型,因此在速度上不能很好地滿足短信過濾實時性的要求。
從現(xiàn)有技術(shù)上來說, 垃圾短信的過濾在準確率和效率方面仍然不能滿足現(xiàn)實需要。
Winnow 算法是在1987 年由Nick LittleSTONe 提出并對可行性做了嚴格證明的線性分類算法。當時的目標是想找到一種時空復雜度僅僅與分類對象相關(guān)屬性相關(guān)的數(shù)量呈線性相關(guān)的算法。平衡Winnow 算法是對基本W(wǎng)innow 算法的一種改進, 該算法具有過濾速度快、性能好、支持反饋更新的優(yōu)點, 在信息過濾領(lǐng)域有很好的應(yīng)用前景, 尤其適合于對實時性要求較高的短信過濾系統(tǒng)。
特征提取的方法目前也有很多, 常用的特征選取方法有: 文檔頻率DF(Document Frequency) 、信息增益IG(Information Gain) 、互信息MI(Mutual Information) 、χ2統(tǒng)計等。
將分詞后的詞作為候選特征, 然后使用特征提取算法從中提取出對分類最有用的一些特征, 去除對分類貢獻不大的候選特征, 以降低特征的維數(shù)。其中χ2的主要思想是認為詞條與類別之間符合χ2分布。χ2 統(tǒng)計量的值越高, 特征項和類別之間的獨立性越小、相關(guān)性越強, 即特征項對此類別的貢獻越大。χ2 是一個歸一化的值, 該方法比其他方法能減少50%左右的詞匯, 具有分類效果好的優(yōu)點。本文中采用χ2統(tǒng)計進行特征提取。