云计算技术如何应用于垃圾短信语义识别系统设计中的
  时间:2019年09月21日

随着手机用户的增长,垃圾短信日益泛滥。传统的垃圾短信过滤系统误判率高,利用基于云计算的分类算法实现垃圾短信的语义识别系统。该系统采用概率分类算法对垃圾消息进行语义识别,并以云计算语料库为算法的训练集。实验表明,该系统在垃圾短信识别中具有很高的召回率和正确率,系统的设计为垃圾过滤提供了一种新的设计方法。随着智能手机的普及,个人通信变得非常简单,短信服务(SMS)已经成为一种高增长服务,其中98.1%的用户通过短信与其他用户进行通信和通信。但是随着SMS的发展,垃圾短信的爆炸式增长。垃圾短信是在未经收件人同意的情况下侵犯用户权益的广告或非法短信。据统计,只有0.1%的用户说他们每周都没有收到垃圾短信。垃圾短信对人们的正常生活和财产安全产生了影响。因此,防止垃圾短信是非常重要的。

目前短消息过滤的主要方式有两种:

(1)短消息服务中心短消息标识,实时过滤垃圾短信;该方法在短消息中心服务器上过于沉重。

(2)手头有。终端过滤器使用户能够选择屏蔽的内容,实现垃圾短信过滤的个性化。该方法将消耗移动电话资源,因为有限的移动电话资源,短消息过滤并不是足够的时间,严重的误判。信息服务中心过滤中使用的主要方法有:基于Struts框架的垃圾短信过滤模块的设计、基于采样检测的过滤方法、基于短信发送方式的行为过滤算法和离线垃圾过滤方法。短信过滤中的社交网络行为模式。这些方法通过对发送短消息的方式进行建模,并限制垃圾消息的发送来建立黑白名单。然而,由于SMS服务中心的数量众多,处理效率不高。此外,由于信息用户的分类不当,将会阻止SMS消息,无法到达用户。由于不同用户对垃圾短信的接收,加上用户的个人隐私,垃圾短信误判会带来纠纷,短信服务中心很难实现对垃圾短信的准确过滤。

1565231557162488.png

手机终端的垃圾短信过滤技术从成熟的垃圾过滤技术中吸取了教训。目前,手机垃圾短信过滤中使用的主要方法是特征确定和内容确定。特征确定技术包括:基于行为识别和SVM的短过滤方法、基于CAPTCHA和WIN-DOW算法的垃圾短信、基于朴素贝叶斯和支持向量机的自适应垃圾短信过滤系统。智能技术已被用于过滤SMS,它可以自动过滤SMS。此外,张永军等提出了基于内容的垃圾短信过滤算法,能够区分垃圾短信和短信内容,分类效果更好。为了防止垃圾消息被阻塞,将处理短消息中的一些关键字,并基于词法链进行中文变体垃圾文本语义识别。然而,SMS与电子邮件之间存在显著的差异:SMS仅包含文本和数字,而不是超链接和附件,SMS的形式不是标准化的,内容是口语的,并且SMS的数量最多可达140个英文字母或70个汉字。

垃圾邮件SMS的特征识别由于其内容较少且具有更相似的特征而容易误判。由于资源有限,垃圾短信语料库不够大,误判率高。基于上述垃圾短信识别系统的不足,提出了基于云计算的垃圾短信语义识别系统。通过存储在云中的垃圾短信语料库来计算每个手机用户的关键词,实现系统的实现。个性化垃圾短信过滤系统。系统由手机垃圾短信过滤模块和云数据处理模块两部分组成。手机垃圾短信过滤模块的主要功能是根据特征词典中垃圾短信的文字特征将接收到的短信分类为普通短信和垃圾短信。同时,根据客户对SMS的认识,其中一些将得到认可。将错误的文本消息设置为云。通过对云短信语料库进行累加,并提出特征词,可以得到每个用户的个性化特征词典。手机通过特征词下载和更新特征库,不断修订短信的分类。通过云计算的语义识别反馈,系统可以提高垃圾短信分类的成功率。

手机垃圾过滤模块由短信分类、垃圾短信上传、特征字下载模块三部分组成。短信分类模块的核心模块主要根据特征词典对垃圾短信进行分类,并根据分类结果对短信进行屏蔽。垃圾短信上传模块的功能是将短信分类模块和客户识别垃圾短信上传至云短信语料库。特征字下载模块访问在线环境中的云短信处理模块,下载从云短信语料库中提取的特征词,并更新本地特征库。云语料库处理由特征提取模块组成。通过对语料库的短信进行分析,生成特征词信息。云短信语料库是研究短信分类的前提。普通短信语料库为新加坡国立大学计算机学校的新加坡国立大学短信语料库,垃圾短信语料库来自手机的用户反馈。短消息的语义分类采用计算机自动技术。通过对短信文本进行分析,将短信分类为普通短信和垃圾短信。

常用的算法是人工神经网络、KNN、SVM、朴素贝叶斯算法等。与朴素贝叶斯算法相比,朴素贝叶斯算法具有分类精度高、简单、快速等特点,得到了广泛的应用。语义分类是基于朴素贝叶斯算法。目前,向量空间模型(VSM)是向量空间模型,通常用于在短消息文本分类的过程中表示文本,也就是说,一个短消息文本被表示为由诸如T={t1,t2,。,tn}的特征项组成的向量,其中ti所述特征项是字符,短信中的词、短语等。它们在文档中的重要性由权重值表示。由于中文短信的特殊性,需要处理文本内容的分词,使用普通文本消息集和垃圾短信集来区分词,并对出现的词的频率进行计数,并且将它们作为特征项的权重。汉语词法分析系统(ICTCLAS)用于分词算法,由中国科学院计算技术研究所开发。