基于相对贡献率的特征选择方法

杨杰明, 王静, 曲朝阳

PDF(1763 KB)
PDF(1763 KB)
东北电力大学学报 ›› 2014, Vol. 34 ›› Issue (4) : 62-68.
信息与自动化工程

基于相对贡献率的特征选择方法

  • 杨杰明, 王静, 曲朝阳
作者信息 +

Feature Selection Method Based on the Relative Contribution

  • YANG Jie-ming, WANG Jing, QU Zhao-yang
Author information +
History +

摘要

特征选择是文本分类过程中极其重要的一个环节。本文提出了一种新的特征选择算法,该算法基于一个特征频度相对于其它特征频度的差值的总和衡量其相对贡献率的大小,从而进行特征选择。本文使用了基准数据集20-Newgroups,在朴素贝叶斯和支持向量机两个分类器上对该方法进行了验证。实验结果表明,与信息增益、互信息,几率比和DIA相关因子等四种流行的特征选择算法相比,该算法有效降低了文本的特征维数,提高了分类精度。

Abstract

Feature selection in text categorization process is extremely important part. We consider a characteristic frequency of the frequency with respect to other features of the sum of the difference,proposed a new feature selection method,the relative contribution of feature selection method(RC method). Experiments using benchmark data sets 20-Newgroups, using Naive Bayes and support vector machine two classification algorithms,experimental results show that,in contrast to information gain,mutual information,odds ratio and DIA associated factor four well-known feature selection algorithm,the methods for effectively reducing the characteristic dimension of the text,to improve the classification accuracy.

关键词

特征选择 / 文本分类 / 相对贡献率 / 特征频度

Key words

Feature selection / Text categorization / Relative contribution / Characteristic frequency

引用本文

导出引用
杨杰明, 王静, 曲朝阳. 基于相对贡献率的特征选择方法. 东北电力大学学报. 2014, 34(4): 62-68
YANG Jie-ming, WANG Jing, QU Zhao-yang. Feature Selection Method Based on the Relative Contribution. Journal of Northeast Electric Power University. 2014, 34(4): 62-68

基金

国家自然科学基金项目(51277023,51077010)

PDF(1763 KB)

211

Accesses

0

Citation

Detail

段落导航
相关文章

/