加快打造原始创新策源地,加快突破关键核心技术,努力抢占科技制高点,为把我国建设成为世界科技强国作出新的更大的贡献。

——习近平总书记在致中国科学院建院70周年贺信中作出的“两加快一努力”重要指示要求

面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康,率先实现科学技术跨越发展,率先建成国家创新人才高地,率先建成国家高水平科技智库,率先建设国际一流科研机构。

——中国科学院办院方针

论文

基于高频词和AUC优化的随机森林文本分类模型 

论文题目 基于高频词和AUC优化的随机森林文本分类模型
论文作者 孙源,胡志军
发表年份 2020
摘要  为了针对互联网上的新闻类文档实现对其快速精准地分类,提出一种根据词频先初步降维再进行优化建模的分类思路.先基于高频词汇初步降维,再对降维后的数据以模型AUC值达到最大为目标,采取向后消元的方法构建随机森林分类模型,实现对文档的分类.通过实证分析,发现该方法能够有效地实现对文本的分类,同时减少了建模的运算量,通过AUC值的优化,比单纯依据词频降维构建的随机森林模型分类效果更好。 
论文明细 孙源,胡志军.基于高频词和AUC优化的随机森林文本分类模型.数学的实践与认识.2020.50(1):.