随着国家,各行业的企业对网络舆情信息的日益重视,政府与企业对网络舆情信息的监控的需要也随着增加,所以开发必要的舆情监控系统来应对来自互联网上的舆情压力和群众性事件成为需要.由于互联网传播具有虚拟性,隐蔽性,自由性,开放性,发散性和渗透性等特点,从而造成了网络舆情信息的空前繁荣,网络舆情信息的丰富化,信息量大,类别繁多等特点,注定依靠人工筛选与分类统计难以满足网络舆情监控的要求.网络舆情系统实时的在互联网上采集信息,对信息进行智能分析,并用友好的方式呈现给用户,有利的辅助用户正确的处理舆情危情. 本文首先研究了网络舆情监控系统的研究现状与发展趋势,对海量舆情信息的获取与话题发现与追踪的相关内容进行了研究,并重点的研究了网络爬虫的设计,话题发现算法和模型,对多种基于聚类进行话题发现的算法的基本思想,优点,不足进行了分析总结. 其次接下来研究了网络舆情监控系统的总体设计,在使用开源的网络爬虫Larbin对新闻,论坛,博客进行采集的基础上,并对网络爬虫在原有的基础上进行改进,能够很好的适应本系统的要求.在舆情信息预处理模块中对文本分词,文本向量化,特征提取与特征权重的计算,网页净化,网页排重,网页自动摘要等技术做了简要的说明. 最后详细的说明话题的发现与追踪的研究,针对海量舆情信息的特点对话题检测和话题跟踪进行。
电话:0416-5082888 邮箱:jzgwcyy@163.com 辽ICP备15009211号-2
网址:www.jzgypt.com 地址:锦州经济技术开发区金山大街51号
锦州工业大数据平台 版权所有 华睿科技提供技术支持
辽公网安备21079902000050号