背景
做舆情监测产品这么久,也没好好的总结过本人之前做的舆情我的项目,通过本文您将能够理解一个常见的舆情零碎利用场景和舆情相干技术介绍。
为什么叫舆情零碎
随着互联网的疾速倒退,网络媒体作为一种新的信息流传模式,已深刻人们的日常生活。网友舆论沉闷已达到前所未有的水平,不论是国内还是国内重大事件,都能马上造成网上舆论,通过这种网络来表白观点、流传思维,进而产生微小的舆论压力,达到任何部门、机构都无奈漠视的境地。所以市场上衍生出对于舆情信息的监测需要。
舆情零碎利用场景
舆情零碎实质上是一个数据监测零碎,解决的是特定的数据快 & 准的推送问题;
在理论应用中,经常有这些利用场景:
舆论监测 是指对各级政府机构、名人、大型企业须要实时把握互联网舆论,对相干负面舆情及时获知并解决,防止负面舆情继续发酵好转,对网络中相干热点事件进行多维度的数据分析和舆情趋势研判,为舆情处理、方针决策提供根据
行业监测 企业须要理解涵盖支流媒体的全面垂直行业信息内容,监测高度相干的行业新闻,时刻把握行业新闻与热点流动,深度开掘有价值的情报见解并造成专业化的报告。
品牌及名誉监测 指企业或者品牌方依据互联网中的品牌及名誉信息,理解本人的品牌及名誉状况,当有负面信息产生时
网络口碑监测 品牌方关注互联网中品牌相干舆情信息,理解网民对企业品牌及形象的评估,剖析消费者对品牌的认知和注意力迁徙,踊跃疏导侧面的口碑舆情流传,及时对负面口碑进行处理。
竞品剖析 企业须要实时理解竞争对手或企业动态、舆情信息走势,理解本人产品和竞品在行业中的舆情趋势对标,深挖竞品数据、信息和市场布局,以晋升本人产品的竞争劣势,博得市场先机。
商业情报 企业依据本人共性需要,获取特定站点信息,及时理解行业最新消息或者商机,从而疾速采取商业动作,进行商业决策;
罕用舆情零碎所用技术
罕用框架
罕用技术
网络爬虫
从技术的角度讲,它采纳的搜寻技术与百度的搜寻无异,都是基于网络爬虫,在此科普一下网络爬虫是什么?
网络爬虫(又称为网页蜘蛛,网络机器人,在 FOAF 社区两头,更常常的称为网页追赶者),是一种依照肯定的规定,主动地抓取万维网信息的程序或者脚本。另外一些不常应用的名字还有蚂蚁、主动索引、模拟程序或者蠕虫。
罕用算法
因为舆情采集的回来的内容次要为文本内容,对于文本辨认与剖析,次要是用的 NLP 相干的算法模型,罕用的有:
simhash 算法 解决雷同内容聚合的问题;
TF-IDF 算法 罕用来解决文本类似度的问题;
倾向性算法 用来判断文本的正负面水平;
NER 命名实体辨认 用来文本主体提取;
分词算法 实现长文本词句的拆分;
存储技术
罕用的有 Elastic search,适宜数据量不大(亿级左右)的状况,ES 自带分词器,用的还是比拟爽的。到 10 亿级别倡议用大数据架构。
高频性能
专题监测
专题监测是舆情零碎的高频性能,解决的是监测范畴的配置问题;通常会有三种词的配置,别离为主体词、相干关键词、排除词;主体词是指监测主体,相干关键词是指和主体词相干的关键词,排除词是指不能呈现的词。为了用户应用更不便,在这个层面能够进行词库的构建,实现相干词举荐。
舆情趋势剖析
舆情趋势剖析也是舆情零碎的高频性能,用来实现相干信息的总览;
预警配置
这个性能解决的问题是信息采集后更好的触达问题,因为不同信息流传属性、起源属性、信息特色不一样,在预警层面经常会有基于起源、作者、流传量、相关性、信息正负面水平的配置,为了更好的触达用户零碎须要具备产品页面推送、手机短信、邮箱预警、微信推送、电话等的触达形式;
报告导出
因为舆情零碎上提供的数据更多的是出现目标,而在用户理论业务场景中,理论应用的用户和进行舆情决策的用户通常不是一个人,此时作为零碎使用者须要造成数据报告进行汇报,或者信息转发,所以零碎通常要具备信息简报、周报、月报的性能,别离以单条信息为模版、单周为数据模版、月为数据模版,实现用户的报告导出及转发的指标。
总结
本文介绍了常见舆情零碎的理论利用场景及技术架构,以及外围性能介绍。
舆情零碎实质上是一个互联网信息的定向监测工具,利用这套技术思路及路线,衍生出内容平安、商业情报、口碑监测、竞品监测等畛域;
当初舆情是网络安全中属于内容平安畛域的一个赛道,很多内容平安的计划在实际上和舆情监测技术流程是一样的,只不过侧重点不统一,内容平安解决的是内容合规问题,而舆情监测是解决重点信息监测预警的问题,一个是被动视角,一个是被动视角。