基于社交媒体的企业行为事件挖掘--系列【1】


layout: post
title: 基于社交媒体的企业行为事件挖掘--系列[1]
categories: Case
description: 利用word2vec+触发器识别企业事件
keywords: word2vec、企业事件


利用Word2vec+trigger的方式识别企业事件


目录

  • [背景]
  • [1. 研究背景]
  • [2. 研究方法]
  • [3. 研究结果]
  • [4. 总结]

背景

企业事件挖掘是我自大四的毕业设计到现在依旧跟进的研究内容,从微博数据抓取--> 数据预处理 -->模型对比-->事件演化分析均是一步一步探索而来,刚刚开始学习自然语言处理,过程还是有点艰辛,第一期的任务早已经完成了,甚至可以基于社交媒体企业事件挖掘写一系列文章,万事开头难,先从第一期的内容开始。

接下来文章的将从 **研究背景 - 研究方法 - 研究结果 **三大部分进行介绍。


1. 研究背景

研究背景的逻辑框架通过下面的图给表示出来:

研究背景的逻辑框架

在信息技术和移动互联网技术快速发展的同时,信息资源也呈现指数增长,基于传统的统计方法进行数据分析面临巨大挑战,从海量数据中挖掘有价值的信息成为一种必然趋势。社交媒体(Social Media,又称社会化媒体)作为目前最重要的信息源之一,它在社会舆论、信息传播、企业营销等方面发挥着其他媒介不可替代的作用。据新浪《2016微博企业白皮书》统计,截至2016年12月底,微博企业账号注册量已达到130万,越来越多的企业利用社交媒体塑造企业品牌、产品营销推广、客户关系管理,由于社交媒体具有先天媒体属性,对比传统的信息传播方式(比如电视、报刊杂志、新闻网站、企业官网),企业加入社交媒体平台,不仅可以通过平台获取及时有用的信息,更重要的是可以发布大量与企业经营活动相关信息,逐渐,企业信息在社交媒体平台中累积,更重要的是,这些信息中隐含了大量的企业行为,具有重要的研究价值和应用价值(如图1.1-1华为在其官方账号发布与英特尔进行全球HPC合作的相关信息),因此,如何从海量社交媒体数据中识别企业行为成为了一个非常有意义的研究主题。

华为企业账号发布合作信息

然而,从海量社交媒体数据中识别企业行为并非易事。这里主要有三个挑战:

  • 第一, 在社交媒体中,用户生成内容(User-generated Content,简称UGC)多为短文本,这些短文本具有表达类型多样、表意模糊不清、噪音多、主题多等特点,它严重阻碍了企业行为识别的有效性;

  • 第二, 识别方法,传统的自然语言处理方法并不能有效地从企业信息中识别企业行为,比如词袋模型3(Bag of Words,简称BOW),它是基于词频统计方法,所以表征文档也仅仅表征了文档中的词语频率,忽略了词语间的语义和位置关系;

  • 第三, 企业行为一般是由一系列动词触发(如上图触发动词有合作、携手、联合等),由于人工标注动词需要结合动词的使用语境,所以人工对标记所有触发企业行为动词非常耗时耗力;

为了克服这些挑战,笔者利用浅层神经网络模型训练词向量,将企业行为刻画成可以计算的高维向量,只需要标记部分触发企业行为的种子数据,再利用已经标注的种子数据中的动词对未知动词进行同义词识别,从而形成企业行为触发器,再利用触发器和种子数据表征企业行为,从而对新文档进行企业行为识别。


2. 研究方法

2.1 企业定义

企业行为是指企业为了追求一定目标而进行的相关商业或社会活动。社交媒体中的企业行为是指企业利用社交媒体平台发布企业相关信息从而达到产品发布、销售、推广以及粉丝(客户)关系管理等目标的一系列行为。本文, **企业行为主要由动词刻画, **因此,本文主要是通过抽取文本中的动词对企业行为进行表征。

2.2 研究框架

  • 研究方法的框架如下:
研究方法的框架

企业行为识别方法框架如上图表示,此框架分为两部分,右边是主要企业行为识别分类器,左边是待识别的新文档。
针对右边的企业行为识别分类器介绍如下:(1)对原始数据进行预处理;(2)用预处理后数据训练词表征;(3)从预处理后的数据中选择具有代表性的种子数据,并为种子数据打上企业行为标签;(4)将种子数据抽取动词序列,并基于词表征计算种子数据集中企业行为向量(5)根据企业行为对语料库中剩余动词进行相似度识别,从而行为企业行为触发器;(6)基于触发器形成企业行为向量进行企业行为识别。

针对左边的待识别的新文档,对于一篇新的文档,首先进行数据预处理,再抽取动词语序,然后用动词向量表征新的文档。最后根据已有的企业行为向量与新的文档向量进行相似度计算,取相似度的最大值所对应的企业行为,所以企业行为事件挖掘问题可以通过下图表示出来:


数据预处理

  • 1.数据抓取,微博数据抓取的代码可以参考我的github项目 Weibo_Spider

  • 2.数据清洗,使用Python3.5中Beautifulsoup1对数据集中html5标签进行解析,并利用Python编写程序,删除重复记录,最后得到可利用的文本数据。

  • 3.分词处理,使用Jieba1对文本进行分词,jieba分词可以确定词性,也便于后续实验抽取动词序列

  • 4.删除一字词和停用词,由于中文文本中经常包含大量无(一字词和停用词)的词,为了获得更好的实验效果,所以必须删除这些无意义的词

  • 5.Word2vec 训练词向量, Word2vec是google 2013年提出的词表征工具,将语料库中所有文本分词、删除一字词和停用词之后将词序列放入Word2vec模型训练词向量,这样可以将词映射到高维向量中,词均能通过向量进行表征。

触发器识别

首先利用Word2ve训练的词向量表征人工标注的种子词,再对语料库中剩余的高频动词进行触发器识别,同义或经常共同出现的词他们的相似度会很高。

企业行为识别

首先对于一个微博文章用动词的平均向量进行表征,得到每一条微博的向量表征,再计算企业行为向量与微博中心向量的cosine相似度,如果最大的相似度大于阈值,那么该条微博的企业行为属于对应的最大相似度的企业行为。


3. 研究结果

  • 数据
    本次的实验数据来自微博网站1,数据对象是国内知名手机企业的官方微博账号(包括华为、小米、魅族、中兴、联想、酷派、OPPO、VIVO、HTC和TCL十家企业),下图展示了四家企业账号发布信息具体实例。
    实例

下表是具体的每个企业的微博账号对应的微博数量以及从开微博起到2016年08月的时间间隔数据

微博名(ID:**********) 微博总数(条) 时间间隔
联想(ID:2183473425) 17690 2011/07/15 - 2016/08/07
酷派官方微博(ID: 1689575103) 13485 2010/06/04 - 2016/08/05
中兴通讯(ID:1689575103) 10372 2010/12/22 - 2016/08/10
vivo智能手机(ID:1809745371) 10238 2010/09/03 - 2016/08/10
小米公司(ID:1771925961) 7964 2011/02/28 - 2016/08/05
TCL通讯中国(ID:1807956030) 7376 2011/01/01 - 2016/08/14
OPPO(ID:1710173801) 6168 2010/03/22 - 2016/08/09
华为中国区(ID: 2557129567) 6046 2012/02/10 - 2016/08/1
HTC官方微博(ID: 1890174912) 5917 2010/11/28 - 2016/08/10
魅族科技(ID: 2683843043) 3618 2014/02/17 - 2016/08/07
  • 参数实验结果
  1. Word2vec 参数实验结果:
Word2vec 参数实验
  1. 触发器参数实验结果

a. 高频动词影响结果:

前top个高频动词

b.相似度阈值以及触发器影响结果:

相似度阈值以及触发器效果
  1. 分类器参数实验

a. 分类器阈值实验结果:


分类器阈值
  • 分类预测效果

为了验证我们提出的企业行为识别模型的有效性,我们比较了其他四种方法,这四种方法分别是词袋(Bag of words,简称BOW),TFIDF(term frequency–inverse document frequency)+BOW、TFIDF加权以及LDA(Latent Dirichlet Allocation)。

对比他们的召回率、准确率和F_value得到如下结果:


方法对比

从上图可以明显看出,我们的模型优于其他方法。


4. 总结

后续企业行为事件挖掘会从企业行为演化角度分析,从而研究每个企业不同企业行为的演化过程,包括某一企业的行为对比演化分析,每一个行为不同企业的对比分析。

如有疑问或想要更加详细了解也可以与本人联系:dengwenjun818@gmail.com

敬请期待,下一个系列吧。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容