如何操蛋地利用网络大数据对旅游地进行舆情分析

最近看了几个本子,发现有同行已经在用互联网上的数据(其实远称不上大数据)进行市场分析了。咱不能落后呀,要学一学。
这个东西乍一看好像很厉害的样子,但仔细研读就会发现他们只是把这些数据罗列上去了,没有针对性的分析,如果没有自己对数据的见解和解读,那个人觉得放上去毫无意义,仅仅是随大流式的堆砌资料,只是为了糊弄看不懂的人罢了。

我看到的是什么呢?有两个。一个是利用百度指数来分析旅游目的地的关注程度,这个我早前已经分析过了,可以在这里查看:
以管窥豹——基于百度指数的大数据与游客市场特征分析 http://mapclub.cn/archives/2196

还有一个是利用旅游点评网站的数据进行景区的舆情分析,也就是游客对这个景区是什么看法?对这个景区的评论中出现频率最高的词汇是什么?这次主要说这个。

我的同行采用的是购买相关服务商在线服务的方式,来获取此项服务内容。而我个人来说,哪有那样的银子来消费这样的内容呢。不过看了看他们所写的内容,其实大部分都可以通过免费服务来实现的。

以故宫为例,我们最终会生成一个类似于这样的词云。

从这张图上,我们能清晰地通过字体颜色和大小来辨别游客对故宫的认知,可以看到大家都提及到要讲解,说明对讲解还是有很有需求,然后对钟表馆都有提及,说明他们对这个地方印象深刻,以及排队、买票等事宜都会出来吐槽一下……

那这张图是怎么做出来的呢?我想你一定注意到图片右下角的水印了,哈哈,没错,就是这里:http://www.picdata.cn/index.php

但是,制作这样的词云需要被分析的长文本。啥是长文本?你可以理解成需要被分析的很大很大一段文字。在这里,我们指的就是旅游点评网站中对故宫的点评了。

以马蜂窝为例,看这里:http://www.mafengwo.cn/poi/3474.html

对于故宫这样的景点,马蜂窝上共有10918条评价,这样看来数据量还是可以的,但很多时候我们需要分析的对象可能连百条评论都没有,那这样分析出来的结果就需要考虑是否切合实际了。

如何把评论变为被分析的长文本呢?

最笨的办法呢,就是把评论复制下来,粘到一起。对于只有不足白条评论的景点来说,相信我,这是最快的方式了。当然,不是一条条去复制,而是整体复制一页15条评论内容,然后点下一页,再复制15条评论内容……10个分页的话,十几秒的功夫也就复制完了。复制的东西最好粘贴到记事本里,进行整理后,再作为长文本进行分析。

还有一种办法,也就是对这种长度很长,数量很多,一页一页去复制可能会耗费很多时间的情况下,可以采用通过数据采集软件,或自己编写程序的方式来抓取相关网页的内容。但这个对个人的操作和动手能力有一定的要求了,如果感兴趣,可以自己百度学一学,因为涉及到很多方面的内容,在此不再展开。

 


 

最后,还是重新申明一下:这种分析方法,看似是好像利用了网络大数据进行了系统分析,感觉得出来的结论多么的科学、有道理。其实不然,我个人认为就是花拳绣腿,糊弄客户。

首先,在网站上写点评的人只是社会中的某一部分人,他们代表不了去故宫旅游的所有人,他们的行为特征或偏好,只能反映出马蜂窝用户的群体特征,如果拿这个特征套用到景区所有游客身上,难免 有失偏颇。

其次,这种通过分词,来统计词频的方式,有一个弊端,就是如果游客评论的是“排队很有意思”、“排队好麻烦”,系统都会提取出“排队”,但游客对“排队”这个词是正面还是负面的态度,我们仅从词云上无从得知。再比如游客都提到了“钟表馆”,大家是在吐槽钟表馆不行,还是赞赏钟表馆很nb?——无从得知。所以,分析这个鸟东西,除了装逼,还能有啥用呢?呵呵

所以,这种操蛋的分析方式,仅能作为撰写方案的时候,私下里自己的参考,如果大篇幅放到规划文本中,无论是甲方还是乙方,都请鄙视他!