6月8日,哈佛大学在其学术社区平台“DASH”公布了一篇论文。这篇新闻一开头就用了一个令人震惊的标题——武汉在2019年秋天就可能有(新冠)病毒迹象。

标题令人震惊,内容却十分滑稽。在这篇论文中,作者仅仅通过对比2018年10月和2019年10月这两个时间段内,武汉多家医院停车场车辆数量,以及这两个时间段内百度搜索“腹泻”“咳嗽”等词的搜索数量,就得出所谓“武汉在2019年秋天就可能有(新冠)病毒迹象”的结论。

打开网易新闻 查看更多图片

又由于在这篇论文中,哈佛cue到了百度搜索指数,所以百度在6月11日紧急回应:从武汉医院附近交通车流量和百度上关于“咳嗽”与“腹泻”的搜索数据来得出关于病毒的结论,这是非常牵强和不严谨的。

事实上,武汉地区“咳嗽”的整体搜索量峰值跟每年的流感季是吻合的,而“腹泻”的搜索量与往年相比并没有明显变化。同时百度指数显示,2019年12月左右“腹泻”搜索量还有轻微下降。

百度方面也同时呼吁,相关研究需要更加科学严谨地引用百度数据。

说到底,哈佛作为国际知名学府,在甩锅这件事儿上表现得过于急躁了些,以至于连百度指数都还没搞清楚就出来写稿子,这样的内容比起国内的许多自媒体小编吹起牛来都要不负责任。

不过这件事情也并非完全的负能量。

事实上,通过哈佛这件事情也给我们所有人做了一个提醒,那就是那些听起来就十分高大上的大数据也并非完全就掌握在高科技企业的实验室里,其实在我们的日常生活中,我们就能通过这样的大数据来获取行业观察、了解舆情状态

那么今天,我也借着这次机会,以百度指数为例和大家分享一下:在日常生活中,我们该怎样正确使用大数据洞察,好让大家在扩大自身视野的同时又不至于闹出像哈佛一样的笑话。

作者 / 指北BB组 大浅

编辑 / 蒲凡

前面我们提了那么多,那么哈佛吹牛逼都用的百度指数究竟是个啥玩儿意呢?

其实,百度指数还真不是个玩意儿。根据百度官方介绍:百度指数是以百度海量网民行为数据为基础的数据分享平台。在这里,你可以研究关键词搜索趋势、洞察网民兴趣和需求、监测舆情动向、定位受众特征。

百度指数能够告诉用户:某个关键词在百度的搜索规模有多大,一段时间内的涨跌态势以及相关的新闻舆论变化,关注这些词的网民是什么样的,分布在哪里,同时还搜了哪些相关的词。

2006年7月29日,百度指数1.0测试版上线,到2007年11月29日,经过一年多的优化,百度指数1.0正式上线。此后,经过6年多的发展,到2013年12月23日,百度指数完成升级,2.0版本正式上线,在当时也引起了不少用户的关注。

打开网易新闻 查看更多图片

到今天,百度指数已经形成了包括趋势研究、需求图谱、人群画像三大板块为主的7大数据分析模块,成为了当前互联网乃至重要的统计分析平台之一。

那么,百度指数究竟怎么用呢?

2019年以来,直播电商十分火热,成为去年以来最大的风口。而作为站在风口上的男人和女人,薇娅和李佳琦在直播电商发展的进程中同样获得了巨大的关注。而正好指北团队最近就在关注直播电商行业,所以我们今天就以李佳琦和薇娅为例,来看看百度指数都反应了一些什么信息。

使用百度指数十分简单,通过百度搜索关键词“百度指数”,点击搜索结果的第一个链接就能进入百度指数的主页面。随后在搜索框中输入我们这次要探究的关键词“李佳琦”,点击开始探索,便能正式进入数据页面了。

进入数据页面之后,我们还需要在关键词栏目再添加一个关键词“薇娅”作为对比词汇。此外,我们还需要根据情况设置时间范围,数据来源和地域范围。

在这里,我们将时间范围设置为半年,其他保持默认。这样,我们就算是完成了前期设置,下面可以正式开始关于这两大当红主播的数据探索了。

打开网易新闻 查看更多图片

当然我们也可以输入更多的关键词作为对比,例如抖音带货的罗永浩罗老师,或者之前在快手直播的带货一哥辛巴,只要添加关键词,我们就能看到在整个时间线上,每个关键词的搜索热度。

而当我们观察这些关键词在近半年以来的搜索峰值就会发现,在4月1日这一天,罗永浩的搜索指数达到420179,是近半年以来的最高峰值。

看到这个情况,对直播电商或者罗永浩比较了解的朋友就会知道,这一天是罗永浩正式入驻抖音,开始人生的第一场直播带货的日子。

当然,如果你不清楚也没关系,根据时间点,我们可以在百度再次进行搜索,同样能明白在4月1日这一天,在罗老师身上究竟发生了什么。

所以,你明白了百度指数的基本玩法了吗?

好了,再回到李佳琦和薇娅。通过移动下方的蓝色横条,我们就可以以半年为单位对所搜索的关键词进行横向查看。

通过对比我们会发现,薇娅比李佳琦“出圈”更早。在2018年3月31日,在网上就已经有了薇娅的相关报道,而李佳琦第一次出现在网上(有相关新闻)则要等到2019年1月24日。

打开网易新闻 查看更多图片

虽然李佳琦出名更晚,但显然李佳琦团队更懂得媒体公关和品牌营销。

因此,在2019年1月正式“出道”之后,李佳琦的百度指数热度迅速超过薇娅,并在2019年5月12日这天达到第一个峰值。通过搜索我们知道,在这一天,李佳琦将自己的口头禅“oh my god”注册成了声音商标,这也代表着他向着自己的梦想“做一个享誉全球的中国品牌”又迈进了一步。

而当我们把时间线再往前移,我们会发现直到2019年10月,薇娅团队在才正式开始在品牌公关上发力。此后,从2020年4月24日开始,李佳琦的热度开始消退,薇娅开始反超,到4月底,薇娅的热度全面超过李佳琦,正式成为带货直播电商领域的一姐。

而在百度指数趋势图下方,百度指数也给了我们更为直观的整体数据描述。通过这组数据我们可以看出,在最近半年的这段时间,李佳琦和薇娅无论是整体日均值还是移动日均值都相差不大。但是在增长趋势上,无论是在同比(与去年同期相比)还是环比(与上一个相邻时间段相比),是整体还是移动端,薇娅的热度增长速度都远远高于李佳琦。

所以我们不妨猜想一下,如果李佳琦不努力的话,在今年下半年结束的时候,薇娅可能就会远远将他甩在身后了。

聊完了搜索指数我们再往下翻,会发现在下方还会有一个资讯关注栏目。这个栏目分为两类,一类是资讯指数,一类是媒体指数。

所谓资讯指数是指以百度智能分发和推荐内容数据为基础,将网民的阅读、评论、转发、点赞、不喜欢等行为的数量加权求和得出资讯指数;而媒体指数则是以各大互联网媒体报道的新闻中,与关键词相关的,被百度新闻频道收录的数量,采用新闻标题包含关键词的统计标准,数据来源、计算方法与搜索指数无直接关系。

这样听起来可能比较复杂,所以讲人话就是:资讯指数更侧重网友对这个关键词的关注程度,而媒体指数更偏向新闻报道对这个关键词的关注程度。

那么再回到数据上看,我们能够直观感受到的是媒体指数和资讯指数基本呈正相关的趋势,媒体指数越高,用户的关注程度也越多,但如果我们将媒体指数和搜索指数相对比,我们又会发现,在网上投放更多的新闻内容并不一定会提高用户的搜索反馈。

以2020年5月14日为例,李佳琦的媒体指数这一天达到半年以来的峰值,但这一数据却并没有在搜索指数上得到应有的反应。

所以我们或许可以判断,在李佳琦团队长期的公关策略中,单纯的媒体内容投放已经并不能达到预期的效果,反而是薇娅在4月份以来更频繁的参加社会公益活动更能引起广大网友的关注和共鸣。

聊完了趋势研究这一栏,我们再往右边就是关于搜索关键词的用户需求图谱。而这一栏可能会比刚才单纯枯燥的数据来的更有趣一些。

我们先以李佳琦为例,可以看到在关键词李佳琦之外,会有三个深浅不一的圆圈,而颜色越深,越靠近李佳琦就说明这个搜索与它的相关程度越高。

除此之外,绿色的表示搜索趋势下降,而黄色的则表示搜索热度上升,再加上最下方的时间线,整个用户需求图谱就十分清晰了。

通过这些关键词,我们大概可以了解到,用户搜索李佳琦除了关注他和薇娅的竞争之外,广大网友还关心李佳琦是哪里人、李佳琦的个人资料;而相比于李佳琦,网友对于薇娅的关心则会显得更为八卦一些,例如网友除了会关心薇娅的个人资料,还会关心薇娅的老公是谁,并试图通过专程搜索董海峰去更多的了解这个薇娅背后的男人。

所以,通过这样的对比,我们似乎也能推测出一些关于广大网友在关注名人这件事背后的逻辑,当一个帅气的男性事业成功的时候,人们往往会关注这个男性本身;而当一个漂亮的女性事业成功的时候,人们却总会想要去窥探这个女性背后的男人。

聊完了需求图谱再往右边就进入了百度指数的最后一栏,人群画像。在这一栏中,我们能够看到搜索关键词的用户包括地域、年龄、性别、兴趣的基本分布情况。

可以看到,在地域分布上,李佳琦和薇娅的主要关注者都来自东部沿海城市、华中地区和四川等地。这些数据也同时反映了,在我国广大的土地上究竟哪些省份对直播带货的接受程度更高。

另一方面,在右边的排行栏中,我们不仅能够看到在各地区对于关键词的关注程度,而且还能通过对比关键词看到,近半年时间,在广东和上海关注李佳琦的人要远远超过关注薇娅的人,而在浙江、河南、安徽、山东等地,薇娅的关注度会更有优势。

而在年龄分布上,我们还能看到,关注李佳琦和薇娅的网友当中,年龄主要集中在20-39岁,其中20-29岁年龄层次的用网友明显占比更多。

同时,面对李佳琦和薇娅两个不同风格和不同性别的主播,李佳琦明显的更受女性用户和年轻用户的喜爱,而关注薇娅的用户在性别和20-39岁之间的年龄分布相对更为均衡。

另一个比较有意思的是,无论是关注李佳琦还是薇娅,女性用户都高于男性用户。所以,对于买买买这件事儿,女性或许真的比男性更有天赋也说不定。

最后,在地域、年龄和性别分布之后,百度指数最后一栏的最后一项就是,关于搜索关键词的用户的兴趣画像。

这个兴趣画像同样分为两个部分,一个是用户搜索占比,另一个是TGI。

不知道什么是TGI?没关系,我也不知道什么是TGI。所以我又用百度查了一下。所谓TGI,又叫目标群体指数,可反映目标群体在特定研究范围内的强势或弱势。

说人话就是:TGI指数越高,目标群体相关性越强,反之则越弱。

所以,通过搜索占比我们可以看到,关注李佳琦和薇娅的网友在整体兴趣点上是基本一致的。但是如果我们再通过TGI来观察的话,就会发现,在关注李佳琦的用户中,热爱游戏的用户的TGI明显要高于关注薇娅的用户。

所以如果有一天你打算找李佳琦或者薇娅帮你直播带货,而你的产品又刚好是一款游戏相关产品的时候,那么我肯定会强烈建议你选择李佳琦。

最后,在明白了百度指数的使用方法之后,我们还应该知道,在百度指数之外,还有许多平台数据分析工具,例如微信就有微信指数,微博也有自己的微博指数,而这些数据其实也都能够被用户公开查询。

所以,在如今的互联网世界中,信息的门槛被踏平,当一个新闻出现的时候,每一个身处互联网世界的人都可以通过自己的方式去求证。

而这也同样告诉那些一心甩锅,或者一心想要搞个大新闻的人,新时代的人们已经不再像之前那么好欺骗,而你们如果还想搞个大新闻,那起码也得先学会基本功是吧。