从不同的渠道得知,今日头条要切入百度的搜索市场,准备大力投入做搜索了,那么,头条再造一个搜索引擎,还有没有成功的机会呢?

作为一个搜索的老兵,根据以往的经验,聊聊思考和看法。 文|陈利人 乌镇智库首席科学家,曾担任Google搜索CJK(中日韩)技术负责人和软件工程师

打开网易新闻 查看更多图片

很荣幸,在CMU(美国卡耐基梅隆大学)上学的时候,和互联网第一个搜索引擎Lycos的发明者Fuzzy就是office mate,一个办公室两个人,我就坐他旁边,但他经常不在,因为他虽然还挂在学校,但大部分时间在Lycos工作。那时候,由于工作站CPU和磁盘容量等硬件条件的限制,采集的网页不能太多,也不能全文索引,只能索引标题和网页前面200个词。由于还没有很好的商业模式,spam的网页也几乎没有。在当时的情况下,搜索质量可以接受。当时,Lycos可是一只独秀。

打开网易新闻 查看更多图片

后来,随着互联网和WWW的飞速发展,更多的搜索引擎冒出来了。在千军万马混战之时,从DEC出来的AltaVista,由于采用了小型机来做搜索,能够存储的网页明显多了,而且,可以索引网页的全部内容,这时,无论是新鲜度,覆盖率和准确度都好多了,它成为了翘首。同时,基于竞拍的CPC商业模式表现出生命力,生存空间明显增大。

从这里看到,第一次搜索的机会在于硬件范式的转变,从工作站到小型机。

随着越来越多的人创作网页,互联链接,从Stanford出来的两个学生,由于之前扎实的数学功底,发明了 PageRank 算法,充分利用了人创造的链接的信息,一个网页被高质量的网页链接,这个被链接的网页的质量也应该不错。另外,当时计算机硬件也得到了充分的发展,PC的配置和质量也不错了,他们打破了用小型机来做搜索的习惯模式,大胆的采用网络连接的PC集群来实现大文件的存储,大计算量的分布式计算。凭着这两个杀手锏,击败了AltaVista,成为搜索界新的冠军。再加上越来越多的广告主认知到了搜索广告的精准,Google通过竞拍的CPC模式,商业上也取得了辉煌的胜利。

打开网易新闻 查看更多图片

于是看到,第二次搜索的机会在于思维和架构改变,crowd wisdom和聪明的算法,小型机到PC集群,丰富的链接和智能算法。

在Google独步天下的时候,却有一个地区, 由于墙的强大功能保护,最懂中文的百度搜索,在中国取得了巨大的成功, 成为绝大多数中国网民的选择,凭着百度强大的品牌效应,各种搜索入口流量的把持,和缜密的销售网络的建立,雄霸国内市场,虽然出现多方挑战,几乎还是利于不败之地。其中包括搜狗,360,和微信搜索,还是没有撼动百度的盟主地位。但百度自己的国际化,也无功而回。

这里看到,百度搜索的机会,与其说是懂中文,懂国民,懂国情,不如说最重要的是墙。

打开网易新闻 查看更多图片

那么,这次今日头条再来挑战百度和搜索,成功的概率会在哪?如其看成功的概率,不如看看有哪些障碍。 其一,搜索是一种独立的场景和需求,定位,品牌,心智和口碑起到了至关重要的作用。 用户有搜索需求的时候,首先想到的是谁?不大可能想到其它场景占领用户心智的产品,比如微信,比如头条,比如抖音,比如安全卫士,比如输入法,比如手机桌面,等等。这个是很多公司想突入其它领域遇到的困境。 其二,在PC时代,有一个互联网的入口,就是浏览器,谁拥有浏览器的首页和地址栏,谁就有入口,所以都在霸占用户的浏览器入口,从而带来搜索的流量。 360就是靠着这种方式,得到的PC搜索的流量,但这种流量都不是自然的流量,而且浏览器安装量没有增长,搜索量也没有增长,很容易就达到了瓶颈。

其三,PC时代基本停滞了,在移动时代,环境和用户行为完全改变了。 智能手机上,不再有唯一的移动互联网入口。就算是手机桌面上,有一个大大的搜索框,用户也不见得会使用。 用户还是习惯的打开百度App来搜索,因为它对用户的心智占领太强大了。对于通用搜索之外的需求,用户会打开不同的App去满足,比如,搜索机票用携程,高铁票用12306,导航用高德,买东西用淘宝京东,等等。就算360手机卫士当初有很大的装机量,但几乎给360带来不了移动搜索。同理,虽然有用户在微信搜索,在头条搜索,但绝对不是用户的第一冲动。 需求不同,场景不同,用户的行为不一样。所以,在今日头条和抖音这种流量很大的App中,不一定用户会去使用搜索。

打开网易新闻 查看更多图片

其四,流量的入口,不像搜索刚开始那样可以去花钱占有。 各种有搜索价值的流量入口和渠道,都已经基本被百度高价长期买下了。要让这些渠道切换,是一件很不容易的事情。除了能给出更高的价格,还能赚回来,否则烧钱什么时候是个尽头。

其五,从技术和积累来说,现在网页的采集和搜索质量的提高,和历史数据的积累很有关系。 想要高覆盖率和高实时性的网页采集,没有历史网站和网页的数据积累,很难做到高质量网页的实时判定和采集。就搜索质量而言,没有历史垃圾网页和网站的积累,很难将它们从搜索结果中清除。 就搜索的准确满足用户需求来说,没有大量用户搜索词和点击数据的积累,很难满足头几个结果就是用户所需要的。现在,搜索的质量,很大程度依靠的是链接,锚文本,和点击记录的长期积累和挖掘。

既然有很多的障碍,今日头条如何克服,实际上可能很难克服,也就是说再造一个全网搜索的概率很小了。

倒是有一条路径可以尝试,兴许能有成功的概率。

就是对头条系的每个产品和内容,做一个好用的垂直搜索,比如,今日头条用来搜索资讯,抖音用来搜索视频,然后再做音乐,购物,游戏,娱乐,严肃内容,八卦内容,等等。通过每一个好用的垂直搜索,而且通过做大量的垂直搜索,然后,将它们整合到一个统一的全网搜索。但是,如何去占领用户的心智,让用户想到搜索,就想到头条,还是有待探索。

无论从技术范式变革的大环境,用户产品定位的心智占领,历史用户搜索行为数据的积累,有流量不一定有搜索,搜索毕竟是一种古老的用户需求。

乌镇智库 资讯推荐

乌镇智库发布《全球人工智能发展报告(2018)》(附下载链接)

25个视频神同步,还能给视频声音移花接木,谷歌开源最新自监督算法

腾讯开源首个医疗AI项目,业内首个3D医疗影像大数据预训练模型

打开网易新闻 查看更多图片

乌镇智库发布《全球人工智能发展报告(2018)》(附下载链接)

打开网易新闻 查看更多图片

尼克谈人工智能的历史、现实与未来