搜索引擎怎么搜不到信息了？互联网正在孤岛化吗？｜图文

打开

柴司的每期视频，都会在微信公众号上配上一篇精美的文字稿，但你在搜索引擎中却搜不到它们。

实际上，所有的公众号图文，这些小视频，还有这些商品.......搜索引擎统统搜不到。

搜索引擎里的信息为何越来越少？互联网为什么变成了一座座信息孤岛？

视频版

↓↓ 看完这个视频就知道了 ↓↓

打开网易新闻查看更多视频

搜索引擎怎么搜不到信息了？互联网正在孤岛化吗？｜图文

↑↑ 信我，真的超级好看 ↑↑

图文版

我们需要先简单地了解一下，搜索引擎是怎么搜信息的。

搜索引擎中最基础的工具，叫做「爬虫」。

「爬虫」搜信息跟你用浏览器上网差不多，都是先向服务器发送请求，获得返回的页面，然后从中筛选出有价值的内容。

比如这就是一个简单的爬虫。这行代码相当于把网址链接输入浏览器，获得豆瓣电影排行榜的文本内容：

再使用一些解析工具，就能找到你要的信息：

不过这只适用于简单的静态网页。而像柴司的B站主页属于动态网页，此时就需要借助浏览器的渲染工具才能获取到有用的信息。

比如这行代码，就能让爬虫借助 Chrome 框架来渲染爬取的网页，顺利获取动态渲染的内容。

只要几分钟的时间，你就能写出这些简单的爬虫。

每年三月，虚拟世界都会出现“三月爬虫”的壮观景象——因为临近毕业的学生都在临时抱佛脚，爬取数据写论文~

一些技巧足够娴熟，又没把技术用对地方的朋友，还能给自己甚至整个公司都赢得包吃包住的待遇。

当然，搜索引擎的工程架构高度复杂，我们刚才所说的只是这个架构中的一个部分而已。

但至少从理论上来说，只要时间与资源足够，网上的绝大部分内容都能被搜索引擎的爬虫爬取到。

那为什么搜索引擎还是搜不到这些内容呢？

因为有人限制了爬虫。

并不是所有的信息都愿意被爬虫搜集，所以爬虫与网站之间有一套行业默认的协议：robots协议。

你可以在许多网站的根目录里看到这样的robots协议，它会告诉爬虫哪些内容可以爬取，哪些不能。

比如这是B站个人主页的robots协议，它规定如果是这些白名单里的爬虫，就可以爬你主页的内容。

而这是微信公众号的 robots 协议，User-Agent 中的这个星号，是在说我不是针对你，而是针对在座的所有爬虫，统统不许访问。

所以除了可能被腾讯收购的搜狗外，你在其他搜索引擎上根本搜不到公众号里的信息。

另一大内容源今日头条也差不多：它的 robots 协议只允许自己家的爬虫获取信息，其他爬虫统统禁止。

不过，robots 协议其实只是一个“君子协定”，因为它并不是强制要求，而且没有从技术上阻挡爬虫的能力。

比如你自己在使用一些爬虫框架的时候，只需要把这个参数调整成 False，你的爬虫就会忽视掉 robots 协议，爬取信息。

那为什么搜索引擎公司不这么干呢？

因为法律不允许。

robots 协议虽然不是法律条文，但作为被广泛接受的行业规则，在法庭上也受到了认可。

比如 360 就曾无视 robots 协议抓取百度的内容。而法院在判决中认为， robots 协议是业内公认应该被遵守的商业道德，所以判决 360 赔偿百度 70 万元。

当然，两家公司当时的缠斗也并没有因此结束。

有时候，即便搜索引擎遵守了 robots 协议，也仍然可能因为爬虫内容使用不当而遭到起诉。

比如百度和大众点评的案件中，法院认为百度虽然遵守了大众点评的 robots 协议，但是却将爬取的内容用于充实百度地图和百度知道的内容，其行为具有明显的“搭便车”、“不劳而获”的特点，属于不正当竞争，最终被判赔偿 300 余万元。

所以，只要 robots 协议不让搜索引擎爬取信息，那么哪怕搜索引擎想爬，有能力爬，那也不敢爬。

不过，还要再问一个问题：

为什么越来越多的公司，都不让搜索引擎搜自己平台上的信息呢？

其实在过去，网站们大多希望被搜索引擎收录，获取流量。

比如早年间，你是可以通过百度直接搜索淘宝商品的。在当时，搜索引擎和其他公司之间是相互合作的关系。

但随着利益关系的转变，这种关系不复存在。淘宝在 2007 年屏蔽了百度，就是认为百度并没有给淘宝带来直接的交易量。

而在移动互联网时代，这种利益关系变得更为脆弱：各家公司都希望把你的时间和数据留在自己的应用里，而不是送给搜索引擎。

例如，如果你能在常用的搜索引擎里面搜淘宝商品，那淘宝就很难获取你的行为数据；而在淘宝上搜索，淘宝就能根据数据给你推荐个性化的商品……和个性化的广告。

反过来说，为了增加你停留在搜索页面的时间，谷歌等搜索引擎能让你在不跳转页面的情况下显示问题答案，这对于我们来说是方便了，但对于很多网站来说却很不划算。

为了解决这些问题，一些搜索引擎选择自建内容体系，再把搜索结果导向自己的内容池，解决信息割裂的问题，同时把流量留在自己手里——但效果似乎也不太好。

总之，最初的搜索引擎和其他公司间是相互合作的关系。但随着商业模式的转变，大家利益不再一致。曾经互联互通的互联网信息，就被圈在了一个个信息孤岛上。

最早提出「网络中立性」概念的哥伦比亚大学教授吴修铭曾说，不管是电话，电视还是电影，信息总是从最开始的人人皆可使用，走向巨头垄断的封闭局面。

我们希望互联网的未来，不会如此。

特别声明：本文为网易自媒体平台“网易号”作者上传并发布，仅代表该作者观点。网易仅提供信息发布平台。

打开网易新闻，阅读体验更佳

搜索引擎互联网爬虫爬取

目前还没有跟贴，欢迎发表观点

App内参与讨论

网易热搜每30分钟更新

打开应用查看全部

习近平：倡议运动会期间全球停火止战 1豪宅小区被外卖员吐槽赔钱也不送2396710 2中法关于中东局势的联合声明2368973 3中国和法国情谊为何源远流长2226657 4一架F-22在美国佐治亚州机场坠毁2210953 5“五一”期间电影市场红火2120976 6马龙无缘巴黎奥运会单打2027430 7专家称年轻人40岁前应以事业为重1958786 8男子确诊胃癌提前一年安排身后事1935099 9爱德华兹27分森林狼胜掘金总分2-01886002 10高铁票价调整出于哪些考虑1843730

打开

写跟贴

4.5万