正式发布了。网易的大数据产品也没闲着,这就搞了点事情:。

这篇文章的内容很多,大家有需要的可以自己读读,肯定有收获。我就不展开一一分析了。

今天的重点是看看这篇文章网易是如何打脸Databricks的。

打开网易新闻 查看更多图片

这是Databricks在官宣要发布Delta Lake 2.0的讲座的时候的一张PPT。网易的文章也引用了。简单来说就是Delta Lake 2.0快,Iceberg Hudi都是渣渣。

这个测试是第三方Databeans做的。网易的文章里面有这样一段话,非常的有意思。

对比一下,之前Databricks连发数篇文章,官宣自己比Snowflake的TPC-DS牛逼,那个测试也是第三方做的,不是Databricks要求第三方做的。

看起来网易这里是意有所指。当然,我们都知道,屁股决定脑袋是人类社会的通行证。网易的底座是Iceberg,Databricks开源Delta Lake2.0想要对付的敌人也是Iceberg。我只能说网易和Databricks多多少少都各自有各自的屁股。所以多多少少也会各自决定各自的脑袋。

至于各自的屁股怎么样,这里也引用一段文字:

更精彩的来了。原谅我忍不住把这整段文字都截屏下来,实在是很精彩的。

打开网易新闻 查看更多图片

网易的团队自己对Delta Lake 2.0和Iceberg做了测试,测试的结果是如果使用默认值,大概确实是前者比后者快了1.4倍。

但是这个比较不公平,因为默认的压缩算法不同,默认的read-target-size也不同。把这两个参数都改成一样以后,两者就没差别了。快,不存在的。

除此之外,网易的团队还引用了Hudi背后的公司OneHouse对Databrick公布的测试的反击,具体看下图:

所以Hudi背后的公司也觉得Delta Lake2.0比Hudi快那么多,是扯淡。

我觉得这些东西都没错了,所谓测试测试,都应该先公布怎么测的,然后才能让我这样的第三者吃瓜群众去判断,到底谁对谁错,谁在说真话,谁在说谎。

我其实挺期待Databricks专门再写个blog,反击一下网易还有Hudi们对它的“攻击”。毕竟Databricks对Snowflake当初的反击可谓非常的猛烈,剧烈。Snowflake被Databricks搞得灰头土脸的。

根据我对Databricks的了解和接触,这个公司还是比较喜欢在“公平”的测试环境里进行测试的。所以也许Databricks的测试并没有错,Delta Lake2.0就是这么的优秀。只不过Hudi和网易的测试,并没有反映出对Delta Lake有利的那一面。

从这个角度来看,我也希望Databricks就这个问题写篇blog,好好反击一下这些打脸的公司,给大家看看Databricks牛逼的地方。

那么Delta Lake2.0这个东西出来以后,到底对整个社区是什么影响呢?每个人都有每个人的看法,网易的看法很精彩。

读完这一段,你说,到底是Iceberg更优秀,还是Delta Lake 2.0更优秀呢?

字里行间,我个人的理解是,单纯来看这个产品,现在Iceberg更优秀。但是Delta Lake毕竟背靠一个大公司啊,有Databricks这个亲爹,Iceberg如果商业化不当心一点,弄不好真的就被Delta Lake给掀翻了。

不过别怕,网易爸爸在,Snowflake爸爸在,Dremio爸爸也在。只要这些爸爸们都愿意给Iceberg站台,加上网易认为的Iceberg有1-2年的先发优势,红红火火恍恍惚惚,前途是光明的。

我不得不说,网易的这位作者,对写公众号的技巧是掌握的非常炉火纯青,即使是打脸了Databricks,也让人觉得,宝贝,虽然我打脸你了,但是我还是爱你的,将来我也会支持你的。

至于自己一直以来长期支持的Iceberg呢,家花怎么样也比野花要更好啊,虽然野花看起来更嫩更富贵。对吧。