打开网易新闻 查看更多图片

深燃(shenrancaijing)原创

作者 | 王敏

编辑 | 金玙璠

“冲刺”一个多月后,百度文心一言终于来了,但刚出道就遭到群嘲。

3月16日下午,百度举行文心一言发布会,被寄予厚望的发布会居然没有产品现场演示,而是采用“Demo演示”的形式,用提前准备好的问题和答案做展示,瞬间引发众多吐槽。或许百度是吸取了谷歌的教训,看到其因Bard产品在演示中“翻车”导致市值一下子蒸发了1000亿美金后,才变得谨慎。

不仅如此,很多对新产品跃跃欲试的用户们,被“邀请码”阻挡在了门外。直到晚间,才有极少部分用户真正“尝鲜”。

深燃拿到邀请码后,第一时间实测了文心一言的“五大能力”,整体感受是,文心一言的大多数回答,还算流畅自然,产品达到可用水平,但对于部分基础问题,不能正确理解题意,更不要说给出准确答案,而且多轮对话能力也有所欠缺。

就在前一天,国内外还沉浸在对3月14日OpenAI新上线的GPT-4的讨论中。GPT-4比上一代准确性更高,解决问题能力更强,可以处理超2.5万字的文本,并支持图像输入,尽管现在图像输入还未对外开放,但这款产品已经拔高了用户对产品的标准。

在文心一言发布的当晚,微软再发“重磅炸弹”,举办了一场Microsoft 365 Copilot发布会,将GPT-4模型引入Office应用程序,举个例子,熬夜赶不完的论文Word、看不出数据联系的Excel表格,都可以找Copilot来帮忙。Copilot也被评价为,要颠覆打工人的工作方式。

自去年12月以来,中外大厂们都纷纷冲刺,试图追赶ChatGPT,百度被视为是国内比较有希望追赶ChatGPT的选手之一,两相对比,有部分用户表示看到文心一言时,觉得被迎头浇上一盆冷水。资本市场对百度的文心一言似乎也不买账,发布会进行过程中,百度股价一度下跌10%。截至3月16日收盘,百度股价报125.1港元,跌6.36%。

不可否认,作为国内第一款对标ChatGPT的产品,百度也算是勇敢的迈出了第一步。但此前百度铺天盖地的宣传已经拉高了外界预期,目前看来文心一言有些高开低走,让外界对其何去何从产生了质疑。

亲测百度文心一言,不够AI

从2月初官宣要集中“冲刺”,百度文心一言吊足了外界的胃口。

但在正式发布时,观众们的评价都是“文心一言,一言难尽”、“CheatGPT”等不太正面的言辞。

对于这次百度文心一言和ChatGPT的PK,英诺天使基金合伙人王晟对深燃形容道,就像是“China PPT VS ChatGPT”。

百度“文心一言”究竟怎么样?在发布会现场,百度创始人李彦宏从文学创作、商业文案创作、数理推算、中文理解和多模态生成五个方面举例展示了文心一言的能力。拿到邀请码后,深燃也从五大层面对文心一言进行了体验,并将部分答案与接入GPT-4的微软New Bing或基于GPT-3.5的ChatGPT进行了对比,试图得到一些结论。

在文学创作层面,在对于最近爆火电视剧《黑暗荣耀》的剧情总结时,文心一言的答案和剧情不太相符,New Bing的答案更贴近剧情。不过,在深燃提出将电视剧进行喜剧改编时,两个产品的表现都不算太好,但New Bing对于追问的回答,更加灵活。

打开网易新闻 查看更多图片

图源 / 文心一言

打开网易新闻 查看更多图片

图源 / New Bing

在商业文案的创作能力上,我们让这两个产品分别给“文心一言”想一句广告词,文心一言设计的广告词词句更加优美,而New Bing设计的广告词更侧重于产品特性。

打开网易新闻 查看更多图片

图源 / 文心一言

图源 / New Bing

至于数学推理能力,对于小学奥数题的解答,文心一言给出了一个错误答案,New Bing的最终答案是准确的。

图源 / 文心一言

图源 / New Bing

对于中文理解能力,让两款产品解读网友对于文心一言邀请码的调侃,结果是,文心一言和New Bing都没能精准解读其中的调侃意味,不过文心一言识别出了KFC是快餐品牌,还提醒不要将该邀请码和特定品牌关联。

图源/文心一言

图源 / New Bing

在脑筋急转弯式的对话中,交给文心一言“要电话号码”的任务后,其在第二轮就忘记了,而ChatGPT还记得上一轮的隐藏任务。

图源 / 文心一言

图源 / ChatGPT

在多模态生成方面,目前ChatGPT的识图功能还没对外开放。文心一言可以根据文字生成图片、语言和视频,但是这并非新功能,此前在百度的其他产品中也已经看到过。而且文字生成图片有时生成的图片并不精准。比如,本意是想获得一只阿拉斯加犬图片,但由于表述不够精确,最后得到的是一张动漫图片。

图源 / 文心一言

总结下来,从深燃的初步体验来看,“文心一言”没有达到惊艳效果,有时更像搜索引擎,回答问题的方式相对模式化,情感色彩流露较少,在回答问题的精准性、灵活性、上下文多轮对话等方面还有待提升。而基于GPT大模型的产品在语言组织和创造能力上更加灵活、流畅,交互性更强一些。

智能客服从业者Allen对深燃表示,仅从个人体验的主观感受而言,如果说ChatGPT能够提供正确答案的比例在90%,那么文心一言只有70%。不过,至少从用户体验的便捷度而言,文心一言之于国内用户,要比ChatGPT更加方便。

距离OpenAI,百度差了多少步?

对于“文心一言”的产品表现,百度创始人李彦宏略显底气不足,在发布会刚出场不久,就开始主动降低用户预期。他说道,“要对标ChatGPT、甚至GPT-4,门槛还是很高的”、“自己测试还是感觉有很多不完美的地方”。

产品的背后,国内大厂和OpenAI相比,差在了哪里,差距又有多大?

AI大模型之争最早是在国外科技巨头之间,此后国内大厂纷纷跟进。有专家分析称,在2020年中GPT-3发布后,双方差距进一步拉大,当时很多人认为不仅是技术的差距,更体现了AI模型的发展新理念。

在GPT-3的基础上,OpenAI进行了大量的微调和训练,增强交互性、更加产品化后,有了基于3.5版本的ChatGPT。

值得注意的是,3月14日GPT-4的发布,再次拉大了双方的距离。和上一代相比,GPT-4有很多跨越式提升,包括逻辑推理能力更强,比做题家更会考试;支持图像输入并能理解图像;能接收超大上下文,支持输入处理超过25000个单词的文本;更有创造力,能够写代码、写小说、编剧。

差距拉大的背后,是人才、资金投入和技术积累的差距。

来源 / 视觉中国

伴随着ChatGPT的火热,从业者们都表示,要做底层AI大模型,资金、顶尖科技人才、技术积累,这些要素缺一不可。

做大模型,前提是有资金的投入。OpenAI在2019年获得微软10亿美金的投入后,又于今年获得了微软100亿美金的投资,这让其有了烧钱的资本。业界测算,GPT-3涉及1750亿参数,训练费用约花费1200万美元。据国盛证券报告估算,GPT-3训练一次成本约为140万美元,每一次训练任务都耗资巨大。

此外,大模型训练的三要素包括大算力、大数据和大模型。有从业者指出,影响最后训练结果的因素有很多,包括清洗、标注、模型结构设计、训练推理的技术积累等。每一个因素的变化都影响着最后的结果。

过去十几年里百度一直在AI方面投入,包括2019年推出文心大语言模型。2022年百度核心研发费用达到214.16亿元,占百度核心收入比例达22.4%。

但是,百度和OpenAI还有不小差距。李彦宏也表示,无论是哪家公司,都不可能靠突击几个月就能做出这样的大语言模型。因为深度学习、自然语言处理,需要多年的坚持和积累,没法速成。

王晟曾指出,中国的ChatGPT们即便奋起直追,静态来讲两三年能追上就已经是乐观情况。但如果对方一直进化,且进展速度远比追得速度要快,那么可能永远都追不上。直到对方遇到瓶颈不得不停下来,或者国内选手找到新的技术路径,才有可能打平。

AI,百度不能输的一战

相较于完美,文心一言更加注重“争第一”,李彦宏强调,“对标ChatGPT,百度是全球大厂中第一个”。

大模型带来了AI产业的变革,也将是未来十年的主流趋势,这已经成为了业界共识。

想要入场分羹的选手不少。自去年12月ChatGPT发布之后,无论是一级市场,还是国内外的大厂,都在发力大模型,研发类ChatGPT产品。

在国内一级市场上,投资机构为了投大模型公司,焦虑难安,行业几乎每天都会有大量认知的迭代。与之相应的是创业热潮,前美团联合创始人王慧文、出门问问CEO李志飞、前搜狗CEO王小川、前京东高级副总裁周伯文等一批大佬,都在杀向大模型赛道。

国内大厂们更是如此。除了百度之外,阿里、腾讯、华为、字节、科大讯飞、商汤都没有放弃大模型之战。

相较于其余互联网大厂而言,AI,是百度“不能输”的一战。王晟分析道,站在企业角度,腾讯、阿里等大厂,发力AI是给原有业务提供助力,但AI之于百度是生死问题,需要“殊死一搏”,也会用出“破釜沉舟”的力气来研发新产品。

来源 / 视觉中国

在百度的营收结构中,广告是大头,2022年占六成左右,但近几年,呈现萎缩局势,而且被阿里、腾讯等大厂超越。百度需要搜索引擎的变革来使得广告业务回温。另一方面,百度近几年在AI方面投入颇多,而且一直对外强调其AI能力,更是将以AI为特色的百度智能云当作重要增长曲线。

OpenAI在GPT-4发布后,通过ChatGPT Plus付费版以及面向企业开放接口,正从一家小型非营利性实验室向一家成熟的商业公司转变。Allen认为,百度作为互联网大厂,自身体量比较大,有很多业务线可以直接用上文心一言,享受商业化的红利。

此外,AI大模型时代的到来,也将带来大量产业机会。李彦宏在发布会上称,大语言模型带来三大产业机会:第一类是新型云计算公司,其主流商业模式从IaaS变为MaaS;第二类是进行行业模型精调的公司,这是通用大模型和企业之间的中间层,他们具有行业Konwhow(技术诀窍),调用通用大模型能力,为行业客户提供解决方案;第三类是基于大模型底座进行应用开发的公司,即应用服务提供商。

尽管“文心一言”和ChatGPT相比或许还有差距,但并不意味着其没有发展空间。

一方面,能够发布一款成型产品,百度在国内争夺的第一,确实领先了其他同行。另一方面,在国内用户和企业较难顺畅使用ChatGPT的情况下,需要一款本土产品来提供服务。“技不如人”的情况下,百度还可以靠本土化取胜。李彦宏也提到,百度在没有完全准备好的情况下发布“文心一言”,是出于市场的需要。

考虑到信息安全和数据安全等因素,中国必须要有自研的AI大模型。王晟分析,由于AI算力的高投入和高技术门槛,目前中国能做语言类大模型的团队非常有限,有潜在能力做的只有10来个团队,最终能成的可能只有2-3家。

也就是说,百度或许并不需要和ChatGPT正面硬刚,只要在国内市场上能够占据领先位置,就能够享受中国市场所带来的红利和发展空间。

王晟认为,短期内,百度的“文心一言”或许没有达到市场预期,但从中长期来看,百度还是具备一定的竞争力。

新一轮AI范式变革,才刚刚开始。

*题图来源于视觉中国。