Vectara使用RAG解决LLM谎言和香农定理限制

Vectara首席执行官Amr Awadallah表示，由于设计方式和香农信息定理(Shannon Information Theorem)关于数据压缩的基本限制，大型语言模型(LLM)会产生幻觉。但也有解决LLM幻觉问题的方法，包括Vectara使用检索增强生成(RAG)等方法。

麻省理工学院教授克劳德·香农(Claude Shannon)于2001年去世，他因在数学、计算机科学、电子工程和密码学领域的广泛贡献而被称为信息论之父。他在其开创性论文《通信的数学理论》(通常被称为“信息时代的大宪章”)中发表的一项观察称，在数据开始失去意义之前，可以压缩多少数据是有内在限制的。

Awadallah解释道:“香农信息定理毫无疑问地证明了你可以压缩文本的最大值是12.5%。如果压缩超过12.5%，那么你现在就处于所谓的有损压缩区，而不是无损压缩区。”

信息论之父，麻省理工学院教授克劳德·香农

问题是，LLM用于训练的数据压缩远远超过了12.5%，这导致LLM进入有损压缩区，因此容易出现错误和幻觉。Awadallah说:“简而言之，它们产生幻觉是因为我们把数据压缩得太多了。”

今天的一些LLM需要大约1万亿个单词，并将其塞进一个有10亿个参数的空间，这代表了1000倍的压缩率。他说，像GPT-4这样的一些工具做得更好，压缩率约为100倍。

Awadallah说，减少幻觉的一个简单方法就是将更少的数据塞进LLM中——在更小的数据集上有效地训练LLM——并使压缩率高于文本所需的12.5%。

但如果我们那样做了，LLM就没那么有用了。他说，这是因为我们不是在训练LLM们完美地回忆信息，而是在训练他们理解词汇所反映的潜在概念。

这位Cloudera的联合创始人说，这有点像教育物理学家。作为一名大学生，学生接触到科学公式，但他没有被无休止地死记硬背。物理学家教育中最重要的部分是掌握物理世界的关键概念。在测试中，物理学生可以打开课本来学习科学公式，因为物理老师明白，即使学生在展示对关键物理概念的理解时，偶尔也会忘记一个公式。

Awadallah说，开卷考试，而不是要求完美记忆，是解决LLM幻觉的部分方法。使用RAG技术实现的开卷测试为LLM带来了额外的数据，提供了一种检查LLM是否倾向于编造内容的方法。

他说:“简单说，RAG就是一本打开的书。我们告诉(LLM)，‘你们现在的工作是回答这个问题，但只能使用这些事实。’”

Vectara的大语言模型幻觉排行榜(图片来自Vectara)

Vectara的工作人员希望这种“沙盒”技术足以将幻觉率降至零。他们很快了解到，虽然它在一定程度上降低了幻觉率，但并没有完全消除幻觉。例如，使用Vectara的RAG，GPT-4的幻觉率下降到3%，这有所改善，但仍不足以用于生产。根据Vectara的幻觉排行榜，Llama- 270b的幻觉率为5.1%，而谷歌Palm的幻觉率约为12%。

Awadallah说：“虽然所有这些事实都是正确的、未经压缩的、高度(相关)的事实，但它们仍然可以虚构一些东西。”

消除剩余的幻觉需要另一种技术：创造一种专门用于检测幻觉的新型LLM。

与人类事实核查员一样，被称为“回旋镖”(Boomerang)的Vectara LLM会生成一个分数，该分数与LLM的答案被捏造的可能性相对应。

Boomerang比GPT-4本身更擅长事实核查的一个原因是，它是专门为事实核查而设计的LLM。另一个原因是，它是根据公司自己的数据进行训练的。客户可以定义模型用来确定真实性的事实。然后，这些数据被存储在Vectara解决方案的另一个组件中：一个自制的矢量数据库。

Awadallah说:“矢量数据库所做的是存储你的原始内容——你拥有的文本——但它也存储内容背后的含义，作为矢量嵌入。我们会根据你所处的环境，以及你在一个经营企业的组织中所拥有的东西，为你提供非常专业的服务。”

Vectra的完整解决方案仅在云中运行，包括Boomerang、“盒子里的RAG”和一个运行在LLM旁边的矢量数据库。任何非结构化文本，从word文档和pdf到基于纸张的文件，都可以通过光学字符识别(OCR)作为训练模型的输入。

Vectara让客户可以选择使用GPT-4或Mistral 7B，作为托管服务运行在云中，也可以运行在客户自己的VPC中。

客户选择哪个LLM取决于他们想做什么，以及他们向OpenAI发送数据的适配程度。

“Mistral 7B是目前世界上最好的模型之一。它的体积很小，所以速度非常快，而且平均表现非常好。” Awadallah说，“我们自己为客户提供这种模型。或者如果他们想让我们调用GPT-4，我们也可以调用GPT-4。”他说，Meta的Llama-2将在未来加入。

在ChatGPT引发人工智能热潮之前，Awadallah于2020年创立了Vectara，该公司的目标是让企业能够创建自己的聊天机器人和会话界面。Awadallah承认，有数百家初创公司和成熟的科技公司在追逐这个信息金矿，但他坚持认为，Vectara已经建立了一个解决方案，解决了人们对幻觉的担忧，以及其他一些问题，比如防御即时注入攻击，这在某种程度上使公司走在了前沿。

Awadallah表示，自从去年4月推出GA产品以来，Vectara已经收到了1.8万名注册用户，这一数字以每周500至700人的速度增长。在使用Vectara的公司中，有一家超声波制造商希望根据专家最佳实践的提炼实现机器配置的自动化，还有一家财富咨询公司希望提供无幻觉的金融建议。

Awadallah说，虽然高管们正在窥视GenAI革命带来的利益，但它也给像Vectara这样的公司带来了阻力。

他表示:“我认为ChatGPT帮助很大，但它让企业踌躇不前。”“当他们看到这些幻觉时，他们不确定自己能不能用这个。如今，在市场上看到了解决方案，他们可以真正控制这种幻觉。”

Vectara使用RAG解决LLM谎言和香农定理限制

2023 年度上海市科学技术奖复评结果公示

一哄而上，打不赢美国高科技

一位穷苦科研人的年度总结：喜提「WB 条带艺术家」及「茶歇杀手」称号

俄罗斯政府暂时禁止食糖出口

非洲蜥蜴人

美籍华裔数学家来中国演讲：中国目前的数学水平，还不如1940年的美国

“堵车到崩溃，眼睁睁看着飞机飞走了……”今天中午，杭州也将进入高峰

真没想到，刚刚海试的福建号航母竟然比山东号航母大那么多

首个抢七！米切尔狂轰50分创纪录比肩詹皇包揽末节18分仍空砍

日本1-0绝杀乌兹别克！时隔8年再夺亚洲杯冠军，加冕双冠王创历史

嫦娥六号成功发射开启世界首次月球背面采样返回之旅

数学史上的十大难题：我猜你一个都不会做，会做说明你是数学大神

哪个瞬间让你终止了相亲？看网友的评论引起万千共鸣

90后程序员辞职搞灰产：开发视频搬运软件、不到一年获利超700万，结局很刑！

“离谱的AI扩图”火了！张张那叫一个出其不意

小男孩在景区玩耍被路过的鹈鹕“偷袭”一口夹住脑袋

全新神经网络架构KAN一夜爆火！200参数顶30万，MIT华人一作

男子出借身份帮人买房获1万6好处费结果背上百万贷款

服务区一新能源车电量耗尽大人小孩弯着腰推车走

中国“合成旅”整套出口不现实：能打的没有钱，有钱的国家不敢打

Vectara使用RAG解决LLM谎言和香农定理限制

2023 年度上海市科学技术奖复评结果公示

一哄而上，打不赢美国高科技

一位穷苦科研人的年度总结：喜提「WB 条带艺术家」及「茶歇杀手」称号

俄罗斯政府暂时禁止食糖出口

非洲蜥蜴人

美籍华裔数学家来中国演讲：中国目前的数学水平，还不如1940年的美国

“堵车到崩溃，眼睁睁看着飞机飞走了……”今天中午，杭州也将进入高峰

真没想到，刚刚海试的福建号航母竟然比山东号航母大那么多

首个抢七！米切尔狂轰50分创纪录比肩詹皇 包揽末节18分仍空砍

日本1-0绝杀乌兹别克！时隔8年再夺亚洲杯冠军，加冕双冠王创历史

嫦娥六号成功发射 开启世界首次月球背面采样返回之旅

数学史上的十大难题：我猜你一个都不会做，会做说明你是数学大神

哪个瞬间让你终止了相亲？看网友的评论引起万千共鸣

90后程序员辞职搞灰产：开发视频搬运软件、不到一年获利超700万，结局很刑！

“离谱的AI扩图”火了！张张那叫一个出其不意

小男孩在景区玩耍 被路过的鹈鹕“偷袭”一口夹住脑袋

全新神经网络架构KAN一夜爆火！200参数顶30万，MIT华人一作

男子出借身份帮人买房获1万6好处费 结果背上百万贷款

服务区一新能源车电量耗尽 大人小孩弯着腰推车走

中国“合成旅”整套出口不现实：能打的没有钱，有钱的国家不敢打

首个抢七！米切尔狂轰50分创纪录比肩詹皇包揽末节18分仍空砍

嫦娥六号成功发射开启世界首次月球背面采样返回之旅

小男孩在景区玩耍被路过的鹈鹕“偷袭”一口夹住脑袋

男子出借身份帮人买房获1万6好处费结果背上百万贷款

服务区一新能源车电量耗尽大人小孩弯着腰推车走