★加星zzllrr小乐公众号,与君共赏数学的奥妙!
数学家Tai-Danae Bradley(泰达娜·布拉德利)正在使用范畴论来尝试理解人类和AI人工智能生成的语言。
图源:Monica Almeida/Quanta Magazine
作者:Joseph Howlett(量子杂志特约撰稿人)2025-4-9
译者:zzllrr小乐(数学科普公众号)2025-4-10
泰达娜·布拉德利(Tai-Danae Bradley)从小就对数学毫无兴趣。2008年,她进入纽约城市学院,在那里她加入了篮球队,并希望从事运动营养学的职业。她认为数学课程是一道障碍,只有天才才能真正精通。“我宁愿拔掉所有的牙齿,也不愿以此谋生,”她说。
但大二的时候,她的微积分教授改变了她的想法。她了解到,数学是所有科学的语言。“世上还有比课本更深奥的东西,”她说。“我们生活的世界真是美好,而数学是观察其中奥秘的一种方式。”
她退出了篮球队,决定主修数学和物理。如今,作为人工智能公司 SandboxAQ 的研究员,以及加州马斯特斯大学的客座教授,布拉德利正在运用数学语言,试图更好地理解语言本身。
她的视角是范畴论(category theory),这是一种从任何单一领域的具体细节中抽离出来,转而关注一个连接所有领域的更广泛的底层框架的方法。通过将语言视为一个数学范畴,她能够运用现有的工具来研究它并获得新的见解。
语言学家希望她的模型能够帮助他们证明某些关于语法和意义如何从单词串中产生的理论,并识别人工智能生成的文本与人类语言的区别。布拉德利本人更感兴趣的是,通过这种方式研究语言,她能否开发出新的数学工具。
Quanta量子杂志与布拉德利探讨了数学如何影响语言研究,以及语言研究如何影响数学。为清晰起见,采访内容已精简和修订。
是什么问题促使您开始这条研究之路?
我感兴趣的是理解:语言的数学结构是什么?它的基本单位是什么?单词和短语之间的数学关系如何产生有意义的内容?
泰达娜·布拉德利小时候不喜欢数学。但到了本科阶段,她开始意识到数学与我们周围世界的联系。
图源:Monica Almeida/Quanta Magazine
用数学方法研究语言有很多不同的方法。例如,你可以想象语言具有代数结构。当我把两个数相乘时,我会得到另一个数。同样地,我也可以把两个英语短语“相乘”或合并,得到另一个。
你还可以从范畴论的角度来思考语言。
什么是范畴论?
一个范畴(category)由一些对象以及它们之间的关系(称为态射morphism)组成。这些对象可以是集合、群或向量空间。态射将一个对象与另一个对象关联起来。假设你的对象是集合。那么态射就是将一个集合映射到另一个集合的函数。
我喜欢把范畴论想象成数学版的疯狂填词游戏(Mad Libs)。在疯狂填词游戏中,你得到一个故事,但根据你填入的不同词语,你会得到不同版本的故事。事实证明,数学领域中存在着某些共同的故事或结构。不同的数学分支可能使用不同的词语来描述事物——比如用“群”而不是“向量空间”——但当你以正确的方式替换词语时,你会发现底层框架或故事实际上是相同的。
研究生阶段刚开始学习范畴论的时候,我感觉它简直是最糟糕的东西。我记得当时我心想,这就是人们不喜欢数学的原因。它纯粹是为了抽象而抽象,没有任何直觉基础。这真是令人沮丧。直到后来,我的博士导师约翰·特里拉(John Terilla)才让我意识到范畴论是多么强大的工具。
是什么让它如此强大?
它让你的双脚离开地面,让你以鸟瞰的视角来看待数学景观,从而发现在地面上难以察觉的联系。现在这是我最喜欢思考的事情之一——只是需要更多的数学背景和更成熟的人才能看清它。
布拉德利在她周围看到了范畴论的运用。她尤其对用它来理解语言感兴趣。
图源:Monica Almeida/Quanta Magazine
什么是范畴论能让你看到,而用其他方法则无法看到的?
数学中一个真正有意义的问题是:两个东西什么时候相同?“相同”是什么意思?它如何根据你讨论的数学类型而变化?
例如,集合有点像一袋弹珠:它没有真正的结构。所以,当两个集合的元素数量相同时,我们称它们相同。另一方面,群是指元素通过某些规则相互作用的集合。此时,你对“相同性”的概念必须考虑到这种额外的结构。
范畴论提供了一个通用模板来描述这些不同的“相同”概念。你可以在尝试解决问题时使用该模板在这些不同的上下文之间切换。
你能举个例子吗?
我最喜欢的例子之一来自拓扑学的世界。被称为拓扑空间(topological space)的形状构成一个范畴。你可以将一个范畴拉伸到另一个范畴,这种拉伸就是将它们彼此关联的态射。
假设你有两个拓扑空间,你想知道它们是否相同。如果相同,那么当你将一个空间拉伸到另一个空间时,它所含的孔洞的数量不会改变。直接处理这些空间可能非常棘手,所以这可能很难弄清楚。
但这个孔洞的数量总是与来自完全不同范畴的孔洞数量相同。
布拉德利说:“也许研究语言可以帮助我们发现一些我们还没有发现的新数学结构。”
图源:Monica Almeida/Quanta Magazine
范畴论让你能够从拓扑空间的范畴跳转到另一个范畴。例如,你可以使用一个叫做函子(functor)的东西将两个拓扑空间转换成向量空间。如果你发现那两个向量空间的维数不同——这更容易测量——那么你就知道这两个(拓扑)空间不可能相同。你正是通过范畴论在拓扑学和线性代数领域之间穿梭,才弄明白了这一点。
那么如何使用范畴论来理解语言呢?
语言和范畴论密不可分。我们不想将任何特定的、僵化的数学模型强加于语言。我们可以从简单的频率入手,比如“猫”这个词在某些其他词旁边出现的次数。如果我说“好奇心害死了____”,我可以计算出下一个词是“猫”而不是“直升机”的概率。
这样,我们就可以把所有可能的单词或短语(或者实际上是字母的组合)都看作一种更通用的范畴(称为充实范畴enriched category)中的对象。每个对象都通过跟随其他对象的概率与其他对象关联——这些就是你的态射的丰富充实版本。你可以把它们想象成单词之间的箭头,每个箭头都标有一个数字。
为什么用范畴来构建语言是有帮助的?
如果你热爱某样事物,你就会开始在任何地方看到它。由于它非常抽象,并且它连接了数学的各个领域,许多数学家熟悉的事物都可以用范畴论来重新表达。
但它的意义远不止于此。一旦你将语言视为一个范畴,你就能接触到人们几十年来发展起来的语言结构。所以,你只需翻阅这本食谱,就能找到一些可能有助于研究人类语言,或理解大语言模型运作原理的知识。
您如何使用其中一种食谱来了解新事物?
人们好奇的一件事是,如何仅从单词组合方式的基本信息出发,就能获得更抽象的概念。如果我让ChatGPT列出五种既是爬行动物又是家养宠物的动物,它怎么知道该如何将这两者联系起来呢?如何从一串串符号及其统计数据,得到这种逻辑关系呢?
我们可以用其中一种方法来深入了解这一点。首先,我们将每个单词与一个范畴论结构关联起来,这个结构刻画了该单词可能出现在其中的每个短语,以及该短语的常见程度。然后,我们可以将与两个不同单词关联的结构取出,并对它们执行一些非常简单的操作——这些操作在范畴论中也是非常经典的。
为了让其他人更容易接触数学,布拉德利运营着一个名为Math3ma的热门博客。https://www.math3ma.com
图源:Monica Almeida/Quanta Magazine
我们得到的是一种自动关联两个原始单词的结构。如果原始单词是“大”和“黄”,那么我们得到的构造,粗略地说,就是将较大的数字分配给可能的短语,例如“大黄太阳”,而将较小的数字分配给可能的短语,例如“大黄红宝石”。这个来自范畴论的简单操作,实际上提供了具有语言意义的东西——一种将单词组合起来构建更通用的概念的方法,例如“既大又黄”的概念。
因此,运用范畴论,你可以从数学上展示更高层次的概念如何从非常简单的统计信息中涌现出来。我认为这或许是一个线索,表明思想的形成方式。我不想说“在人类思维中形成”,因为谁知道大脑是如何运作的呢?但这种概念内容存在于语言使用方式的原始数据中,因为我们的出发点就是这些频率。
你认为这可能就是大语言模型(LLM)正在做的事情吗?
我在LLM接手之前就加入了这个研究项目。但它们的起始频率和我们一样。我不知道transformer(变换器)内部到底发生了什么。我不确定是否有人知道。不过,这或许可以作为个话题的开场。
您的作品对于语言有怎样的普遍启示?
我认为这表明,即使是最基本的语法,也蕴含着有意义的信息,比如什么词与什么词搭配。如果你观察一下哪些词通常出现在“蓝色”之后——比如“蓝色大理石”或“蓝色天空”,而不是“蓝色鳄梨”——你能理解“蓝色”这个词的意思吗?
在语言学界,这并非公认的事实。作为人类,我可以从纸面上的句子中理解意义,但纸上的文字并非我所能接触的全部。我能够接触世界。语言学家们一直在争论是否需要一个世界模型来从书面语言中提取意义。意义存在于词语排列中的观点在语言学中由来已久,但近几十年来,它已基本过时。
布拉德利认为,她的工作“表明,即使是最基本的语法,也蕴含着有意义的信息,比如什么与什么相随”,她说。
图源:Monica Almeida/Quanta Magazine
但这项研究——以及最近LLM的成功——支持了这样一种观点,即词汇组合使用的统计数据是有意义的。因此,它或许能促进语言学家们正在进行的更广泛的讨论。
在您最近的论文中,您还使用范畴论为语言研究带来了全新的概念。
对。我们正在研究范畴的量级(magnitude)——一种与拓扑相关的大小度量,用来表征范畴。我的合著者胡安·帕布罗·维尼奥(Juan Pablo Vigneaux)最近找到了一种计算量级的新方法。所以我们决定在做了一些额外的工作之后,在语言构成的范畴上尝试一下。
令人惊讶的是,当我们计算出这个范畴的量级公式时,我们最终得到了一个数学表达式,其中包含了信息论中的一个核心量:熵(Entropy)——衡量某物包含多少信息的量度。
这种联系告诉了你什么?
它指出了熵和拓扑之间一种有趣的联系。这两者通常不会相互交流——它们在科学领域处于完全不同的两端。但近年来,这种联系开始显现,这或许是另一个例子。我对这种感觉不同的东西最终却有着根本联系的现象非常感兴趣。
我们也会盯着答案,比如“哇,这是什么?”熵在语言语境中意味着什么?它能告诉我们什么?那么,计算量级是否可以用来比较不同语言的结构,例如,比较人类语言和LLM生成的语言?
这感觉就像是爬上了一架高高的梯子,才刚刚迈出第一层。还有很多事情要做。
您希望您的工作带您走向何方?
我希望它能让我们更深入地理解数学本身。
它可以让我们了解语言现象,从而更好地理解周围的世界。但真正有趣的是,它或许缺少一些数学概念,这就是为什么这种现象如此神秘且难以理解。
也许以这种方式研究语言能帮助我们发现一些我们尚未发现的新数学结构。这种情况在数学中屡见不鲜。数学家们会遇到一些尚未命名的东西,这些结构就在那里等着我们去发现。
我认为五年后,我们可能会有受语言启发的新数学思想。
参考资料
https://www.quantamagazine.org/where-does-meaning-live-in-a-sentence-math-might-tell-us-20250409/
科普荐书
【更多读者好评数学书单推荐、数学科普作家自荐、出版社书单推荐通道已陆续打开,敬请期待】
·开放 · 友好 · 多元 · 普适 · 守拙·
让数学
更加
易学易练
易教易研
易赏易玩
易见易得
易传易及
欢迎评论、点赞、在看、在听
收藏、分享、转载、投稿
查看原始文章出处
点击zzllrr小乐
公众号主页
加星★
数学科普不迷路!

