世界模型的基础：抽象与客体永恒性

实现思路参考：

说明抽象之前，我们先看几幅抽象的图片，感受一下抽象

第二部分实现方法代码我们再回到这些图片的讨论。

简介：

语言作为一个抽象符号，人是可以理解每个语言单词的意义的，但是现在的nlp语言模型并没有直接的从感知抽象出每个语言符号的意义。成功的语言交流依赖于对世界的共同体验。正是这种共同的经历使话语变得有意义

虽然nlp 语言模型再这些方面做了很多努力，比如word2vec

chatGPT在这方面应该是更进一步，但是这些模型并不知道man、woman的真实含义，nlp模型并没有从感知构建出man、woman的抽象含义，

man、woman的含义包含了视觉、听觉、交互、关系及更抽象的责任等等。man 是一个很抽象的词语概念

即使简单的词语如桌子、苹果等具体物体的也是抽象概念，现在的多模态大模型是合理的实现吗？

一个物体的抽象概念是如何形成的？与世界的不确定性是什么关系？抽象需要概念的组合，抽象需要概念的操作（抽象是过程，概念是结果）（+ - X ÷）

语言模型并没有每个单词概念背后形成的过程，no grounding。

抽象代表了一种稳定性确定性，认识世界的确定性稳定性。

抽象概念如果包含了稳定性确定性，那抽象概念是否有因果关系。（后文的谓词）

抽象：概念稳定-语义确定-交流-语言。内部思想有足够的复杂度才能应对外部世界的复杂度

下面先介绍一篇论文：从抽象的定义开始，包括单模态，多模态，类别，上下文，时间结构的抽象。

然后第二部分介绍一下实现抽象的方法及相关代码

一：

深入介绍‘抽象’的一篇论文：（约5000字）

abstract：

In recent years, scientists have increasingly taken to investigate thepredictive nature of cognition.We argue thatprediction relies on abstraction,and thus theories of predictive cognition need an explicittheory of abstract representation. We propose such a theory of the abstract representational capacities that allow humans to transcend the “here-and-now.” Consistent with the predictive cognition literature, we suggest that the representational substrates of the mind are built as ahierarchy, ranging from the concrete to the abstract;however, we argue that there are qualitative differences between elements along this hierarchy, generating meaningful, often unacknowledged,diversity.

Echoing views from philosophy, we suggest that the representational hierarchy can be parsed into:

modality-specific representations,instantiated on perceptual similarity;

multimodalrepresentations, instantiated primarily on the discovery ofspatiotemporalcontiguity;

andcategoricalrepresentations, instantiated primarily onsocialinteraction.

Theseelementsserve as the building blocks of complex structures discussed in cognitive psychology (e.g.,episodes,scripts)

and are the inputs for mental representations that behave likefunctions, typically discussed in linguistics (i.e.,predicators).

We support our argument for representational diversity by explaining how the elements in our ontology are all required to account for humans’predictivecognition(e.g., in subservinglogic-basedprediction; in optimizing thetrade-off between accurate and detailed predictions)and by examining how the neuroscientific evidence coheres with our account. In doing so, we provide a testable model of the neural bases of conceptual cognition and highlight several important implications to research on self-projection, reinforcement learning, andpredictiveprocessing（PP）models of psychopathology

1 预测大脑理论认为预测是感知自下而上和预测自上而下结合的。

2 如果这种表征成功地预测了即将发生的事件, 则不需要太多额外的认知处理; 然而, 当检测到先验表示和自下而上输入之间的差异时(即, 如果没有牛奶, 即所谓的预测错误), 则需要根据新证据更新心理表示.通常, PP 阵营的理论认为, 这种更新模仿了规范推理的规则, 特别是贝叶斯推理。

3 PP 方法, 特别是自由能主动推理理论, 可以提供大脑功能的统一理论(Hohwy 2013) 和认知科学的大范式(Clark 2013)

4 文献中人们普遍认为, 人类先进的预见能力必须依赖于同样先进的表征能力。从广义上讲, 这些表征能力被称为抽象能力或抽象思维?并与更具体的思维形成对比。这种相对抽象的和具体的心理表征之间的区别已经成为预测大脑理论不可或缺的一部分。

5 鉴于抽象心理表征在预测性大脑理论中的中心地位, 对表征抽象性的深入说明似乎对于发展预测性认知的综合说明至关重要。本文旨在提供这样一个说明。幸运的是, 这项工作不必从头开始。数十年对高阶认知的研究已经产生了丰富而复杂的理论概念化, 这些概念化了产生抽象思维的许多不同的表征实体。我们认为, 迄今为止, 这种丰富性和复杂性尚未与预测大脑及其神经基质的新发展范式充分联系起来。认知科学丰富的过去和现在之间缺乏整合可能阻碍了未来的发展。

6 这种分离可以追溯到早期的问题, 即不同抽象认知理论之间的整合不足, 以及不同有影响力的框架作品之间缺乏联合词汇。在目前的手稿中, 我们提供了一个统一的抽象概念化, 我们将其进一步整合到新发展的预测思维框架中。在这样做的过程中, 我们的目标是全面描述人们穿越此时此地的能力的代表性基础。我们从先前对解释水平理论的研究(例如, Liberman & Trope 2008; 2014; Trope & Liberman 2010) 演变而来的, 旨在实现两个目标。首先, 我们试图阐明抽象心理表征的多样性; 其次, 我们希望将这种多样性整合到一个统一的框架下, 该框架可以通过进一步的实验进行测试、完善和修改

1 抽象的心理实体是如何出现的

7 尽管“抽象” 一词被广泛使用, 但很少有人尝试为这种基本结构提供定义。

我们首先提供‘抽象’一词的定义, 该定义将作为我们随后分析抽象心理表征及其在预测中的作用的基础

1我们的定义侧重于抽象作为一种与心理状态 (即信念、欲望、意图) 相关的现象，这些心理状态“指向” 一个(物理或心理) 对象, 并具有满足条件

例如, 当一个人相信地球是圆的, 那么当新的观察表明地球是圆的时, 这种信念就可以得到满足。

当一个人想吃冰淇淋的时候, 吃冰淇淋就可以满足这个愿望; 当一个人打算报税时, 一旦报税, 这个意图就可以满足。换言之, 满意度类似于将一个人的内心状态与世界状态之间的差异最小化。

2 只要存在一种可以被对象 A 满足但不能被对象 B 满足的心理状态, 就可以说这些对象在感知者的头脑中作为主观上可区分的对象存在

3 我们将抽象行为定义为形成一种信念 , 即两个或多个主观上可区分的对象满足一种信念、欲望或意图。

9 婴儿想要喝奶。一种本能导致它把各种各样的东西放进嘴里。一种感知模式, 从外部⻆度来看, 我们称之为“母亲”, 它反复满足婴儿的欲望, 无论母亲穿着(发痒的) 毛衣还是(光滑的) T恤。根据我们的定义, 一旦这种可替代性被表示为婴儿心理系统中的一个新实体(一旦它形成了可区分对象满足欲望的信念), 它就执行了一种抽象行为。在对基本学习过程的研究中, 这种抽象行为通常在术语泛化(例如, Pearce 1987; Shepard 1987) 和识别下进行讨论

10重要的是, 在所有情况下, 抽象都认为(至少) 两个主观上不同的对象是等价的，以及满足相同心理状态的任何其他对象

（共同的特征的提取）

1.1 抽象行为的输出

11抽象的输出是一个信念, 即两个或多个主观上可区分的对象满足一个信念、一个愿望或一个意图。这种信念的涌现输出是, 一个人拥有一种心理表征, 使他们能够在对象和他们满足的心理状态之间建立联系

We refer to theset of distinguishable objects as the concreta.

We refer to therule (or algorithm, function) that determines/ picks-out the set of equivalent objects (the concreta) for a given mental state as the criterion of substitutability

2 criteria of substitutability can take a form such as “things that are tasty are often made of chocolate”; this means that they can implement a theory (Murphy & Medin 1985). Theories allow us togenerate predictions of (or imagine) future members of a set, rather than just assign a probability of class membership given a list of features (i.e., they implement a generative model,Ng & Jordan 2002).

3We refer to thenewly generated mental object that instantiates (1) and stands for (2) as theabstractum.

Because cognition allows the outputs of abstraction to serve as concreta for additional acts of abstraction (Berwick et al. 2013), we can speak of mental representations as forming a continuum of abstractness. Wedefine abstractness as a relative term that refers to the relation between two abstracta.（范畴论）

Whenever we can say that abstractum X is part of the concreta of abstractum Y, we will say that abstractum Y is more abstract than abstractum X.

16 在我们的定义中, 如果观察者在任何意义上都无法区分两个对象, 那么头脑中只有一个对象, 因此没有抽象。可区分性的要求意味着抽象涉及到至少两个维度 : 一个维度上刺激不同, 另一个维度上它们将被认为是相同的。因此, 当执行抽象行为时, 人们会做出(有意识或无意识) 决定哪个维度是中心, 通过这样做, 一个人将其他维度指定为在当前上下文中是次要的或不相关的

（共同的特征如何提取）

17 因为抽象需要选择/关注一个维度而忽略其他可能突出的维度, 所以许多抽象行为可能依赖于通常被称为“认知控制” 和“选择性注意”的认知操作

（需要范畴论操作？）

2.认知科学不应忽视的多样表征本体

2.1.1.Modality-specific features, objects, andrelations

超越具体表征的第一步可以追溯到发现不同感知特征(例如, 颜色、响度、鼻子) 之间的同一性, 以及表征持久性的形成基于感知模式相似性(或“对象持久性”; Piaget 1954) 的对象。对象持久性依赖于一种信念的形成,即出现在不同空间和时间上下文中的不同感觉印象是等价的, 因为它们都属于同一个对象

（共同的特征）

2.1.2.Multimodalfeatures, objects,andrelations

通过时空连续性结合在一起。例如, 当一个蹒跚学步的孩子同时体验到狗的(特定模式的) 声音和狗的(特定模式的) 视觉时, 它会生成狗的多模式抽象。再举一个例子, 在获得食物之前反复听到铃声的动物可以将这两种模式结合在一起。特定模态抽象的发现通常依赖于先天的可替代性标准, 而多模态抽象通常是通过个人经验获得

两种类型的多模式表示需要特别考虑。首先, 一个人可能将共享时间上下文的各种不同对象组合在一起(例如, “公园里追逐⻜盘的狗”)。由此产生的抽象可以称为心理事件18 (Tulving 1984)。

第二类重要的多模态表示是引理, 它是我们心理词典的实体(Roelofs 1992)。这些是抽象的, 其具体包括特征/对象/关系的特定模态表示, 以及与之共同出现的语言符号(书面、口头)。例如, 香蕉的引理将香蕉的图像、与香蕉相关的味觉体验、视觉符号“香蕉” 和听觉模式

（共通的表现）

2.1.3. Categories

一种特别重要的类别是其具体是无形实体的类别。如前所述, 抽象的基本行为涉及将特定时空事件的感知转换为特定于模态的对象(例如, 我的自行车的图像); 形成多模式表示是另一个步骤(我的自行车), 然后可以形成一个包含不同多模式对象的类别(类别“运输方法”)

每当两个或更多无形实体被认为满足某种精神状态时, 我们将所产生的抽象称为无形的抽象。围绕无形抽象的一个大问题是无形的对象、特征和关系首先是如何在头脑中占据一席之地的; 这种能力被认为是人类和非人类动物之间分歧的关键点

（共同的作用）

2.2. Formingcomplexmental structures

2.2.1.Networkstructure

2.2.2.Hierarchicalstructure

2.2.3.Temporalstructure

情节定义为一种多模式抽象, 它基于紧密的时间连续性绑定抽象。这可能会给人一种印象, 即情景记忆是离散事件的碎片挂毯。然而, 离散的情节也可以通过时空连续性(例如, Tulving 1985) 绑定在一起, 从而产生可以跨越数小时甚至数天的多模态摘要的层次结构。例如, 情节 A(去健身房) 和情节 B(洗澡) 可能会绑定到情节 C(健身房和淋浴)

（共通的联系）

2.3. How can mental structures interact with other mental structures?

我们在本体中设定的最后一个实体(在语言学中已被广泛讨论, 但在心理学和神经科学中很少讨论) 是谓词。与我们讨论过的其他抽象类型一样, 谓词实例化一个规则, 该规则确定在满足特定心理状态(可替代性标准) 方面等效的实体集。例如,谓词“红色” 将某种视觉处理特性定义为刺激被视为等价的维度, 忽略其他维度上的不相似性(如对象身份; 它的具体包含不同的对象, 如“红狗” 和“红色车”)。至关重要的是, 为了使抽象“红色” 成为一个谓词(而不是“普通” 类别“红色”), 它必须要求对其具体子集的规范，通过采用另一个实体(不同的抽象; 例如, “dog”、“apple”) 作为输入参数。因此,谓词是表现得像函数的表示。（, predicators are representations that behave like functions）

（共通的联系）

谓词在我们头脑中的存在被认为反映在(公开的)语言使用中，例如，为了使动词起作用，它们需要指定一个名词短语作为论元(例如，“丢失”不是一个有意义的话语-直到你指定谁丢失了什么。

谓词所包含的这种规范在人类认知中起着至关重要的作用: 它允许我们以系统的、基于规则/算法的方式修改表示(Bogdan 2009; Fodor & Pylyshyn 2014)。在这样做的过程中, 谓词启用了一种所谓的“思想语言” (Fodor 1975) ，一个我们使用心理表征系统地协调心理表征修改的平台。

谓词最好被看作是一种心理代数,它需要在其论点的可替代性标准之上应用谓词的可替代性标准(例如,“美味的知了”是“会飞的昆虫 ” , 也是 “ 当你吃它们时让你感觉良好”)

关系谓词可能在高阶认知中发挥特别重要的作用。例如, 掌握逻辑关系系统的使用允许出现正式的推理系统

3. What is Mental Travel？

减轻无知和不确定性的尝试是一种人类认知中的重要力量

减轻不确定性的至关重要性也是 PP 理论的一个标志。最值得注意的是, 主动推理理论 (Friston 2010)将所有认知活动包含在一个单一的表观命令之下，试图减少我们期望在与现实的下一次交互中体验到的惊喜 (一个称为“自由能” 最小化的过程)。在信息论的术语中, 预期意外与不确定性相同。因此, 主动推理理论表明, 有机体所做的每一个动作都是为了减少不确定性。

尽管预测未来至关重要, 但未来只是人类试图跨越的众多认知和社会障碍之一。重要的是, 与主动推理理论类似, 我们认为穿越时间距离的过程与试图穿越其他认知障碍的过程有许多共同点。

模拟的功能源于运行模拟的人自我投射到模拟中的事实, 即成为模拟情境中的代理人。当模拟生动而详细(因此类似于直接感知) 时, 面向现实的过程(例如, 感觉运动和情感/动机处理、时空关联、脚本) 与它们在现实生活中的反应相似(Gallese & Goldman 1998 年; 戈登1986 年; 莫尔顿和科斯林2009 年)。通过“阅读” 模拟自我的反应, 人们可以产生有关情况的新知识并决定如何行动

我们认为模拟并不是人们穿越未知的唯一途径。

相反, 人们也可以使用基于理论的推理; 即, 依靠类比推理

与模拟不同, 这种形式的推理不需要构建类似于感官现实或经验结果的表示(例如, 听到我脑海中的音乐, 感到愉悦); 因此, 基于理论的推理更可能依赖于更高抽象性的心理表征, 例如高度抽象的类别、无形的抽象和谓词。

4. The members of our diverse representational ontology all help in meeting the challenges of mental travel

心理旅行的挑战源于这样一个事实, 即没有目标表征永远与现实相同。然而, 在具体层面上看起来不同的东西可以在更抽象的层面上被视为相似。在最基本的层面上,抽象通过在不同体验之间引入不变性使心理旅行成为可能。

因此, 尽管你不能两次踏入同一条河流, 正如赫拉克利特的著名格言所说, 拥有一个多模态的抽象水会给这个无穷无尽的多样性带来稳定性, 从而可以预测,任何时候你把脚放在河里, 它都会感到潮湿

4.1. The challenge of optimizing the accuracy/detail tradeoff of the target representatio

心理表征的分层组织有助于以优化准确性-细节权衡的方式构建目标表征。通过评估手头的知识量, 人们可以调整她的预测的详细程度和具体程度。基于这种逻辑, 解释水平理论预测, 每当人们考虑心理上更遥远的事件时，因此涉及更多的不确定性，准确性/细节权衡的最佳点会转向更高层次的抽象性和更少的细节(Shapira et al. 2012 )。这种逻辑也与奥卡姆剃刀法则的规范原则相一致, 根据该原则, 最佳模型是引入最少(未经证实的) 假设的模型。

4.3. The challenge of creating a richer repertoire of possible target-representations

情景记忆的重新洗牌使我们能够产生许多新颖的结构, 从而想象以前未遇到的事件。根据我们的说法, 我们在构建目标表征时所利用的心理内容库不仅限于情景记忆。相反, 人类使用他们完整的源表示库来增强他们构建大量替代世界的能力。

4.3.1. Analogical transfer

4.3.2. Permutation

4.3.3. Cultural transfer

语言实体能够实现文化转移, 并且它们是相对高度抽象的实体。事实上, 语言和抽象表示是如此紧密地交织在一起, 以至于它们有时被认为是同义词。语言不可避免地会使用象征其所指对象的范畴和词条。此外, 语言的生成可能依赖于谓词的使用(Bogdan 2008)

4.4. The challenge of decoupling the target-representation from the real world

5. Understanding the neural bases of the diverse representational architecture of the mind is essential to understanding the neural mechanisms of the predictive brain

6. Concluding remarks

评论：

客体永恒性的含义:皮亚杰新理论的微观历史洞见

On the implications of object permanence: Microhistorical insights from Piaget’s new theory

首先，一些基础知识:客体持久性是构建同一性逻辑运算的结果，因此，在特定运动相互作用之后的时间“n”的感觉与在相同相互作用之后的时间“n + 1”观察到的相同感觉相关联。其结果是抽象——注意我的用法略有不同——一个表示(一个“对象”),它随着时间的推移而持续存在。皮亚杰(1977/2001)最终将这一过程称为“经验抽象”(passim)。

一旦物体从运动和感觉(现象)中被抽象(构造)出来，它们就成为儿童对现实概念的新基础。这样，传感马达就被具体实在取代了。抽象也随之改变。从被表现对象的持久性中抽象出集合和法则，这些可以反过来应用于想象的对象(它们本身也是一种表现)。由此产生的反射抽象和元反射也被视为真实的

更多完整内容请参考原论文。

二：

以上基本算是理论分析，如何实现呢？

2.1

paper：Why Is This an Outlier? Explaining Outliers by Submodular Optimization of Marginal Distributions

下面我们看这篇论文的效果是否能启发实现抽象

我们再看一下文首的图像：

这些图像能不能代表一种抽象，它为什么是抽象的？这些图像去掉了什么？保留了什么？

出现特定模式的确定性，模式是什么？模式是出现的确定性最大的感知统计。

下面我们看论文的效果：

去掉了噪音，保留了本质，是否会形成稳定的单模态概念

抽象代表了一种稳定性确定性，认识世界某些确定的稳定的模式。

出现特定模式的确定性

确定的反面是不确定性，不确定性的快速计算如何帮助我们更好的实现抽象呢？

2.2

（https://github.com/alcorreia/cm-tpm）

这种训练是否是抽象的结果？

2.3 通过部分图像进行操作是否是抽象呢？

（https://github.com/askrix/SLASH）

like this

欢迎联系我

世界模型的基础：抽象与客体永恒性

技不如人？外国卫星拍到福建舰转弯半径达3.4公里，里根号仅500米

朱婷赛点登场难救主中国女排1比3不敌冲奥对手日本队

半年一架F-35没造出来！美军工被卡脖子，中国出口管制重拳出击

调皮男孩捣乱六一，舞台之上干扰他人，家长和老师还放任不管？

保定一商场三楼以上全装上网，抬头望去密密麻麻！

马里乌波尔钢铁厂女兵换俘回到乌，抱着孩子失声痛哭！

一名甘肃干部眼中的“选调生离开嘉峪关”

吉林产粮大县黑土地被征占建别墅长春成立联合调查组

上海男子买房被中介坑惨交了66万定金却有巨额抵押

红星深度丨围观南京咖啡阿姨48小时，“这能火真是太抽象了”

最贵"四叶草"又涨价：有人凌晨3点排队只拿到了第14号

印度第一季度GDP同比增长7.8%，预估增长7.0%

无法言说的遗憾！竟然又一次与文明失之交臂！

台风“马力斯”在广东省阳西县登陆

中方：美国"印太战略"注定没有前途

C罗哭成泪人！从世界杯到沙王冠，两年败给同一人，已3年无冠

世界模型的基础：抽象与客体永恒性

技不如人？外国卫星拍到福建舰转弯半径达3.4公里，里根号仅500米

朱婷赛点登场难救主 中国女排1比3不敌冲奥对手日本队

半年一架F-35没造出来！美军工被卡脖子，中国出口管制重拳出击

调皮男孩捣乱六一，舞台之上干扰他人，家长和老师还放任不管？

保定一商场三楼以上全装上网，抬头望去密密麻麻！

马里乌波尔钢铁厂女兵换俘回到乌，抱着孩子失声痛哭！

一名甘肃干部眼中的“选调生离开嘉峪关”

吉林产粮大县黑土地被征占建别墅 长春成立联合调查组

上海男子买房被中介坑惨 交了66万定金却有巨额抵押

红星深度丨围观南京咖啡阿姨48小时，“这能火真是太抽象了”

最贵"四叶草"又涨价：有人凌晨3点排队只拿到了第14号

印度第一季度GDP同比增长7.8%，预估增长7.0%

无法言说的遗憾！竟然又一次与文明失之交臂！

台风“马力斯”在广东省阳西县登陆

中方：美国"印太战略"注定没有前途

C罗哭成泪人！从世界杯到沙王冠，两年败给同一人，已3年无冠

朱婷赛点登场难救主中国女排1比3不敌冲奥对手日本队

吉林产粮大县黑土地被征占建别墅长春成立联合调查组

上海男子买房被中介坑惨交了66万定金却有巨额抵押