打开网易新闻 查看更多图片

“数字”(digital)何以走进人文学科(humanities)的视野?一般认为,“数字人文”可追溯至1949年“人文计算”(humanities computing), 意大利耶稣会修士罗伯特·布萨在IBM公司的帮助下将圣托马斯·阿奎相关著作制作为电子索引,至此开启了计算机在语言学、文学、历史学等诸多人文学科的热潮。
简单说,“数字人文”就是用电子信息技术来处理人文问题。目前,数字技术为人文学科提供的便利已得到承认,但是数字技术和人文学科的融合还存在诸多模糊和争议的命题。要厘清数字人文相关命题,需要重返数字人文的理论基础。

数字人文研究的理论基础

作者/金观涛

科学(哲学)研究的两种对象

今天,人类的所有知识系统都已离不开计算机。人文研究、自然科学与社会科学都面临日新月异数位分析的冲击。对于自然科学和社会科学,它们和数字分析技术的关系是明确的。这就是随着计算机数据库的普遍建立,数字分析技术越来越成为自然科学与社会科学研究不可缺少的部分。但是,数字分析在今后的人文研究中究竟是什么位置?它们是对立的吗?人文研究是否应如二十世纪初反对科学主义那样再次起来捍卫自己的纯粹性?还是承认数字方法在人文研究中有着不可取代的意义?为了回答这些问题,必须重返人文研究的理论(哲学)基础。

大约在70年前,哲学家EnstCassirer在《人文科学的逻辑》一书的开篇会这样发问:“柏拉图曾经说过,惊异其实乃是一种哲学的激情,并且说,一切哲学思维之根本,都可溯源于这一种惊异。假如柏拉图是对的话,便马上产生一个问题:最原先唤醒人类之惊异的,并且把人类引导入哲学反省之途径的,到底是一些怎样的对象——它们是一些‘物理性’的(physische)对象吗?抑或是一些‘精神性’的(geistige)对象呢?此中居于枢纽地位的,到底是自然秩序,抑或是人类自身的创作(dieeigenen Schopfungen der Menschen)呢?”

ErnstCassirer敏感地意识到,存在着两种完全不同的对象。一种是自然界,另一种是人文世界。这两种对象的研究分别构成了自然科学和人文科学。鉴于自然科学和人文科学本质的不同。判断这两类对象知识真实性遵循的原则大相径庭。(Ernst Cassirer:《人文科学的逻辑》,关子尹译,联经出版社,1986年,页1。)

在自然科学研究中,为了达到知识的真实性,必须建立研究对象客观性原则,即有关对象的知识必须做到和研究者主体无关,不受人的价值系统影响。在人文研究的领域中,诠释者和人的价值系统是不可能从研究对象的知识中排除出去的。这时,为了达到知识的真实性,必须提出和自然科学根本不同的方法。例如韦伯早就提出了理解方法,而Ernst Cassirer则在《人文科学的逻辑》进一步提出“视域融合”或“文本分析”等类似于当代诠释学和符号学的研究方法。

今日,韦伯的理解方法、Ernst Cassirer的人文科学逻辑和当代诠释学、符号学的研究方法已被人文研究者公认。但是,这些不同于自然科学和社会科学、作为人文研究本质的方法和数字技术是什么关系?它们是互相冲突的吗?为此,我们必须去进一步追问:为什么只有用这些方法获得的人文对象的知识才是可靠的?其前提又是什么?这时,探讨人文研究和自然科学、社会科学的差别再一次成为分析的出发点。

众所周知,在自然科学和社会科学研究中,追求真实是通过诉诸研究的客观性来达到的。所谓研究的客观性,通常是指排除观察者或研究者的价值取向和主观观念对研究对象的影响,该方法成立的根据是研究对象为不依赖观察者和研究者(主体)的独立存在,我们可以将其称为从研究对象中排除主体的客观性(或价值中立)原则。

自柏拉图以降,该原则已在知识论中牢牢地树立。它一度被认为是对一切知识领域都成立的,故从十七世纪至今,它一直在向各个领域推进。十九世纪以后,客观性原则已大规模地把各种学科包括进来,如经济、政治和社会的知识,也被认为必须满足该原则,它是建立社会科学的基础。很多人看来,人文研究获得的知识亦应该满足该原则,历史学就是例子。

我们可以用兰克(Leopold von Ranke)的主张来说明这一点。为了排除主体价值取向和观念系统对史实的歪曲,兰克不相信二手史料,甚至认为过去历史著作都是不可靠的。这样,弄清历史事实真相的唯一途径就是穷本溯源,去研究“目击者”是如何记载事实的。在判定一手原始资料是否真实的过程中,兰克提出类似于清代汉学家考据的原则:愈是接近事件发生时间证人的陈述愈可靠。在兰克那里,因为可靠的史料是和研究者的观念无关的,故他反对针对史实做解释,甚至视一切历史理论(包括对重大事件因果关系的解释和社会行动的模式)为虚妄。

虽然兰克的研究方法至今仍是史学界的金科玉律,但是历史学家愈来越感到上述客观性原则在历史研究中几乎是做不到的,或者说即使做到了亦无意义。因为该原则充其量只是排除历史研究中研究者的主观价值,而不能消除历史纪录本身的主观性。历史事件的记录和自然科学的观察、社会科学的记录(它们可以做到价值中立)有一巨大差别,即通常人只记录他认为重要和值得记录的事件,而什么是重要和值得记下来的,则往往取决于记录者的价值系统。也就是说,原始史料作为人的社会行动记录,从一开始诉诸文字时就和记录者的观念不可分离。或者说,它不是和记录者或行动者的观念可以分离的独立存在。

举一个例子,1789年7月14日是法国民众攻占巴士底监狱的重要日子,今日历史学家将其视为法国大革命的开始。但是,路易十六在那一天的日记中写下:“今日,无事”,可见路易十六当天并不特别重视这一重大历史事件,它只是频频发生的政治骚乱之一。显而易见,今日历史研究者不会从这条当事人的记录来写法国革命史,而要去参看有关那一天的其他大量历史记录。

但问题本质在于:任何人都从自己的价值系统出发记下认为那一天值得记录的事,而要穷尽那一天所有发生的事又是不可能的。我们真的可以撇开一切观念去谈1789年7月14日真的发生了什么吗?事实上,对攻占巴士底狱这一事件重要性的定位,它本身亦是某种观念系统的产物。如果今天大多数人所持的观念和路易十六相同,关于法国大革命是否存在就会变成有争议的。法国大革命之所以成为历史学家不断研究的对象,是因为我们认为路易十六那一天的日记不代表历史真实。而判别何种记录为真,则依赖于我们的观念和当时记录者的观念是否同构或可以互相理解。

由此可见,作为何年何月发生了什么这种历史记录(请注意:这是历史记录的核心部分),大多是不能当作不依赖于记录者和研究者观念之“客观存在”的。一方面历史事件原始记录不能排除主观价值,更重要的是,在判断某一历史事件是否真实和重要时,存在着研究者和观察者(记录者)观念同构或可理解等价值判别原则。这时,即使如兰克所说排除了研究者的主观价值,也并不能达到历史研究的客观性。换言之,客观性原则不能保证历史知识的可靠性。

真实性和可理解(重演)性

那么,历史学家用什么原则判断史料的真假呢?显然,在判断上述历史知识是否可靠时,我们应做的不是将事件当作和支配(或记录)它的观念无关之存在,反而是去准确地发现支配该历史事件的观念和记录者之所以认为该事件值得记录的理由。例如去“理解”为何路易十六在1789年7月14日日记中写下“今日,无事”的原因等。这里所谓“理解”就是韦伯提出的理解方法。所谓“理解”,是设身处地去认识某一历史事件发生的情景和支配其发生的价值系统。自然科学在研究水的性质时,不能做如下预设:如果我是水分子,水的性质会如何?因为水不是由人组成的,而社会却不同。人既可以是社会行动的参与者,也可以是观察者和反思者。这样,在研究社会和人文对象时,是可以假定我是那个时代的行动者和历史记录者,即通过我会如何行动或会记录哪些事件来理解当时情景。人可以设身处地地进入历史情境去理解,保证了历史知识的真实性。

实际上,任何人文知识的真实性都是用和上述理解方式类似的方法达到的。当我们面对的不是历史事件记录而是文本时,不也正是通过理解作者、引用者和诠释者的观念,将其和文本分析结合、发现该文本“所谓”、“当谓”等各层面意义,研究其“所指”和“能指”吗?也就是说,准确地恢复人文对象中的观念和价值,而不是想当然地用今日研究者的价值或想象来解读文本,更不是从文本中排除观念和价值,是人文研究中判断知识可靠性的基本方法。众所周知,正是上述方法构成文本分析、诠释学和符号学的本质。

那么,在什么条件下,自然科学的客观性原则也可以用来研究人文和社会现象呢?

我们发现,客观性原则在历史研究中可以运用需有一个前提,这就是支配(或记录)该事件的观念可悬置,即在人类历史长河中,这些观念自古以来就存在,而且从未改变过。如经济上谋利动机、政治上追求权力等,在研究这些观念支配的事件时,研究者根据我们当今已知的观念就能判断古人在做什么以及为什么这样做。这时,因研究者的观念和支配或记录历史事件的观念相同,“理解”是不成问题的。

或者说,研究者在读这些史料时,因“理解”轻而易举,要做的仅是防止在理解过程中对其作歪曲性想象或解释。这时,将其当作和研究者主体无关的存在有助于达到理解的准确性。换言之,因观念的不变性,它可以悬置起来,只研究它支配的事件本身即可。在观念可悬置前提下,有关人的社会行动的知识和人面对自然对象的知识类似。经济学和政治学之所以可以贯彻客观性原则成为社会科学,其原因正在于此。

而在绝大多情况,历史事件的记录和人文研究对象不满足支配(或记录)该事件(该对象)的观念可悬置条件,故其和科学(社会科学)的观察记录是不同的,属于纯人文领域。因为研究对象中的动机和价值系统已和今日不同,如果不用人文研究方法去理解或恢复这些支配当时人们行动的普遍观念和普遍价值,连鉴别该记录的真假都不可能。

上述分析得到一个惊人的结论:从追求真实性的方法论本质来讲,社会科学方法只是人文科学方法的特殊情况。换言之,人文科学研究方法原则上是包含了社会科学甚至自然科学的方法的。这对于今日处于自然科学和社会科学不断扩张的压迫下、正在一天天退缩并不断起来反对科学主义和实证主义的人文研究来讲,确实是某种鼓舞。但是,人们仍然怀疑,今日如此广泛及普遍的自然科学和社会科学方法,在作为追求知识真实性原则的视野中,怎么可能是看来不甚精确、不甚可靠人文研究方法的特例呢?我们上面的分析正确吗?

打开网易新闻 查看更多图片

让我们来分析人研究的对象(客体)和主体(研究者)的关系。其实,即使在自然科学领域,也并不是一定能将研究对象视为不依赖于观察者(研究者)的独立存在。当作为被研究的对象不能独立主体存在,即外部存在离不开人的主体选择和建构时,这时主客观关系如图1(上)所示。早在1980年代,二阶控制论已证明这种被选择、被建构的外部存在,是图1(上)所示的系统本征态。[Heinz VonFoerster,On Constructing a Reality,in P. Watzawick(Ed.),The invented reality:Howdo we know what we believe we know(Contribution to Constructivism)(New York:Norton,1984)]

对于本征态而言,真实性就是操作系统经验的可重复性。它有两重含义:第一,作为观察者个人某一经验的可重复,它意味着观察者可以反复观察到某一种特定的现象,只要他进行某种特定的操作,他就能进入他曾经进入过的某一种特定的环境。经验可重复的第二重含义是:不仅仅这一个观察者可以重复这一经验,任何其他观察者只要实现相同的条件,他们也能进入相同的环境,看到同样的东西。而只有当观察者对研究对象的反作用(建构)可以忽略不计时,对象知识的获得才可以简化为如图1(下)所示的系统。图1(下)相对应的研究方法即客观性原则,它是图1(上)研究方法、即用被操控经验的可重复性的一种特例。(金观涛,《系统的哲学》,北京:新星出版社,2005年,页40、页62-63。)

在自然科学研究中,受控实验中观察可重复性是比客观性更为普遍的有关对象知识真实性的原则。例如在量子力学中,对象的性质是不能视为和观察者无关的客观实在,观察的真实性必须用受控实验的可重复性来保证。只有对宏观对象,观察者对其作用可忽略不计,客观性原则才生效。把量子力学和牛顿力学中观察者和对象的关系和社会科学与人文科学中主体和对象关系作一对比是饶有趣味的。

显然,如果把研究对象和主体不可分离的图一(上)代表人文研究,研究对象和主体可以分离的图一(下)是图一(上)的特例,它正好代表社会科学研究。换言之,社会科学方法作为人文研究方法特例与自然科学中牛顿力学是量子力学的特殊情况一样。当然,在人文社会研究中不能用受控实验,自然科学判定本征态真实性方法不能直接拿到人文研究中来。但是,“理解”相当于在研究者心中重演历史上(文本中)价值支配事件的过程,它与受控实验的可重复性很类似。我曾将这种保证知识可靠性的方法称为“拟受控实验原则”,悬置观念后达到的客观性原则正是它的特例。换言之,我们得到的客观真实性与经验可重演真实性的关系是普遍成立的。

虽然历史事件是一次性的,不会重演,但是应该注意到历史事件是人的社会行动,它是在人的参与和控制下发生的;人的行动又是在价值目标支配下产生做某事的动机时而发生的。我们认为,由这一认识出发,就可以把受控实验原则引入历史研究,用于判断某社会行动是否发生以及是怎样发生的,也即可用于判断社会行动的真实性。

“把受控实验原则运用到判断历史上发生过的社会行动的真实性”是什么意思呢?这就是说我们在研究历史事件的记录时,必须去寻找导致该事件发生的支配参与者行动的普遍观念。研究支配历史事件的普遍动机和思想原因,实质上是研究者在自己心中重演该事件发生的过程,这一过程很类似于对受控过程做思想试验。简言之,因为历史事件的核心是人的行动,人的行动受动机支配,动机又和价值系统与观念互相关联,也就是说,我们可以把分析人的行动动机和价值系统与观念如何互相作用而引致事件的发生,看作与受控实验存在着同构性。动机和与动机相联系的价值系统或相应的观念,相当于受控实验条件中的X集(或X集中的大部分元素)。

因此,我们认为用受控实验判别真实性原则是可以用于历史研究的。这样,我们就可以得到如下重要定义:所谓历史事件的可重复性,并非真的是让该社会行动再发生一次,而是指后人对该事件的可理解性。这里所谓的可理解性,是指历史学家通过理解支配该社会行动的观念(动机)把自己想象为当时的行动者(参与者),并根据观念如何支配动机以及社会行动如何反作用于观念,设身处地的想象整个参与过程。由此,我们达到历史研究真实性的第一个普遍原则,这就是:当历史记录是人的行动或社会行动时,阐明支配该社会行动发生的价值系统和观念(包括行动后果如何反作用于观念)是呈现历史真相的前提。我们将其称为“拟受控实验原则”。参见金观涛、刘青峰,《观念史研究:中国现代重要政治术语的形成》,香港:中文大学当代中国文化研究中心,2008年,页430。

观念史、科林伍德三定律和概念史

一旦认识到社会科学方法和人文研究中知识可靠性原则的关系,就可以考察数字分析在人文研究中的位置了。数字技术在社会科学中的运用主要是用来处理大量有关社会和经济事实的观察数据,其目的是用于提出或鉴别理论,而不是判断数据的真实性。数字分析在人文研究中的运用主要不是针对数据统计(事实分析),而是处理历史文献和各式各样的文本。

什么是文本?文本与事实不同,社会事实作为研究对象时,其背后的观念和价值系统往往已被悬置(或大部分被忽略),而作为文本的原始文献是包含着观念和价值系统的。因此在某种意义上讲,数字技术对人文研究的意义比社会科学更为重要,因为它针对的就是观念和价值系统,这与判别人文知识的真实性直接相关。

请回忆一下上一节的讨论,人文研究者如何重演历史上有过的社会行动?他又如何进入那曾盛行一时但现在已被遗忘的观念?显而易见,除了去读那个时代的文本之外别无它法。而数字分析在文本意义挖掘中的应用,正是可以帮助我们在大量文献中,去发现已消失的观念和价值系统。也就是说,数字分析技术在判别知识真实性层面和人文研究相关,而不是如在社会科学中仅仅是处理和统计的方法而已。由此可见,只要严格分析社会科学知识可靠性前提和人文知识可靠性前提的关系,就可以得到一个结论。这就是:当社会科学研究对象向人文研究对象转化时,研究对象的扩大没有限制数字分析技术的应用范围,反而使其显得更重要了。数字技术不仅和人文研究兼容,而且它在人文研究中的地位比在社会科学中更接近核心!

事实上,人文研究在二十世纪的发展,正是逐步发现数字分析在人文研究中核心地位的过程。我们可以用观念史研究为例说明这一点。观念史是在十九、二十世纪之交兴起的,它在人文研究一直占据中心位置。观念史研究的意义之所以被高度强调,这是因为人文学者感到必须对抗历史和社会研究中,越演越烈的科学主义对人文精神的伤害。

所谓“科学主义”是指在人文研究中,忽略人的主体性和价值取向之实证主义,它根据社会事实的外在表征把统一的人文对象分解成互相隔裂的专业。正如ArthusO. Lovejoy所说:“观念研究的不自然分裂,至少分隔了十二个学门。文学、艺术、科学、神学、教育、社会思想的学者,每个人都强行带走西方思想体系的一部分,彼此孤立地在他们的秘室里极其仔细地去分割它,而整个有机体便在这种过程里死亡了,没有人能恢复其生命,除非一个名为‘观念史’的学科才能使它起死为生。”(Arthus O. Lovejoy:The Historiography ofIdeas,Essay in the History of Ideas,1948)正是在观念史研究最盛的二十世纪20至30年代,用可重演性作为判别历史事件真实性原则被发现了,这就是历史哲学家科林伍德(R.GCollingwood)关于“一切历史都是思想的历史”的著名论断。

科林伍德发现,如果某一历史过程不能在历史学家心里重演,研究者根本不能了解其真相,甚至不能判断它是否真的发生过。他这样论述:“历史学家在自己的心灵里重演他所叙述的那些行动者的所作所为的思想与动机;而任何事件的继续却不是历史的继续,除非它所包括的行动动机,至少原则上如此,是能够这样加以重演的。”[柯林伍德(R.G.Collingwood)著,何兆武、张文杰译,《历史的观念》,北京:商务印书馆,1997年,页174。]这样一来,所谓历史真实并非是过去发生过的事情,而是在心灵中可重演的,即它是“活着的过去”。

自1920年代起,科林伍德把上述发现概括为三条基本原则。除了历史是活着的过去这第一条原理外,第二条原理是任何历史研究都涉及二阶历史(关于该问题的思想史)。第三条原理则更为广泛,认为历史知识是浓缩(incapsulated)于今日思想结构中的。科林伍德意识到自己发现的重要性,认为历史对二十世纪的重要性将犹如科学在十九世纪的重要位置。今日看来,他是第一个认识到各个时代的文本分析在历史研究中核心位置的。

从来,在历史研究中存在着两种史料,一种是以文本形式存在的历史记录,另一种是从实物形态存在的证据(考古发现,活化石般的人类学知识等)。历史研究的社会科学化往往把历史想象成客观的事实序列,即历史进程和主体无关(或主体是可悬置的)。这样,文本虽然是史料的核心,但历史学家倾向于离开文本描绘客观历史,甚至更重视第二种史料。科林伍德三定律最惊人的发现在于:如果没有第一类史料(文本中那个意义世界),第二类史料是不可理解的。换言之,历史知识本质是人文的而不是社会科学的,历史学甚至是观念史的一部分。

虽然科林伍德已差不多接近发现文本分析和研究历史真实之关系,但是科林伍德的观点在相当长时间没有得到重视。直到1950年代德国历史学家科塞雷克(ReinhartKoselleck)的概念史(Geschichtliche Grundbegriffe)研究才把科林伍德的发现推进一步,开关了日后可以走向数字人文研究的道路。何为“概念”?科塞雷克将其表达为和语境相联系的观念。他认为,一个概念(Grundbegriffe)是一个能捕捉到多种意思的观念,其意义取决于它被使用的语境。换言之,概念是必须用语言(词汇或术语)加以表达的。

但科塞雷克认为概念与词汇(words)不同。在语义表达中,词汇的意思相当明确。而概念的意思是不明确的。[ReinhartKoselleck, A Response to Comments on the Geschichtliche, in Lehmann/Richter(Eds.), The Meaning of Historical Terms and Concepts: New Studies onBegriffsgeschicht, (Edited by Hartmut Lehmann and Melvin Richter, GermanHistorical Instifute, 1996).]一旦把科林伍德的观念转化为和语言有关的概念,“历史知识浓缩(incapsulated)于思想结构”就转化为“历史沉淀于特定概念”,文本分析的一个重要方面即词汇的历史语义学考察,由此就与概念变迁研究建立起了联系。

科塞雷克的主要贡献是他主编或参与撰写的德国《概念史文库》(1955)、《哲学历史词典》(1971-2007)以及《历史中的基本概念:德国政治和社会语言历史辞典》(1972-1997)(下简称《历史中的基本概念》)。特别是《历史中的基本概念》一书,收录了115个在欧洲讲德语的地域从1750至1850年间的基本政治社会概念(socialand political concepts)。众所周知,这一百年是欧陆,特别是德国从传统向现代转型时期。《历史中的基本概念》通过词汇历史语义的考察,从这一百多个概念(词汇)的起源、定型和变迁中揭示德国现代思想的形成。

实际上,在德国现代观念形成的背后,是整个德意志民族形成的近现代史。由于概念的变迁并非空泛的哲学思辨,而是可从用述语语义变迁来证明的,这套规模空前的八卷词典系列,被评为“至今为止尝试过的最深刻细致的政治社会概念史研究”。

科塞雷克的概念史研究虽考察了1750-1850年大量文本,但是他没有建立有关历史文本的数据库,亦没有做到数字分析技术在词汇使用频度和意义类型统计中的应用。概念史研究更没有想到的是,可以把类似的方法推广到观念史以外的历史,甚至整个人文研究中去。虽然如此,文本分析和人文研究之间的障碍已经打通。只要大量历史和人文研究的文本电子化,数字技术和人文研究的交融是迟早出现的!用数据库和数字技术进行文本和述语的统计分析,最早出现在1990年代开始的中国现代观念起源和演变的研究中。中国观念史的研究成为数字人文学的第一个领域。

数据库与中国当代观念的形成

众所周知,中国的近代是从1840年开始的。如果在观念史领域审视中国社会变迁,其现代观念在西方冲击下的起源、形成和重构正好比德国晚一百年。其演变的轨迹亦深藏在有关述语的历史语义之变迁中,和德国不同的是:将反映这一百年观念变迁的文献数字化远比欧陆容易。因为中国现代观念形成和演变过程只涉及中、日、韩三国的互动,且1895年前三国通用汉字,即文献的语种比欧陆单纯,故最有利建立历史文献电子文本的数据库。

只要建立了这一百年政治思想文献数据库,可以用关键词(keyword)频度分析和意义类型演变揭示中国现代观念的起源、形成和变迁。因为科塞雷克的“历史沉淀于特定概念”可简化为“历史沉淀于特定的关键词”,对这些特定关键词的起源和语义变化的考察就如同DNA分析一样,可以揭示一个个中国现代观念起源和演变的历史过程。而数据库和数字分析为此提供了不可缺少统计的工具。

早在1997年,我和青峰提出的“中国现代政治观念起源的计量研究”课题计划获得香港研究资助局(RGC)资助,利用数据库方法通过关键词统计分析以揭示中国近现代观念起源和演变的研究已经开始。经过近十年的努力,我们建立了从晚清到五四新文化运动包含约一亿两千万字文献的“中国近现代思想史研究专业数据库(1830-1930)”,通过近一百个重要政治术语历史语义的统计分析,基本搞清了诸如“科学”、“民主”、“权利”、“社会”、“革命”等最重要的十大现代观念从1830年到1924年百年来意义的变化。[这一系列研究计划参见金观涛、刘青峰《观念史研究:中国现代重要政治术语的形成》一书的致谢。数据库文献目录及说明参见《观念史研究:中国现代重要政治术语的形成》一书的附录一:“中国近现代思想史研究专业数据库(1830-1930)”文献目录,而《观念史研究:中国现代重要政治术语的形成》则收集了过去十年发表的相关主要论文。该书附录二则为百个现代政治术语词意汇编。]

实证研究得到如下两个结论:第一,如果仅仅考察一个个现代观念本身,忽略观念之间的关系,今日中国人所持的基本现代观念,无论其意义还是结构,都和五四新文化运动后期一模一样。这无疑证明我们在思想史研究中十分强调的“观念是建构新道德意识形态基本要素”的观点。意识形态作为观念系统,其形成和解体一般不影响组成它的基本观念。当代中国人的观念,都是马列主义和三民主义这两种意识形态除魅解体后游离出来的碎片。这些碎片比意识形态更基本,所谓中国现代观念的起源和形成,是指这些组成意识形态基本要素的形成。确实,只要再往前追溯,立即发现所有这些现代观念意义和结构在十九世纪至二十世纪初不同时期呈现出巨大差异。也就是说这些组成新道德意识形态的现代观念都是在新文化运动中定型的,故我们将其称为中国当代政治观念。

第二,所有中国当代政治观念的形成都经历了三个阶段。第一个阶段是十九世纪中叶以后洋务运动时期,其特点是用中国原有的政治文化观念对西方现代观念意义进行选择性的吸收:如西方现代观念和中国传统观念无意义相交之处,即该观念完全是新的,则出现中国文化对该观念的拒斥。第二阶段是从甲午后(1895-1900年)到新文化运动前(1915年)这二十年,这是一个中国人以最开放的心态接受西方现代观念的时期。很多中国文化中不存在的新观念都是在该阶段传入,而且以前经选择性吸收的现代观念亦变得较接近西方原意,故可称为学习阶段。

第三阶段则是新文化运动时期(1915-1924年),我们看到的是对所有外来观念进行重构,使其意义和第二阶段不同。有的观念回到第一阶段相近的意义和结构,有的观念形成了中国特有的意义。也就是说重构产生了中国式的现代观念,并用它们建构了革命意识形态。

这一发现,对于我们来说是触目惊心的。因为它和流行的现代性学习说严重不合。现代性学习说把中国现代化进程分为器物层面向西方学习(洋务运动)、制度层面向西方学习(从戊戌变法到立宪共和)、价值层面向西方学习(新文化运动)三阶段。如果说,我们讲的第一阶段选择性吸收勉强可以用器物现代化来解释,第二阶段和第三阶段和人们原来想象的完全不同。现代性本起源于西方,故在现代化过程中,学习西方现代观念(现代性)是极为重要的。但对于中国,它只是夹在三阶段中间的一环,更重要的是:作为启蒙的新文化运动,其真正意义不是原来想象的价值层面西化,而是对学习结果重构,使其变成中国式的;并用它们建立新的道德意识形态。

这三阶段所揭示的中国传统社会转型之分期,亦和今日通行的史观不同。第一阶段是从鸦片战争到洋务运动,中国把向西方学习纳入儒学经世致用的轨道。该时期中国社会的基本结构和传统社会一模一样,根本不属于近现代。正是甲午中日战争证明其虚妄,中国传统社会开始现代转型,如引进西方现代政治经济制度并建立现代民族国家。第二阶段的学习导致严重社会整合危机,它引发了中国文化对西方引进的现代观念重构时期,这就是新文化运动。这在其它社会现代转型过程中很少看到,新文化运动既是次启蒙运动,亦是历史上中国文化融合外来文化经验的复活。正因为如此,新文化运动才成为新道德意识形态形成时期,新道德意识形态迅速取代儒家意识形态整合社会。中国进入马列主义(毛泽东思想)和三民主义建立党国并互相竞争的时代。因此被称为五四以后的中国当代史,实为和传统社会同构的新道德有机体的形成和变迁之历史。只有当道德意识形态式微,中国社会才回到社会现代转型的基本轨道上来。

更使我们惊奇不已的是,本来我们研究的目标只是中国现代观念起源和演变,它被严格限定在观念史领域;但我们得到的却是中国近现代社会转型的历史分期,这是一个横跨政治史、经济史和思想史更广大的领域。也就是说,用数字分析方法对关键词历史语义分析的观念史研究,似乎有一种不断扩大研究领域的特点。它会越出原先严格规定的专业,指向宏大的历史视野。

我们终于发现,关键词的历史语义分析比观念史的范围大得多,只有当关键词代表概念时,其历史语义分析才是概念史。实际上,关键词除了可以代表概念外,它还大量用于指涉事件、主体、价值、空间及事物,它可以是文本中的任何东西。对这些指涉对象历史语义的研究涵盖历史、语言变迁、事物形成等在内的所有人文领域。在数据库建立之前,关键词研究至多是编字典(收集新形成的语义)或相关研究,以帮助人们可认读懂各种文本。一旦有完备的数据库,各种关键词历史语义及其互相关系的研究是在探讨人类意义世界的演变,它是一门新学科,我们可称其为数字人文学。

人文学

正是在中国现代观念起源和演变的研究和教学中,我们逐渐意识到数字人文学的基本方法和内容。它是从用数据库方法研究各种类型的关键词开始的。首先,必须根据研究目标确定涉及关键词的类型和数目;然后,根据关键词的性质将该研究分解为若干单元;最后,结论是将各单元研究综合起来得出的。其每一个单元都包含如下三个基本步骤,每一个步骤都和数字技术有关:

第一步是通过数据库特定关键词检索找到包含该关键词的所有句子,这些句子形成一个庞大的句库,它们是数字分析要处理的对象。第二步是确定该关键词在每个句子和文本中的意义。因为文本由句子构成,而句子又由词汇组成。这样任何一个关键词必定存在两种意义。一是“词典意义”,它规定了作为表达意义的最小单位的词所指涉的对象。根据词典意义和文法我们可以读懂句子,句子的意义会给每一个关键词以第二重意义,我们称之为句子赋予关键词的意义,或“使用中的意义”。由句子构成文本,文本的意义亦进一步在关键词使用意义中烙下自己的印痕,即将新内涵添加到“使用中的意义”中去。

关键词的“使用中的意义”可能和当时的“词典意义”相同,亦可以不同。当两者不完全相同时,就构成关键词新意义的萌芽。当新意义越来越被普遍接受,意味着该关键词意义结构已发生改变,它不再是(或限于)刚使用时的字典意义。第三步是对新意义的各种成分进行统计,去发现关键词意义结构的历史变化。也就是勾画出每一个关键词的意义谱系。

在这三个步骤中,每一步都离不开数字分析技术。第一步最简单,只涉及数据库建立和通过人机互动寻找关键词并用检索建立句库。第二步涉及的数字分析技术相当复杂。当关键词频度超过数千次以上时,研究者用手工确立关键词使用意义的各种成分已不可能。这时需要用关键词丛或较高级程序来处理数以万计的句子。第三步是利用数字技术的统计功能,它基本上和数字技术社会科学中的运用相同。

这三个步骤构成研究过程的一个基本单元,它准确地刻画了一个关键词的意义在历史上产生和演变的过程。通过这样一个个基本研究单元的展开,一组关键词历史语义变迁可定量地呈现在研究者面前。分析它们之间的关系,可以揭示关键词某种语义的起源、普及和演变,以及它和另一个关键词历史语义的生命史如何纠缠。该复杂的历史意义网络是我们的意义世界变迁的一部分,也是用数字人文分析从文本中发现的东西。

假定被研究的关键词代表的是观念(或科塞雷克所说的“概念”),上述统计分析就是揭示该概念的历史语义变迁,完整地刻画了观念的起源形成和演变之过程。假定被研究的关键词代表的是一历史事件,其统计表明某一历史事件如何在人们心里发生,并印在具有某种思想和价值取向的人群中,成为观念史图像中的事件,它亦揭示了观念史图像中历史事件如何流变。

科林伍德所谓历史是活着的过去,通过上述研究得到的成果表明:这活着的过去,是如何随着一代代人而处于流变之中的。如果被研究的关键词表达的是某一主体,那么该主体历史意义结构形成和变迁可以揭示它是如何被界定的,其属性如何形成以及凝聚成某种特定的观念。如果被研究的关键词表达的是具体的事物,则关键词意义结构分析刻画了该事物起源的过程。

必须强调的是,因为人的整个意义世界都是用语言加以表达的,专业数据库的建立原则上可以涵盖历史上所有文本,这样关键词检索形成的句库,以及用数字分析工具得到的意义历史结构,几乎涵盖了人文研究的全部对象。我们可以用关键词指涉的对象,对观念、观念史图像中的事件、思想价值系统(历史记忆中)的主体、客体、地理空间和事物等给出严格准确的定义。其中每一个都和人类整个意义世界互相交融,组成数字人文研究的对象。我们可作如下定义,并根据对象确定人文研究的门类:

一、观念是文本中用一个或一组关键词中的某一个表达的思想。对它的研究构成观念史的基本内容。一旦把词汇在语句中的意义(词典意义)和它在文本中的意义联系起来考察,立即会发现把概念和观念区别开来是没有必要的。因为根本不存在语境以外的观念。

二、观念史图像中的事件是文本中用一个或一组关键词中某一个表达的事件。对它的研究构成历史记忆中事件的研究,它是历史学的核心。(金观涛、刘青峰,《观念史研究:中国现代重要政治术语的形成》,页434。)

三、历史记忆中的主体是文本中用一个或一组关键词中某一个表达的和“自我”及“我们”有关的对象。对它的研究构成人类自我认知和认同演变的新领域。

四、用上述方法还可以定义文本中用关键词指涉的各种对象。如人物、事物、地区、国家、事物状态、行为等等。它们都是人文研究中重要课题。

上述所有关键词的句库构成了数字人文研究的对象。既然人文和历史知识是蕴含在文本意义世界之中,建立了文本各种关键词句库及其意义类型的分析,就是文本的意义挖掘(data mining)。而只有数字分析或统计技术才能实现大量文献的关键词检索、统计其频度以及展开关键词丛频度分析,并寻找有效的法则将其和意义世界相对应。也就是说,数字技术将成为人文研究方法的核心组成部分,故可称之为数字人文学。

长程的二阶(second order)反思

数字人文学和一般的人文研究有什么不同?既然文本的数字分析方法是如此重要,它和通常人文研究者熟悉的文本分析又是什么关系?显而易见,数字分析不能代替人通过读文献进入过去的观念,亦无法做到历史过程在研究者心中重演,甚至无法判断应该去寻找哪些关键词。再复杂的计算机程序都不能区分关键词的“所指”与“能指”,不会辨认关键词在使用中的意义,数据库和数字分析技术的功能仅在于可以加快人文研究的各个环节。也就是说,它只是人文研究的基本方法如理解方法、诠释学方法和符号学方法的辅助工具。

但是,因数据库包含的文献量是任何一个研究者无法掌握、甚至穷毕生精力都无法阅读的,其挖掘、处理数据能力大大超过研究者组成群体的总和。这样,以数据库和数字分析为基本工具的数字人文学和一般人文研究不同,它有如下两个特点:

首先,原作为反思存在的人文研究成为可以用经验检验的。长期以来,人文研究包含哲学、文学、历史等不同学科,它是对人类意义世界之研究,构成反思意识的核心。在人文研究中有一个重要问题一直没有解决,即它的结果如何具备必要的可检验性。当然,对于哲学和文学研究,可检验性不是一定总是需要的。但当人文研究和历史有关时,如思想史、文学史、美术史等都涉及历史知识的真实性,可检验性是不可回避的。

要求研究具备可检验性一直是人文研究的内在动力,它导致人文科学社会科学化,可人文研究一旦社会科学化,立即带来科学主义和实证主义的弊病。数据库和数字人文学的出现,不仅使得人文研究成为可检验的,而且其检验过程和社会科学化不同。一方面,其量化分析和社会科学一样准确,甚至更准确;但另一方面,它不会损害人文研究中对主体和价值系统的强调,不需要人文研究对象把观念悬置起来。这不得不说是人文研究的一个巨大进步。

数字人文学的出现带来人文研究的另一个重大变化在于,长程宏观的人文研究从此获得自己的生命,人类长程二阶反思的意识得以形成。在十八、十九世纪,宏大的历史问题、历史展开模式一直是人文研究的重要课题,甚至是其核心。但是正因为其知识的不可检验性,二十世纪人文研究日益放弃这种探索,集中到较小、较具体的领域。数字人文学的出现重新使研究者视野变得宏大,长程的历史的人文研究再一次获得其意义。

让我们举一个例子。重大历史事件如何改变人们的普遍观念,是一个重要但很难研究的问题。在数字人文学中,它实际上是去分析观念史图像中的事件和普遍观念变迁之间的关系。我们会以《新青年》群体为何放弃自由主义为例,对这类研究做了尝试。首先,我们通过关键词检索找出《新青年》杂志中提及的所有事件,它们为观念史图像中的事件,可以对每一事件标出其文本意义并做出统计。同时,亦可以通过关键词检索研究观念的变化。把两条线索综合起来,就可以找到观念史图像中的事件如何改变观念,新观念一旦形成又如何对原有观念史图像中的事件再定位过程。我们发现,促使《新青年》群体放弃自由主义的是第一次世界大战和五四运动等事件,而不是原先认为的十月革命和巴黎和会等。

一旦理解历史事件(观念史图像中的事件)如何改变观念,对于特定主体,历史展开的全貌就呈现出来,这就是普遍观念支配社会行动导致某些历史事件发生,这些社会行动作为观念史图像中的事件进一步反作用于观念的过程。历史是普遍观念与社会的互动,历史展开的模式就是互动的模式,在相当长的时间里,历史展开的模式被认为是没有意义的,现在我们知道,历史研究中独特的因果律就是观念史图像中的事件如何改变观念的模式,它亦是数字人文学研究的对象。数字人文学因处理的文献量巨大、历史时段长而具备一般人文研究不可能有的长程宏大视野,而人文研究相对于表达意义世界的文本而言,是建构二阶知识以形成二阶反思。

在此意义上讲,数字人文学的研究有助于一种大尺度长程二阶反思意识的形成。反思的本质是人可以从他当下生活的意义世界中跳出来,或退而远瞻,或进入他所陌生而不喜欢的价值系统,以获得对意义世界的新认识。数字人文研究使得人类在进行反思时再次可以进入宏大长程的视野,沉寂了一百多年的历史哲学将恢复其青春。这确实是令人神往的。

本文原载于项洁主编:《数位人文研究的新视野:基础与想象》,国立台湾大学出版中心2011年版,页45-84。配图源于网络,如有侵权请联系后台删除。