【本文节选自《基因:不平等的遗传》,作者: [美]道尔顿·康利(Dalton Conley) / [美]詹森·弗莱彻(Jason Fletcher),出版社: 中信出版集团,经出版社授权在网易新闻平台发布,欢迎关注,禁止随意转载。】

当20世纪80 ~ 90年代、分子遗传学的时代正式拉开帷幕时,有志于人类行为学研究的生物学家纷纷感到欢欣鼓舞:他们终于能够破解基因组的黑匣子,直接测量基因的影响。之前他们为了研究做出的那些关于双生子、领养儿童等的假设,常常遭到他人的误解和嘲笑。现在他们再也不需要依赖这些假设了,可以直接研究基因对于社会现象的影响。科学家可以深入探究其生物学机理,并且更详细地了解从细胞到社会的各种影响路径。他们甚至能够有针对性地研发焦虑症、抑郁症、精神分裂症,甚至是认知障碍症的基因疗法。在这些疾病中,有50%~75%的差异是由基因造成的,彻底了解哪些基因在起作用是真正走向“临床议程”社会生活的第一步。但事实证明,与估计遗传力一样,对人类行为的分子基础研究(以及对大部分表型的研究)同样困难重重。

回想过去,科学家曾认为他们将发现决定性别、智商等性状的基因,这种想法现在看来确实很幼稚。与瞳色这种由3个基因就能决定的简单性状相比,社会生活的情况要复杂得多。即便是身高这种受遗传影响极大的性状都是多个基因调控的。换句话说,尽管其中每个基因的作用都很微小,但这类性状受到成百上千个基因的共同影响。假如说连身高这种性状都要由成百上千的基因才能决定,那么社会行为就必然是大多已知基因共同作用的结果了。

打开网易新闻 查看更多图片

冲击一:候选基因研究

早在近25年来的基因组革命之前,就已经有人发现:如果特定位置上的基因按照某种方式产生变异(mutate),人体就会受到巨大影响。这样的遗传病被称为孟德尔病(Mendelian diseases),其中的亨廷顿病(Huntington’s)就是一个典型例子。这类疾病是由于基因发生可遗传的变异和错乱,从而导致一些基因无法发挥正常作用引发的。当单基因遗传病呈隐性(recessive)时(必须要同时具备两个致病基因才会导致发病),一些致病基因的携带者并不会表现出某些症状。但如果两个携带者婚配,他们生育的后代又不幸同时获得了双亲携带的致病基因,那么这个孩子就会患病。亨廷顿病与镰刀型贫血症(sickle cell anemia)都属于这种类型的遗传病。

即使是癌症,我们也可以认为它符合这种OGOD(One Gene,One Disease, 即一个基因对应一种疾病)原则。许多癌症的发生就是因为某个抑癌基因(tumor suppressor gene)发生了变异,导致其不能抑制细胞周期,进而导致细胞疯狂增殖。假如一个人的某对抑癌基因中只有一个能正常运行,另一个失效的话,那么,当这个正常基因发生变异(可能是因为致癌环境,也可能仅仅是偶然的复制错误)时,这个细胞的增殖就会失控。另一种情况是原癌基因(作用是促进细胞生长)发生变异,成为致癌基因,活性比之前提高(在抑癌基因的情况下,恶性变异会导致其活性降低),于是大大加快了细胞的生长和增殖。不过需要注意的是,这种情况还是略微有些夸张,因为单个基因的变异在大部分情况下都不足以引起癌变。我们的身体有其他手段来防止细胞增殖失控,不过有时候这些防卫手段也会遭到破坏。对于我们而言,关注的要点是探索特定基因对应的作用。这可以说是遗传学领域的惯例了。

在已知遗传病的背景下,较早的文献采用分子遗传学的方法来研究人类行为,致力于用单个基因控制性状的思路去解释问题。科研人员通常采用两种测定基因变异的方式。第一种方式是研究人类基因组特定位点的单核苷酸多态性(SNP,读作“snip”)。单核苷酸多态性就是指染色体上特定碱基对的变化,而且这种变化至少存在于1%的人口中。第二种方式则是关注CNV(基因拷贝数的变化),也就是在某一给定片段内核苷酸重复次数的变化。通过关注CNV,我们可能发现有些人有TTATTATTA这种重复三次的TTA片段,而其他人的TTA片段则可能重复四五次。发现新基因的进程比较缓慢,但这并不仅仅是传统医学研究范式的原因。候选基因法(candidate gene)之所以被采用,一部分原因是基因分型的高昂研究成本和从假说出发的科研方法。

研究成本是一个不可忽略的因素。在对基因的早期生物学、医学以及行为学研究阶段,为了研究遗传序列,需要合成被称为引物(primer)的核苷酸链。由于这种研究成本很高,所以科学家在选择观察位点上非常谨慎。科学家倾向于假设某一特定基因型差异的关键在于基因组的某一特定区域。大面积排查的方法是不可行的。

那么科研人员如何知道自己关心的性状对应于基因组的什么位置呢?大部分情况下,基因的选取基于已经在模式生物(model organism),也就是在一些实验室动物身上进行的研究。模式生物已经为行为遗传学等复杂研究领域解决了许多难题。首先,科学家可以定制研究环境。比如,我们可以将一只小鼠置于生存压力较大的环境下,其他小鼠则置于对照环境中。我们可以让实验组小鼠在未断奶时就离开母亲,而对照组小鼠则与母亲生活在一起。环境的随机分配(或是保持各实验室中条件相同)模仿了医学中的控制随机变量实验。这就消除了我们在第二章中提到的基因可能冒领环境差异影响的担忧,例如,美籍华人既使用筷子,在某一位点上C的比例也有偏高的情况。对于模式生物,环境对于基因的影响可以通过控制环境变量来消除。

此外,在许多研究模式生物的过程中,遗传控制可以通过一种叫作回交(back-breeding)的方式实现。所谓回交就是指科学家让动物与其亲代或兄弟姐妹交配,这样经过几代之后就能排除大部分杂种基因,从而在实验室条件下得到一个基因几乎完全相同的群落。在这种遗传因素相同的背景下,研究人员可以通过将遗传信息转入宿主细胞,或是诱导定向突变的方式来改变某一个基因。一旦将这种变异引入生殖系(即产生精子与卵细胞的细胞),这个基因变异就将代代相传。

这种通过遗传手段操纵活体动物的能力带来了很多可能性。科学家不仅能够在实验室条件允许的范围内控制实验大鼠所处的环境,还可以向它们注入或关闭某些特定基因,看看会出现哪些现象。他们还可以把新基因跟已有的基因结合,形成标记基因,指示出这些基因何时在动物的何处表达出来(即合成蛋白质)。例如,绿色荧光蛋白(GFP)最初是在某些水母身上发现的,现在它在许多遗传学实验室中作为标记物被广泛使用。当我们将其他基因片段与编码绿色荧光蛋白的基因结合在一起时,如果在实验动物身上发现了荧光蛋白,就意味着我们要测定的目标基因被表达了。这样研究人员就能判断目标基因的激活条件,比如表达所处的环境条件、细胞种类以及细胞发育的阶段等。

考虑到用实验动物能完成如此多深入细致的研究,研究行为遗传学的科研人员在寻找人类基因组中的重要基因时,常常把大鼠与小鼠的转基因实验数据作为参考也就不足为奇了。幸运的是,从生物界的角度来看,比起黏菌(slime molds)、深海热泉口的微生物等来说,小鼠和人类简直就是双生子,几乎一模一样。小鼠和人类在8000万年前源自同一个祖先,所以大脑结构一样,所有的基因也几乎一样(在已经研究过的4000个基因中只有10个不一样),而负责蛋白质编码的DNA序列中两者相同的比例也高达85%。

更让研究行为学的学者激动的是,对我们的四条腿“小表弟”进行的表型研究已经很成熟了。我们有各种方法来衡量上瘾(就像人类的药物成瘾一样,小鼠也会对可卡因成瘾,这时它们会对进食、交配、睡眠等一切都失去兴趣,只想要更多可卡因)、社会挫败4反应等一系列与人类抑郁症类似的鼠类行为,以及与我们所说的焦虑类似的行为。科学家甚至可以衡量小鼠的认知能力和韧性(也就是勇气)。近年来,研究者认为在当今社会中,后者是一项关键的非认知技能。

打开网易新闻 查看更多图片

于是,当小鼠某个基因的变异表现出会影响其抑郁水平时,人类分子遗传学家就会决定研究人类的这个基因。在这些基因中,有一些在大脑中得到了高度表达,而且是当今许多药物疗法的作用目标。例如,经过对小鼠和人类进行广泛研究之后,有一个候选基因被确定为5-羟色胺转运体的编码基因,而5-羟色胺转运体正是抗抑郁药物百忧解(Prozac)和其他5-羟色胺重吸收抑制剂(SSRIs)的靶蛋白。多巴胺(dopamine)受体2和受体4也是这样的例子。它们是大脑奖励回路和愉悦回路的关键物质,已经查明其与注意力缺陷多动症(ADHD)有关,而且是ADHD治疗的指导激素[包括使用安非他明(amphetamine)来刺激多巴胺的释放] 。至少从理论上来说,人类行为学家通过这种方式探索基因对社会的影响是有一定依据的。

然而,理论是一回事,实际做起来又是另一回事。Add Health等采集人群DNA数据的多项早期调查测定了已知与大脑5-羟色胺系统和多巴胺系统相关的6~10个基因标记,其中包括单胺氧化酶(monoamine oxidase)的编码基因。单胺氧化酶是百忧解出现之前能起到抗抑郁作用的靶蛋白。很多早期研究(包括最新的一些研究)发现,这类候选基因发生的变异对小鼠行为,以及对应的人类行为有显著的影响。比如说,这些研究得出的结论之一是,单胺氧化酶A(MAO-A)基因的变异会影响人类的秉性和侵略性。这个基因经常被称为“战士”基因(“warrior”gene)。而多巴胺受体2(DRD2)基因和多巴胺受体4(DRD4)基因的变异也已经被证明与人类行为有关。这些研究者认为,有些人需要对其多巴胺受体所在的大脑区域进行更多刺激才能达到某一给定的反应水平,因而,这些人就会更喜欢冒险。

然而,我们并不能认为进行动物实验得到的结论就能简单地应用于人类。一个明显的问题就在于如何用小鼠的表型来类推相应的人类行为。我们怎么能确定使小鼠蜷缩在笼子一角的某个基因变体,就是导致人类抑郁程度超过临床阈值的等位基因呢?我们又如何能确定控制小鼠因为猫的出现或是惊叫而惊恐万状的基因,就相当于使人类在焦虑症发作时表现出强迫症和失眠的基因?另一个问题是,动物实验不仅能控制环境(比如,可以最大限度地防止各种实验不需要的噪声产生,以免干扰对基因型与表型关系的观察),还能通过使用基因型相同的动物来控制遗传背景,从而消除基因的互相影响。这种相互作用也被称为异位显性,指的是在一对基因中,只有当其中一个为某基因型时,另一个基因的变异才会产生显著效果。举例来说,DRD2基因如果只是自己发生了变异,那么细胞对多巴胺的摄入就不会受到显著的影响;但如果DRD4基因也同时发生了变异,细胞的多巴胺摄入就会出现问题。因为这两个基因是互为补充的关系,一个基因表达的受体不足时,另一个基因就会加强表达。只有两者同时出现问题时,症状才会显现。最后,候选基因法难以解决我们之前已经提过的“筷子问题”,因为被研究的单个基因变体在不同的人群和子群体中的出现概率不同,而它们之间可能存在极大的历史文化差异。

尽管面临许多挑战,但还是有许多研究发现候选基因在多方面有显著的影响。从抑郁与学生各科平均成绩[康利(Conley)的研究],到考试成绩与注意力缺陷多动症的联系[弗莱彻(Fletcher)的研究],其影响面还是很广泛的。这还只是我们自己的一部分研究。毫不夸张地说,有成千上万篇已发表的论文声称发现了某基因对人类的某种行为或态度有重要作用。科研人员也不是简简单单就做出结论的,我们一直在试图解决前文提到的那些问题。例如,为了解决“筷子问题”,我们一般会将分析局限在某族裔内部,或者对照所研究基因存在的不同兄弟姐妹,从而彻底规避潜在的人群分化带来的问题。同时我们还认为小鼠的行为模式与人类的行为模式并非完全对应。两个物种表型之间蹩脚的“翻译”可能不利于我们得出正确的结论。换句话说,如果我们推断小鼠的某种行为是某基因影响的结果,并且试图把这一行为跟人类的某种行为联系起来,我们就有可能在人类身上观察不到任何该基因的作用,因为这两种行为实际上并没有太大的关联性。这就表明,这种思路下的研究可能存在很大的测量误差。

虽然科学家一开始激动不已,而且基于理论精心设计了研究方案,但是今天的公认结论是,大部分早期的研究结果都是假阳性,也就是说只是统计学上的巧合,并不具有真正的社会生物学意义。可是,如果我们掌握了这种理论,并用它来检验关于单一遗传变异与现实后果(如考试成绩)的假设,这难道不符合科学规范吗?难道将动物行为“翻译”为人类行为带来的偏倚总是会妨碍我们得到真阳性结果吗?我们难道不更应该担心得出假阴性结果吗?有人可能认为,得到假阳性结果在现实中几乎是不可能的,那简直相当于大海捞针,一捞就中一样。我们更应该担忧的是,我们实验了很多次,就快接近那根针了,甚至都碰到了它,可惜没被扎疼(也就是假阴性结果)。

只要初步了解社会科学文献的撰写、出版与获得认可的方式,我们就能对假阳性结果的汗牛充栋做出解释了。杂志社关注的只是能吸引眼球的头条新闻。几十年来,社会科学文献和数以万计的研究者使用的都是同一套数据模型,所以想有新的发现真的很难。但未来,当新的变化即基因标记被引入传统社会科学调查时,新发现肯定会像雨后春笋般出现。如此大规模的数据向我们提供了成百上千个值得研究的变量,借此去观察它们与新的信息(基因标记)是否存在统计学关联。实际上,在20年前,寻找基因与复杂人类行为之间联系的研究刚起步时,研究者感觉在这个新的领域也许能很快从数据中发现能反映真实因果关系的统计学关系。起初,科学家确实有一些成功的发现,包括载脂蛋白E(APOE)和阿尔茨海默病(Alzheimer’s disease)的关联,以及乳腺癌1号基因和乳腺癌2号基因(BRCA1/2)与乳腺癌的关联。人们逐渐意识到,还有很多强单基因效应等待着人们发现。

然而,把遗传学数据引入大型社科研究会引起危险且产生难以预期的副作用。与只关注某种疾病的大多数医学研究不同,社会科学的数据往往要评估上千种问题,包括收入变化情况、受教育程度、政治参与情况、考试成绩等。比如,某个基因变体有可能是影响人体生理系统(如多巴胺系统)的重要因素,如果研究者对这个变体很感兴趣,将其引入自己的调查,同时又没有明确的理论来指导调查,那么他们就可以对基因X和结果Y(别忘了,这个数据中有1000多个测得的结果)的相关性不断地进行检验,直到“发现”了什么为止。如果研究者在全样本中一无所获,他也许会在男性、白人、(美国)南方人的样本子集中得到一些成果,但这些中间分析步骤往往不会在报告中提及。在经历了成千上万次分析之后,研究人员可能只会提到一两个显示某基因对某些性状有影响的研究结果。在这里我们也很想举个实实在在的例子,但问题是我们找不到,因为这种“毫无价值”的研究过程就像掉在屠宰场地上的碎肉,很快就被清理掉了。只有激动人心的阳性结果才有可能被发表,这种“一无所获”的研究结局只能放在书桌抽屉里落灰。科学界将这种现象称为“文件抽屉问题”或出版偏倚。

除非有特别重大的发现或者引起广泛争议的结论,其他研究人员才会重复实验,检测结果的可重复性。大多数研究都没有引发争议,因为学术期刊和主流媒体都喜欢着重报道引人注目的研究发现(如“同性恋基因”),而不是重复前人研究却未得出相同结果的报告。事实证明,要想确切地证明原来的研究结果有问题是很困难的,所以这类不太引人注目的研究仅仅被视为未能实现既有结果的失败实验而已。然而更重要的是,我们在学术期刊上看到的仅仅是实际进行统计过程中的一小部分。因此,科研人员越来越被鼓励(有时是被要求)在公开的网站上预先登记自己的假设(即他们将检测哪个基因标记),以免类似的事情再次发生。

因为上述种种原因,候选基因研究逐渐遭到了强烈抵制,因为它的太多结果既不稳健,也不可重复。最终,像“大多数一般智力的基因相关性报告可能都是假阳性结果”这样标题的论文出现了,这意味着,在一个样本身上得到的结果在另一个样本身上可能不具有可重复性。行为研究学领域的候选基因研究中假阳性问题实在是太严重了,以致该领域的核心期刊现在已经不再接受这类研究的文章,即使已经在多个独立样本上进行过重复实验的也不行。

冲击二:全基因组关联分析

那怎么办呢?按照科学发展的规律,既然之前对基因与人类行为关系的研究因为经不起推敲而惨遭失败,我们是否应该就此偃旗息鼓呢?我们是否早该承认基因对人类复杂表型的影响过于偶然,受环境和遗传背景的影响又太大,而不适合作为研究课题呢?如果我们要继续探究重要社会现象的遗传学基础,怎样做才能得到既经得起推敲又有意义的结果呢?幸运的是,就在候选基因法日益受到抨击时,基因分型的价格正在急速下降(见图3.1)。这两种趋势激励许多(但绝对不是所有的)研究人员放弃候选基因法,转而在不做理论假设的前提下检测整个基因组,看看能有什么收获。于是,候选基因法的时代黯然落幕了,取而代之的是GWAS的时代——全基因组关联分析(genome-wide association studies)。

打开网易新闻 查看更多图片

图3.1 基因分型(全基因组检测)价格的持续下降

资料来源:Wetterstraiid. KA. DNA Sequencing Costs: Data fioni the NHGRI Genome Sequencing Program (GSP).全文链接:www.genome.gov/sequencingcosts

注:如果你不想检测全部碱基对(共有30亿个),而只想使用1个基因芯片(大约包含100万个SNP)的话,那么现在的价格连100美元都不到。

全基因组关联分析得益于SNP基因分型芯片的问世。不同于之前根据动物实验的结果,选取人类一部分DNP片段进行检测的做法,现在SNP芯片可以在整个基因组随机检测成百上千甚至更多的等位基因(目前,大多数芯片能识别超过100万个SNP)。现在,研究者用10年前检测8个候选基因的费用就能检测100万个SNP,以此来探究它们对他所感兴趣的社会现象的影响。科学家不用再像以前那样根据动物实验来猜测该检测哪一部分基因,而是可以直接检测成千上万个基因片段——进行无假设普查,以此探究会出现哪些数据。基因芯片的设计能很好地应用于人群基因变异多态性的分析。然而,新时代带来的也不全是好消息。其中一个坏消息是,由于我们要逐一分析每个基因标记与我们感兴趣的问题是否有关联,所以统计分析的次数上升到了百万级。为了避免假阳性结果,我们必须设置一个严格的阈值才能确定结果的显著性。一般来说,如果一个事件偶然发生的概率小于1/20的话,那么它就会被认为是“真实的”。然而这个标准就相当于,100万个样本中即使有多达5万个样本出现问题,我们也能认为这仅仅是偶然所致。因此我们需要一个比1/20严格得多的统计学阈值:五千万分之一。

即使有了严格的统计学阈值,研究者还需要评估数百到数千个(如果还没有达到百万级别的话)统计分析的结果。如图3.2所示,各基因标记检测出的结果通常用曼哈顿图(Manhattan plot)来呈现。如果你的检测图更像曼哈顿(有一些峰值),而不是巴黎(所有的值都很低),那就可能胜利在望了。图上的每个墨点都代表在某SNP位点发生变异时导致的效应(如20号染色体第12256号碱基对的碱基T变成A时会产生哪些影响)。各染色体上的近百万个SNP位点会按照其在染色体上的位置排列,横轴的最左边是1号染色体,最右边是22号染色体(有些研究还会加上性染色体X和Y,通常会在图表的最右边呈现)。纵轴表示的是,当观察并比较两个等位基因时,特定SNP对结果造成的影响所对应的统计显著程度——简单来说,就是造成的影响有多大。从图3.2中可以看出,影响最大的是19号染色体最上面的一个墨点(墨迹的深浅只是为了便于区别不同染色体)。

检测成千上万乃至上百万个基因标记的一个好处是,研究者可以控制人群分化带来的干扰。排除起源相同的人群中变化情况趋于一致的基因标记后,我们就能更加肯定地认为,剩下的差异确实与我们感兴趣的表型有关,而不是像“筷子问题”那样,只是反映了文化的共同点而已。早期的单候选基因研究没有考虑其他基因标记,而现在研究的则是上百万个基因,所以人群结构问题可以通过统计学方法发现并消除。

除了能解决人群结构问题,需要比较保守谨慎的统计学阈值之外,GWAS的另一个特点就是普遍可重复。每当你发现了一个统计显著程度超过百万分之一,很有可能构成重大发现的SNP时,你必须使用另一份重复实验的样本有针对性地做数十次检测,然后再分析一遍重复实验得到的数据。无须检测很多,可以只检查在你第一次(发现这个SNP时)的数据中表

打开网易新闻 查看更多图片

图3.2 显示一个全基因组关联分析结果的曼哈顿图

资料来源: Visscher. PM. Brown. MA, McCarthy, MI, Yang. J. (2012) Five yearsof GWAS discovery. Am J Hum Genet 90(1): 7-24. Ikram, MK. et al (2010) Four Novel Loci (19ql3. 6q24.12q24. and 5ql4) Influence the microcirculation In Vivo. PlOS One 6(11): 10.1371.

注:这幅图非常淸楚,不仅显示出了统计显著程度最高的SNP,还能看出所有SNP 统计显著程度的高低次序。所以,如果其中有假阳性的结果,那最可能是一个孤立的点,且远高于所有相邻点,这通常是偶然巧合或基因分型技术问题导致的错误结果。而真阳性是由SNP与各实际结果的独立相关性分析得出的,通常表现为落在同一区域的一选串点,好像在向顶峰攀登一样。在统计显著程度最高的SNP周围的 SNP也表现出了很高的统计学相关性,表明邻近的这个位点也跟实际结果有很大的相关性,这是由连锁不平衡现象(linkage disequilibrium)(第五章有更详细的解释)引起的,即同一条染色体的相邻两个SNP可以彼此替代。所以,越靠近统计显著性最高的点信号就越强,反之则越弱。这一点在图最右边的第19号染色体可以看得很淸楚,那里有多个统计显著性最强的SNP的墨点,颇有波洛克的神韵。

现特别突出的几个基因变异。你发现只有一个(更可能连一个都没有)错误结果,而不是5万个,这样你至少就有了两个得到同样结果的独立实验。到此为止,你的实验结果才有可能在不同时间地点都成立,而不是人为统计失误。即使这个SNP的效应在重复实验中表现出的量级由于“冠军魔咒”现象(winner’s curse)比第一次的分析结果小,甚至接近平均水平,这个发现依然是可接受的。

然而,伴随GWAS这个新方法出现的第一个令人失望的结果——候选基因研究的结果几乎都是不可重复的,或者说没有一个能达到GWAS的统计显著程度要求。这种现象的罪魁祸首主要是人群分化和出版偏倚问题。所以,我们必须重新进行反思,对行为遗传学我们到底了解多少。

GWAS时代给科研人员带来的第二个失望的结果是,有些基因变异经证明确实与我们感兴趣的表型存在稳定的相关性,但是作用很小,尤其是在涉及社会和行为方面。于是,之前动辄宣称某个基因有重大作用的候选基因研究就更不可信了。当研究者放眼所有达到GWAS统计显著程度(即偶然发生的概率低于百万分之一)的基因多态性,把它们的效应(即它们对于解释人群中各种现象所做的贡献程度)加起来后发现,这个值远远达不到之前估算的加性遗传力水平。例如,最初GWAS使用SNP得出的身高遗传力只有5%,由此产生了“遗传力缺失”问题。这个谜团引发了广泛关注,2008年还出现在《自然》杂志的封面上。

一种相对合理的解释是,GWAS使用的SNP芯片通常只是涵盖了大部分,而非全部遗传变异,这是出于经济性的考虑。还有另一种理论上的可能性,即消失的90%以上的遗传力都来源于芯片没检测到的位置。我们如果转而研究含有30多亿碱基对的全基因组,可能就会发现这些失踪的遗传力,一切问题都将迎刃而解。反对者则认为,要想解决这个问题,这些罕见的等位基因必须对我们感兴趣的实际后果产生极大的影响,这不仅是因为消失的遗传力比例太大,还因为任何一个等位基因对整体变化的贡献都取决于两个因素:①这一观察到的特定位点基因变化对实际后果的影响强度和普遍程度。②这些变化确实非常罕见。即使某位点上是碱基A还是碱基G不会带来多大变化,但两者在人群中的分布是五五开,那么与下面这种情况相比,它对整体差异的解释力可能要更强一些,即在另一个位点上,碱基为C而非G,虽然会对个体造成很大的影响,但是C出现的频率只有0.1%。

这种区别常常使人们在解释基因标记时感到困惑。就拿与乳腺癌有关的BRCA1基因突变来说,如果一个人携带了这个有害的等位基因,一生中罹患乳腺癌的风险将是非携带者的8倍。很显然,携带了这种基因的人应该对乳腺癌格外重视——如安吉丽娜·朱莉在尚未发病时就接受预防性乳腺切除术与卵巢切除术(oophorectomy)。然而,BRCA1基因的作用只占乳腺癌整体遗传力的很小一部分,并且乳腺癌还受到许多其他遗传方面的影响。APOE4等位基因与阿尔茨海默病的关系也是如此。另外,这些致病基因其实都不算特别罕见,只不过某些表型是高度多基因化的,即受很多基因的影响。事实表明,大部分表型都是多基因化的,亨廷顿病等单基因病反而是例外。所以,即使候选基因研究中完全没有假阳性的问题,这种方法也会像打字时看一次键盘敲一个字那样低效。要想用这个方法得出社会和行为现象的遗传力,我们恐怕得用几千年时间才能做出大量的研究。正如有名的“猴子和打字机”的故事所说:假如把1000只猴子关在一个有打字机的房间里100万年,它们最终也许能够打出莎士比亚的全部作品。然而对于文学创作来说,这确实不是最有效率的方法。

对于为何观察到的基因效应没有期望的大,还有一个可能的解释:我们所研究的基因效应都是“非加性”的。测得的遗传力一般被称为“加性”遗传力,因为研究者不会考虑等位基因的效应(即呈显性)可能是非线性的。已知会受到显性影响的身体性状包括棕色眼睛、深色头发、卷发、美人尖、酒窝、雀斑、有无耳垂、关节逆向弯曲等。以镰刀型贫血为例,当致病的突变基因单独存在时对身体是有好处的,因为它可以让人不易患疟疾。但如果一个人体内该基因成对存在,那就会有不良影响。引起镰状细胞性贫血的等位基因主要存在于疟疾多发地区,原因就在于该基因的杂合子(即该基因单独存在)具有预防疟疾的作用。这是显性,或者说非线性效应(尤指杂种优势)的一个例子,这类基因对健康的效应呈现出非线性的变化趋势,有一个等位基因会提高环境适应力,而有两个基因时适应力又会(急剧)下降。

但是,计算加性遗传概率时已经排除了单基因显性的影响,所以引起遗传力缺失问题的并不是单基因显性。然而,其他形式的非线性效应可能会影响我们对遗传力的估计。换句话说就是基因互作效应,也就是某个SNP的效应取决于另一个SNP。我们可以再拿多巴胺受体基因来举例子。如果你的DRD2基因存在问题,那么只要你的DRD4基因功能正常,DRD2基因的问题就不会产生任何实际后果。因为这两个基因可以互补,所以你只要有一个正常工作的多巴胺受体基因就可以了。只有当这两个多巴胺受体基因都有缺陷时,表型才会出现问题,这就是所谓的异位显性。

打开网易新闻 查看更多图片

哮喘就是一个现实例子。哮喘是一种主要由免疫反应导致的支气管炎症。免疫系统的信号分子——白介素(interleukin)起到了重要作用。当控制白介素表达的基因处于某种特定状态时,患支气管炎症的风险就会升高。不仅如此,一些研究者发现,如果一个人的白介素13基因(IL13)和IL4a的受体基因都处于某一特定状态,那么他罹患哮喘的风险会增加数倍。我们可以把基因放到一个社会关系网一样的网络中去考虑,这样就不难理解基因间的相互作用了。实际上,人类基因组中93%的基因之间都存在一定程度的关联性,而这还仅仅是2005年的数据,现在这个数字可能已经更高了,甚至目前发现的全部基因之间都有关联。这些关联形式多种多样,有些是各自表达产生的蛋白质之间能发生生化交互作用,有些存在共表达性,即一个基因在细胞内的表达加强后,另一个基因的活性会上升或下降。实际上,这意味着如果你对大网一角的某个基因做出微调,就可能对其他基因产生无法预料的影响。例如,如果一个基因发生了某种突变,表达不足,引起某种蛋白质缺乏,那么其他的基因就会进行代偿。这些间接效应都处于一个复杂的网络中,存在着无数代偿反应和基因互作。当然,这种网状通路还可能意味着,某个关键基因失活或者过度表达会产生毁灭性的影响,癌症就是典型例证。

从基因网络(而非单个基因)的角度来审视人体差异可能意味着,许多“消失”的遗传力就潜伏在这些相互作用中。回到两种多巴胺受体基因的例子,想象一下,在DRD2基因处于某状态时,它对智商的影响要取决于DRD4:如果DRD4为一种状态,则产生正面影响;否则为负面影响。在这种情况下,DRD2基因在GWAS中的净效应可能会被判定为零。然而,DRD2基因和DRD4基因的四种组合可能是智商遗传力的重要部分。这种能够预测表型的相互作用被大量发现,与科学家最初估计遗传力时所做的假设背道而驰,而且构成了遗传力缺失之谜的一种潜在解释,即遗传学家所谓的“幽灵遗传力”(phantom heritability)现象。

话虽如此,但正如我们有理由怀疑基因互作是遗传力缺失的罪魁祸首一样,相反的理由同样存在。如果基因间的相互作用影响如此之大,那么杂合了父母双方基因的兄弟姐妹可能就不会像他们实际上那样相似了。再考虑两个多巴胺受体基因的情况。兄弟姐妹之间有1/2的概率共享等位基因1,也有1/2的概率共享等位基因2,所以兄弟姐妹之间拥有完全相同基因的概率仅为1/4。以此类推,到了3基因或4基因的情况时,兄弟姐妹之间就会像陌生人一样没什么相似之处了。但这与我们实际观察到的现象不同。观察亲缘关系很近的个体之间的表型时,我们会发现,个体间的相似程度会随着亲缘关系接近而呈线性增长。从堂兄弟到表兄弟再到双生子,相似程度在不断增加。这就表明,我们正在寻找的能够与分子生物学研究相对应的“加性”遗传力确实反映出了可加性,而基因互作并没有发挥任何重要作用。

此外,已经有数学方法证明,在进化过程中,为何起作用的更可能是加性变异而非相互作用。我们可以想象一下,如果每个基因的效果都要取决于10个其他基因,进化该会是多么复杂而低效啊!这意味着,任何一点进步都需要许多基因同时改变才可以实现。想想多巴胺受体基因的那个例子,假设有一种能够带来优势的DRD2基因变体,但只有在DRD4为某种特定的等位基因时,优势才能体现出来,否则就会无效。于是,只有这两个基因都发生有利变异时,生物才会发生相应的进化。由于突变是随机发生的,上述情况的概率对于个体来说实在是微乎其微。

因此,基因互作不太可能是造成表型遗传差异的主要原因。如果任何基因的效应都高度取决于其他基因,那我们就像被基因连成的蜘蛛网困住了,动弹不得。要想实现进化,只能寄希望于1000只猴子都在同一时间敲下正确的按键;或者这1000只猴子中有1只天赋异禀、卓尔不群,在环境剧烈变化时存活下来,独自担起物种进化的大任;或者它能够通过新的方式利用环境资源,比如,创造石器,学会用火,最终甚至发明了互联网……总之,结论就是,也许一些基因互作对某些结果至关重要(而且在论证基因与环境的相互作用时,也必须排除基因互作),但它们不太可能是遗传力缺失的主要原因。

对遗传力缺失的另一个解释是:可能达尔文是错误的,而让-巴蒂斯特·拉马克(Jean-Baptiste Lamarck)才是对的。换言之,也许环境引起的改变其实是能遗传给后代的。拉马克曾经指出,长颈鹿之所以脖子长是因为经常使劲伸脖子,而且能一代代传下去,每一代都比前一代更长。拉马克因为这个假说受尽嘲笑。达尔文公开否定了获得性遗传的假设。他的主张是,基因的随机突变和生存竞争引起了表型的改变,使生物形态多样化,进而演变出了生态位(ecological niches)中各种各样的生命。然而,近年来随着表观遗传学(epigentics)的迅速发展,拉马克的获得性遗传理念正卷土重来。具体来说,我们除了有DNA密码之外,还有表观遗传的密码,这个密码使细胞能够根据不同的组织、不同的时间、不同的环境或刺激来决定是允许还是禁止一个基因的表达。一直以来,人们认为每一代人体内的表观基因组(epigenome)在下一代人身上都会清零,一切从头开始,这样单个细胞才能分裂、分化,成长为完整的人。然而,现在有些科学家认为,表观遗传标记(epigenetic manks)也许是可遗传的。果真如此的话,通常的分子层面检测方法(只关注碱基对,而不考虑表观遗传标记)可能会忽略这种重要的遗传形式,从而导致遗传力缺失。但是,我们现在几乎没有证据表明,人类真的能将环境导致的表观遗传标记遗传给下一代。即使果真如此,这种标记也不太可能在第二章提到的双生子模型中导致如此高的遗传力。我们在附录4中讨论了几个可能与遗传力缺失有关的最新表观遗传学进展,但我们最后得出的结论是——表观遗传学并不是遗传力缺失的原因。

打开网易新闻 查看更多图片