文︱关品方
自然科学学生们大概都知道,生物科技是21世纪新时代的前沿科学,生物科技里面的生物信息学是专科之一。最近生物信息方面的突破引起注意。利用DNA新技术,有希望带来数据存储革命,比较现有的存储方法快一万倍。
生物信息学(bioinformatics)是研究生物信息的采集、处理、传播、分析和解释等各方面的学科;现时是内地高考生选科的热门之一。随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学两者的跨学科结合,现在已经形成一门新的科目。通过综合利用生物学、计算机科学和讯息技术,揭示出大量复杂的生物数据赋有的生命信息的奥秘。从传统的生物化学科(biochemistry)发展到生物信息科,有三个阶段性的突破。
上世纪90年代前,是前基因组时代,重点在研究和建立各种基因序列、比较算法、生物数据库、检索工具的开发以及DNA和蛋白质序列的分析。第二阶段是基因组时代,到21世纪初,主要是大规模的基因组测试。近年的重大突破是第三阶段,进一步开发DNA技术,尝试实现数据储存方面的突破。
笔者留意到上月22日在全世界知名的《自然》刊物上发表了一篇论文,北京大学定量生物学中心的研究员钱珑是作者之一。论文公布已开发出一种利用DNA遗传密码存储数据的新技术,可以推动以较低成本和可持续的方法存储不断增加中的数字信息,提供有力的解决方案。论文认为DNA能够帮助数据经济的发展,因为DNA是稳定的构成,一克(gram)DNA就能够储存大约1000万小时的高清视频。
这方面的研究,目前中国、美国和德国正在分别进行中。原理是利用一种简单的化学反应,模拟传统计算机的二进制系统,让信息能够以高精确度快速地打印在DNA上。现时的互联网数据中心(IDC)耗电量大,对室温有严格要求。俗语所谓挖矿其实是挖掘数据加以分析,主机之外又要备份,不可一刻中断,安全和效率是数据存储最大的挑战。
现时的数据存储技术无法存储和保存每天收集和产生的天量数据。理论上,在DNA保存数据的成本,比使用和维护硬盘要低很多。此前通过合成遗传密码来保存信息的努力,费时费钱易出错;科学家现时利用DNA新技术进行数据储存,理论上十分简单。利用一种被称为甲基化(methylation)的自然化学过程修改DNA中的碱基(碱性基因),这种碱基要么是甲基化的,要么是未甲基化的。
因此可以用于编码信息的两种可能状态,就像是计算机使用二进制,0和1一样,基本上就是两个数码。简单地说,就像是正负二极的两种状态。所谓半导体,就是驱动电子(以至粒子和光子)朝向单一特定方向前进。充分利用这种“半导”的单向性,为传导和储存信息提供有效的方法。甲基化的一个潜在优势是,相对于传统的DNA数据储存方法来说,这种新方法较为简单。传统的方法会不断积累越来越多的新遗传密码,可谓弄巧成拙,自我挫败;新遗传密码越来越多,直至难以为继,因为难以为计。这是笔者的浅白理解。
钱珑说得好。他认为传统的DNA数据储存技术就像是文字出现之前人类结绳记事,新的DNA储存技术就像是发明了活字印刷。新的编码策略可能比现在的方法快一万倍,而且成本极低。在人工智能一日千里的推动下,现在每年产生的数据量已经以泽字节(ZB)计,一个泽字节相当于一万亿吉字节(GB)。大量的数据储存容量压力导致全球各IDC对电力的巨大需求。
笔者留意到报章有报导:现时亚马逊、谷歌和微软以及马斯克下属一些公司正试图达成核电供应协议,以满足他们对数据储存的需求。从云储存到雾储存(类似数据的低空经济)以及云边际(或云边端)技术开发,对电力的需求庞大,因此新能源才这么重要。最终以风力、水力、光能和核能发电,逐步替代碳能(石油、天然气和煤炭,即火力发电)的趋势已不可逆转。这是另一话题,不在这里扯远。
现时欧洲生物讯息学研究所和华盛顿大学,还有前面提及的北京大学定量生物学中心,分别进行的DNA数据储存新技术仍然有极大的瓶颈,是否真正能够广泛利用,尚在未知之数。主要是化学改性后的碱基能否保持长期稳定性,能否大量复制,以及在特定情况下怎样读取(还原)所需数据的复杂过程。基础和理论研究之后,是应用和转化研究,以及技术开发和商业化的阶段。如果这种新技术系统的整体成本超过传统的DNA数据储存系统的成本,那就会限制其实际应用。关键是要让新方法更简单、更快捷、更便宜,才有扩展性和实用性,最终适用于一系列有关大数据处理的解决方案,找到数字经济的突破点。
现在看来,美国在中美之间科技战的目光已经转到DNA生命信息学。美国在DNA数据储存革命方面一定会严格进行打压,就像在喷气发动机开发方面长期对中国封锁核心技术一样。中国商飞在这方面还有一条漫长路要走。核心技术最终还是要通过自主创新进行突破,才能够站在科技的前沿。所谓科技无国界,就如同所谓资本无国界一样,只是一句空话。科学技术才是最关键、最激烈的涉及国家安全和民族存亡的临界线。对此无别话可说。