打开网易新闻 查看更多图片

就像“巧妇难为无米之炊”,没有数据的AI同样“养”不出大模型。

当时间回溯到2018年,当时OpenAI发布了GPT模型,这是一个拥有1750万参数的巨型模型。当时GPT模型还只是在AI领域中引起了轰动。而在2023年初,就逐渐呈现出了现在的故事版本——Chat GPT的火爆让“文本生成”“语言翻译”“语音识别”几乎成了街知巷闻的“科学素养”。而在另一端,“百模大战”硝烟起,大型模型的数量开始爆炸式增长,各个科技公司和研究机构都纷纷开发自己的大型模型,以求在AI市场中占据一席之地。

没有数据就没有AI。AI需要大量的数据作为“养料”来进行模型训练和深度学习,这些数据需要被存储在某个地方,以便随时可供使用。存储就像粮仓一样,储存着AI所需的“粮食”。

数据从未如此重要

如今,消费者和商业用户正在不知不觉中参与人工智能和机器学习。从消费者的角度来看,我们从流媒体上观看喜爱的节目,7*24小时与机器人客服反馈产品问题,随时查到下一趟公交车的到站时间;从商业的角度来看,无论大型公司还是小型团队,都可以利用人工智能和机器学习来获得更好的洞察,支持其业务目标的实现。

麦肯锡在名为《2025年的数据驱动企业》的报告中表示:“大多数员工将使用数据优化工作的几乎每一个方面,那些能够以最快的速度取得最大进展的人将从数据支持的功能中获得最高价值。“

数据中心作为数字经济背后的关键基础设施,在向消费者和企业提供新的人工智能工具方面发挥关键作用。这也就是为什么谷歌、微软、AWS等等各大科技巨头在新数据中心上花费数十亿美元的原因。

几乎所有的IT团队都在探索人工智能和机器学习如何为组织带来的机会,并支持其能够为未来的业务增长进行扩展。一个不容小觑的要素是支持这些新兴应用所需的数据存储基础设施。根据商业数据平台Statista的数据,从2010年到2022年,全球创建、捕获、复制和消费的数据量增加了60倍,并且这些增长呈现出逐年加快的态势。人工智能革命正在推动更多云数据存储的需求。

也从未如此带来挑战

新的存储需求飞速增长。《财富商业洞察》表示,全球数据存储市场预计将从2023年的2473.2亿美元增长到2030年的7779.8亿美元。越来越多的公司需要更多的数据,以及更多的存储位置。

不只是专注于人工智能的新兴公司,传统企业对数据存储的依赖也越来越高。最直接的挑战是,储存不足会使大型生产设施无法运转。丰田汽车公司在8月份就因为“磁盘空间不足”导致了系统停止运行,这波及了其在日本14家工厂的28条生产线。在丰田公司对外公布的说明中显示:“在发生故障前一天进行系统维护过程时,数据库中积累的数据被删除和整理,由于磁盘空间不足而发生错误,导致系统停止。由于这些服务器在同一系统上运行,备份功能也发生了类似的故障,并且无法进行切换。”故障发生第二天将数据传输到容量更大的服务器后,系统才恢复了,而工厂在故障发生第三天才恢复运行。

打开网易新闻 查看更多图片

1086.9亿美元的云存储市场、6798.0亿美元的数字广告市场、万亿美元的科技公司、大型全球制造商,硬盘正在人工智能、数字广告和云存储等领域发挥着越来越关键的作用。

云计算、内容创建和AI并不是抽象的概念或者仅仅是无形软件,现实世界中的的数据中心是人工智能的支柱。无论是AI模型的训练、推理还是部署,都需要数据作为支撑,数据的质量、数量和多样性直接影响了AI模型的效果和性能。数据的处理不仅需要大量的计算资源,更需要安全可靠的超大存储空间。数据存储的挑战比以往任何时候都要大,高密度、低功耗成为可靠性之外,数据存储领域最大的挑战。这也就不难理解,为何希捷计划在2024年底推出50TB的机械硬盘了。

未来十年HDD主导数据中心

粮仓是粮食存放和保管的重要场所,而数据存储系统也扮演着“粮仓”的角色——它要为数据提供安全、稳定的存放环境。

ResNet-50是一种深度神经网络模型,常用于图像识别和计算机视觉任务。该模型在大型图像数据库ImageNet上进行训练,要知道,ImageNet上包含了超过1400万张具有一百万个注释的图像。ResNet-50的训练过程需要大量的数据和计算资源,由于模型训练需要快速I/O和分布式集群计算,因此其存储系统的性能对模型训练的速度和质量有很大的影响。

从磁带存储系统到5.25英寸磁盘驱动器,再到HDD、SSD,存储介质的变化伴随着数据需求的变化起伏。如今,就数据存储形态和用图来看,磁带仍在被使用,但只用于留存数据;SSD价格多年来逐步下滑,性价比优势逐渐提升,但仍然很贵;构建和管理更具有成本效益的基础设施,对于数据中心来说比以往更重要,在数据中心创建的新数据仍需要更多的机械硬盘来存储。

如今,全球磁盘驱动器市场被希捷、西部数据和东芝占据,而作为出货量占据市场份额第一的希捷,其举动更是代表了这一行业的走向。从这几年希捷专注的HAMR(热辅助磁记录)和双磁臂技术来看,HAMR技术可以使用更小、更稳定的磁性颗粒,这些小颗粒可以更密集地排列,从而进一步提高盘片的面密度,进而提高磁盘的整体容量。HAMR硬盘推向市场,改变了磁盘容量增长的节奏,双磁臂技术(MACH.2)则可以有效提升高密度磁盘的性能表现。

就像汽车需要燃油或者电池一样,没有地方存储数据,人工智能什么都做不了。在华尔街分析师Robert Castellano看来,硬盘制造商是“人工智能存储需求增加的主要受益者,预计未来10年硬盘将主导数据中心。”而《福布斯》杂志在最近的一篇文章中预测,从2020年到2028年,硬盘容量出货量将增长900%。

人工智能不断发展,数据和存储的需求将会持续增长,对于未来的AI应用来说,如何更好地管理和利用这些数据将成为决定其成功的关键因素之一。数据的价值和存储系统的可靠性比以往任何时候都更加重要。