随着大模型技术的快速演进和广泛应用,其影响力已渗透到社会经济活动的各个角落,无论是行业专家还是普通公众,都频繁地将大模型作为讨论焦点。究其原因,在于大模型凭借其前所未有的规模和复杂的架构设计,具备了处理众多现实世界复杂问题的强大能力。尤其是在应对当前生活生产中遇到的多种挑战时,大模型展现出了广泛而深入的应用潜力,能有效应对大部分传统上依赖人力完成的任务。

大模型之所以备受瞩目,是因为它们拥有庞大的参数量,经过海量数据训练后,能够在诸多领域实现高度智能化的功能执行。举例来说,在创意内容生成领域,大模型如GPT系列已经能够胜任从一般性的文章撰写、新闻报道,到文案策划、剧本创作等各种文本输出工作。即使使用者并非该领域的专家或资深创作者,只需通过合理设置输入提示和有效地交互,就能获得堪比甚至超越专业人士水准的高质量产出。这一突破大大提升了工作效率,降低了专业技能门槛,使得非专业人士也能借助大模型工具产出颇具竞争力的内容产品。

打开网易新闻 查看更多图片

此外,大模型在诸如智能客服、决策支持、精准营销、科研创新以及智能制造等诸多行业中,也展示了显著的优势,它们不仅能处理文本信息,还能整合图像、语音等多种模态数据,实现跨领域的自动化和智能化解决方案。简而言之,大模型正在以前所未有的方式推动着生产力进步和社会变革,其在模拟、优化和创造方面的强大性能,使之成为当代及未来数字化转型中的关键技术支撑。

在语音技术领域,不论是语音识别技术的进步还是语音合成技术的发展,都已经取得了里程碑式的突破,实现了前人未曾预见的高度真实性和准确性。如今,即使是针对个人独特语音特征的捕捉与重现,现代技术也展现出令人惊叹的能力。例如,仅凭短短十几秒的语音样本,先进的系统就能深度解析并精准捕捉说话人的音色特点,包括语调、节奏、韵律乃至情感色彩在内的细微差异均能被一一记录和理解。

打开网易新闻 查看更多图片

进一步来说,在声音模仿与重建方面,人工智能技术已然跨越了一道重要关卡,它能够基于这些细致入微的特征数据,近乎完美地复刻出原始说话人的声音特质,从而创造出难以分辨真伪的仿声效果。这种逼真度极高的语音合成不仅局限于单个词汇或者短句,更能在长篇幅的对话和表达中保持一致性和连贯性,使得无论是在智能助手个性化定制、影视制作配音、电话机器人交互等应用场景中,都能带给用户仿佛真人交谈般的自然体验。

当今的语音技术在识别和合成上所取得的卓越成就,不仅彰显了科技的力量,更为日常生活和各行各业带来了前所未有的便利与革新,正逐步塑造着一个充满无限可能的语音智能时代。

在图像创作和视频内容生成的前沿领域,大模型展现出了超乎想象的创新力量,其视觉艺术表现力令世人惊叹不已。尤其在照片生成方面,新一代生成式大模型通过深度学习和复杂算法的深度融合,已经能够在像素级精确度上创造出高度逼真且极具细节的照片,以至于时常让人难以区分真假,甚至可以轻松虚构出地球上原本不存在的人物肖像、场景以及其他各类实体事物,赋予虚拟与现实之间界限前所未有的模糊性。

打开网易新闻 查看更多图片

而在视频创作维度,以"Sora"为代表的先进模型则正在引领一场革命性的变革,它们凭借对现实世界海量数据的学习和深刻理解,模拟并再现真实世界中的物理法则与运动规律,可以说成为了数字世界的物理引擎或模拟器。这些模型不仅能够捕捉动态影像的微妙变化,还能在虚拟空间里重新构造和演绎真实的物理现象,从而开启全新的创作途径和视觉叙事方式。

展望未来,随着这类大模型技术的持续发展和应用深化,我们对物理世界的认知模式很可能会发生根本性的转变。传统的数学计算和公式推演也许会与新兴的数字化模拟手段并驾齐驱,形成互补,催生出一种全新的、非传统计算形式的物理理解途径。届时,借助大模型的力量,我们或将能以前所未有的直观和互动方式去探索、设计和重塑周围的世界。

打开网易新闻 查看更多图片

当前,大模型已经在众多领域内彰显出强大的通用性和解决问题的能力,无论是自然语言处理、计算机视觉还是其他复杂的任务挑战,大模型都以其卓越的表现赢得了广泛的认可。然而,尽管大模型在功能性和智能层面实现了显著突破,却无法绕过一个核心的制约因素,即对庞大算力资源的高度依赖。

大模型之所以被称为“大”,关键在于其内部参数规模的巨大,数以亿计甚至万亿计的参数量使其能够捕获更深层次的数据特征和模式,但也正是这种庞大的参数规模直接导致了对计算力需求的指数级增长。某种程度上,这可以被视作大模型内在的一种“矛盾”或“宿命”,即虽然在能力边界上不断拓宽至极限,但在运行效率和能耗表现上却面临严峻挑战。

针对这一瓶颈,业界及研究者提出了一系列优化方案,如参数压缩、量化以及剪枝等技术,旨在降低大模型的实际运算负担。然而,这样的策略也带来了一个悖论:若大幅度削减大模型的参数量以适应有限的计算资源,那么理论上讲,其原有的规模优势和丰富的表达能力将会削弱,从严格定义上可能就不再符合“大模型”的标准。因此,如何在保持大模型强大功能的同时,有效平衡算力需求与效率之间的关系,成为了该领域未来发展的重要课题。

打开网易新闻 查看更多图片

当我们谈论模型的大小时,实际上是指模型的复杂程度和技术规格的不同。所谓“大模型”,指的是那些具有极其庞大的参数数量、深层次的神经网络结构以及高维特征空间的模型。这些模型通常包含了数百亿甚至上千亿的参数,这使得它们在训练和部署过程中所需消耗的资源相当可观,主要体现在以下几个方面:

1. 算力成本:大模型的训练过程需要强大的计算设备支持,如大规模GPU集群或专用AI芯片,这使得硬件投资和运行维护成本显著增加。

2. 数据需求:大模型的训练往往依赖于海量的数据集,以便充分发掘潜在的模式和规律,这就要求高昂的数据收集、清洗和标注成本。

3. 模型复杂性:大模型的设计和构建过程更为复杂,涉及到更多层次的神经网络结构以及优化算法,增加了研发的技术难度和人力资源投入。

4. 协同开发:由于大模型项目的巨大规模和综合性,单打独斗几乎是不可能的,必须依靠多学科交叉、大规模团队协作才能顺利完成模型的研发、训练和优化。

相反,“小模型”则相对轻量级,参数数量较少,结构简单,易于部署和实时运算,更适合资源受限的环境和场景。尽管它们在某些特定任务上的表现可能不及大模型,但由于其高效、便捷的特点,在实际应用中同样不可或缺。

打开网易新闻 查看更多图片

综上所述,在大模型持续引领人工智能浪潮的同时,小模型也在顺应市场需求和技术创新的步伐,不断提升自身的性能和适用范围。这两种模型形态各有优劣,互为补充,在不同的应用场景下发挥着不可替代的作用。因此,在关注大模型发展的同时,也不能忽视小模型技术的迭代升级及其在普惠型AI和边缘计算等领域的重要价值。

大模型与小模型的概念在人工智能领域具有明确的含义,特别是在深度学习和机器学习的相关研究与应用中。关于它们的具体划分,并没有全球公认的固定阈值,而是根据模型的参数数量、计算需求以及其所带来的实际效能来综合评判。

大模型,通常指的是那些参数数量极为庞大的模型体系,业界普遍倾向于认为,当模型的参数量达到百亿级别及以上时,可以被归类为大模型范畴。此类模型的典型代表如OpenAI的GPT系列、Google的Gemini系列等,它们的庞大规模意味着模型能够捕获数据中更丰富、更复杂的模式,从而在自然语言处理、计算机视觉等复杂任务上展示出卓越的表现。但是,大模型训练成本高、计算资源需求大,往往需要高性能的GPU集群和大量的电力供应,同时对算法优化的要求也极高。

打开网易新闻 查看更多图片

相反,小模型则指的是参数数量较为有限的模型结构,一般参数量介于几百万元素至几千万元素、乃至上亿元素之间。这类模型因其简洁高效的特性,在计算资源有限的环境中更受欢迎,例如移动设备、物联网设备上的嵌入式应用等。小模型虽然在绝对性能上可能不如大模型出色,但在满足特定任务需求的前提下,能够实现较快的响应速度、较低的能耗以及更方便的部署。

因此模型大小的界定并非绝对,而是根据应用场景、资源条件和目标性能等多重因素动态考量。参数量作为一个关键指标,反映出模型的复杂性和潜在的表征能力,但同时也与模型结构、训练方法和实际应用紧密相关。随着技术的不断进步和发展,模型的大小及其定义也将随之演进。

正常情况下来说,模型的性能优劣并不能仅仅依据其规模大小来断定。模型的性能表现是一个多元化的考量结果,除了参数量这一核心要素外,还包括但不限于模型结构的设计精巧度、训练方法的科学有效性以及用于训练的数据质量等多个维度。换言之,模型参数的数量固然在一定程度上体现了模型的复杂性和容量,但它并不能完整刻画模型的真实效能。

打开网易新闻 查看更多图片

例如,一个参数量较小的模型,如果其结构设计巧妙,采用恰当的正则化、优化算法或其他高效技术手段进行训练,同时辅以高质量、代表性强且足够丰富的数据集,那么即便在参数规模上逊于大模型,仍然有可能在特定任务上展现出不亚于甚至超越大模型的性能水平。这样的模型在保证精度的同时,往往还具有训练速度快、资源占用少、易于部署等优势,更加适应于计算资源有限或实时性要求高的应用场景。

因此,模型的性能提升是一项系统工程,不仅涉及模型大小的选择,更考验研究人员对模型架构的理解、对训练方法的创新运用以及对数据挖掘和预处理的专业素养。只有全面考虑这些因素并加以优化,才能确保模型在不同场景下都能发挥出最佳效果。

按照当前行业内的发展趋势和技术标准,我们可以相对笼统地界定所谓大模型中的“小模型”范畴。通常情况下,若一款模型的参数数量位于20亿级别以下,它可能会被归类为相对较小的大模型,尤其是在考虑到运算可行性的情况下。这是因为,这一规模的模型已经能够在个人用户的单块图形处理器(GPU)环境下有效运行,无需依赖大规模集群或数据中心级别的服务器算力资源。

打开网易新闻 查看更多图片

这种划分的意义在于,参数量在20亿以下的模型不仅标志着在技术层面上实现了在有限硬件资源上的高效利用,而且也在一定程度上降低了普通开发者和小型团队获取并实践先进AI技术的门槛。这类模型凭借其在性能与资源需求之间的良好平衡,有助于推动AI技术在更广泛的应用场景中落地,促进技术创新及普及。当然,具体的模型大小划分阈值并非固定不变,而是随着技术进步和硬件发展而动态调整的。

在训练深度学习模型的过程中,尤其是当模型参数规模上升至约20亿这个量级时,面临的挑战不仅仅来自于参数本身的数量庞大,还有许多其他的决定性因素。首先,优化算法的选择及其参数配置对模型能否成功训练至关重要,有效的优化算法能够加速收敛并防止过拟合,同时还需要精细调整学习率、动量等关键参数以确保模型训练过程的稳健性和效率。

其次,训练流程的设计和实施细节也同样影响重大,其中包括但不限于批量大小的选择、数据增强策略、正则化方法以及早停机制等。为了充分利用有限的硬件资源并保证训练质量,研究人员需要精心安排训练循环中的各个环节,力求在资源约束条件下最大化模型性能。

打开网易新闻 查看更多图片

一般深度学习模型的参数通常是采用float32浮点精度格式存储,这意味着每一个参数对应占用4个字节的内存空间。据此,我们可以做出简单的定量分析:每一亿参数大约会消耗4GB的GPU显存容量。如此看来,一个规模高达20亿参数的模型理论上至少需要8GB的显存才能够存储其全部参数数据。

然而,这只是参数存储的基本需求,实际训练过程中还要考虑到激活函数的中间结果、梯度信息的存储、以及可能存在的模型并行、数据并行所需的额外显存开销,所以实际运行这样规模模型所需要的显存资源往往会远高于理论上的最低需求。此外,考虑到现代深度学习框架和平台的内存管理策略以及计算效率优化措施,实际部署和训练大型模型时还需要更多的系统优化和资源配置规划。

模型参数的存储仅仅是显存占用的一个组成部分,在实际应用环节,特别是进入模型推理阶段时,显存的压力来源更加多样化。例如,像Beam Search这样的搜索算法在执行过程中会产生大量的临时变量和中间结果,这些都需要占用额外的显存空间,其消耗量不容小觑。因此,在进行模型推理的实际操作中,为了确保系统的稳定运行,避免因内存溢出(Out of Memory, OOM)问题造成程序意外崩溃,系统运维人员和开发者需要预先设定充足的显存缓冲区,以满足算法运行期间的所有显存需求。

打开网易新闻 查看更多图片

另一方面,在模型训练过程中,显存的需求还会进一步放大。除了存储模型参数以外,还需考虑优化器在迭代更新过程中保存的状态信息,以及计算反向传播时积累的梯度信息所占用的显存资源。这部分开销往往是隐性的,但却占据了显存使用的相当比重,有时甚至能使总体显存需求膨胀至原始参数占用量的3至4倍左右。因此,在设计和配置深度学习训练环境时,应充分评估和预留这部分显存预算,以保障训练进程的顺利进行和高效运行。

以目前主流的个人电脑显卡配置来说,对于配备了英伟达RTX 40系列显卡的系统,其是否能够有效地驾驭具有20亿参数级别的深度学习模型训练与运行任务,关键取决于所选显卡的具体型号规格以及相关的硬件配置。拿RTX 4060 Ti显卡为例,该系列推出了8GB和16GB不同显存容量的版本,对于参数量较大的模型,特别是20亿参数等级的模型,16GB显存版本无疑提供了更为宽裕的工作空间,这对于入门级和中级人工智能项目,如涉及大规模模型训练、复杂图像渲染或是高性能计算密集型应用,都能够提供必要的显存支持。

打开网易新闻 查看更多图片

进一步而言,如果用户选择的是RTX 4070 Ti Super或者是英伟达RTX 40系列中的更高级别显卡,鉴于它们通常配备了更高的显存容量以及更强的计算性能,很大程度上能够从容应对20亿参数级别模型所带来的显存压力和计算需求。然而,实际表现还需结合模型训练时的batch size、数据类型、优化器选择等因素,以及显卡本身的CUDA核心数量、Tensor Core性能、带宽效率等多种硬件特性共同评估。

整体而言,要准确评估在特定硬件环境下是否能够成功且高效地应对20亿参数级别的深度学习模型训练与运行,首要步骤是清晰识别自身业务需求,明确是要集中精力进行模型训练,还是侧重于模型推理应用,抑或是两者兼具。接下来,详尽审查现有硬件设施的核心组成部分,尤其是显卡的显存容量和理论峰值计算性能,这两者对于承载大模型运行起着决定性作用。

面对硬件资源可能存在的限制,采取相应的优化策略和技巧显得尤为关键。一方面,可以通过模型压缩技术来精简模型规模,如权重量化、知识蒸馏等方法,使模型在保持较高预测性能的同时,有效减少参数数量和显存占用。另一方面,引入混合精度计算策略,如使用FP16、BFLOAT16等低精度数据类型,可以在不影响模型准确度的前提下,大幅削减显存需求并提升计算效率。

打开网易新闻 查看更多图片

在硬件资源有限的前提下,要想在确保大模型运算任务得以平稳、高效地进行,就需要审时度势地结合业务需求、优化硬件配置,并积极采用先进的模型优化技术,这样才能在实践中最大程度地挖掘硬件潜能,克服资源瓶颈,达成预期的深度学习目标。

在后续的探讨中,我们将简要呈现一系列参数量小于20亿(这里的2b指代20亿,因为在IT领域中常以b表示十亿)的“小”模型阵容,并将这些模型与其在性能上可匹敌的较大参数量模型进行比较。这些轻量级模型在保持一定性能基准的同时,极大地减少了对硬件资源的需求,尤其适合在个人电脑等相对有限的计算环境中运行。

我们的目标是帮助您在浩如烟海的模型选项中,寻找到一款既能在您的个人电脑上顺畅运行,又能在性能表现上接近甚至媲美那些参数量庞大的大模型的理想之作。通过对比分析,您可以更好地了解不同模型间的性能与资源占用之间的权衡,并依据自身设备配置和实际需求,挑选出最适合自己的“大模型中的小模型”。

打开网易新闻 查看更多图片

1、Phi-1.5b

Phi系列语言模型是由微软推出的小语言模型,该系列语言模型的目标是证明通过构造高质量的预训练数据,小模型能够在较低的训练成本下,达到显著优于更大规格模型的性能。Phi系列语言模型包括Phi-1, Phi-1.5,和Phi-2三个版本。

Phi系列语言模型的一个重要特点是,它们的参数数量相对较少,但在特定任务上的性能却可以与参数数量更多的大模型相媲美。例如,Phi-1模型只有1.3亿参数,但在Python编程任务上的性能却可以与当时一些大型模型相媲美。Phi-1.5模型也只有1.3亿参数,但在自然语言任务上的表现与大五倍的模型相当。

Phi-1.0专注于解决代码问题,它的训练数据都来自编程教科书。尽管参数量只有1.3B,Phi-1.0却远远超过了15.5B的StarCoder和16.1B的CodeGen。Phi-1.5则在保留1.0的基础上,加入了一般场景对话功能,使其更加多才多艺。Phi-2模型有2.7亿参数,但在复杂任务上的表现甚至可以与比其大25倍的模型相媲美。

2、OPT125m、OPT350m、OPT1.3b

OPT系列模型是由Meta AI发布的一套开源的大语言预训练模型,OPT全称Open Pre-trained Transformer Language Models,即“开放的预训练Transformer语言模型”。该系列模型是一套基于Transformer Decoder的大语言模型,对GPT-3最大的175B的模型做了一个复刻版。OPT模型力求匹配GPT-3类模型的性能和大小,同时也在数据收集和高效训练中应用上一些最新的方法和实践。

OPT系列模型包括了OPT125m、OPT350m、OPT1.3b、OPT2.7b、OPT6.7b、OPT13b、OPT30b、OPT175b等模型,OPT系列模型的大小从125M到175B参数,达到了GPT-3量级。OPT-175B的性能做到了和GPT-3相当,但是只需要1/7的碳足迹。这意味着OPT-175B在训练过程中的计算量只有GPT-3的1/7。

3、Pythia-1.0B、Pythia-1.4B

Pythia系列模型最初由Facebook发布,后来EleutherAI和耶鲁大学等也对其进行了开发。Pythia-1.4B&1B是EleutherAI开源的Pythia的1.4B和1B版本。主要使用300B Token的The Pile数据集进行训练。Pythia-1.4B模型层数24层,隐藏层维度2048。Pythia-1B模型层数16层,隐藏层维度2048。

Pythia模型支持视觉和语言领域的多任务处理,例如回答与视觉数据相关的问题和自动生成图像注释。它被设计为一个科学套件,旨在探索大型语言模型的能力和限制。

4、TinyLlama-1.1B

TinyLlama系列模型由新加坡科技设计大学(SUTD)的研究团队开发。TinyLlama系列模型是一个开源的小型语言模型,它的紧凑性使其能够适应许多需要限制计算和内存占用的应用。例如,它可以帮助对大型模型进行speculative decoding,可以在边缘设备上运行,比如离线的实时机器翻译(TinyLlama的4比特量化版本的模型权重只需要550MB的内存),还可以在游戏中实现实时对话生成。

TinyLlama系列模型的其中一个版本是TinyLlama-1.1B,这个版本的模型在3万亿tokens上进行预训练,最终构建了一个拥有11亿参数的,基于Llama架构的语言模型。TinyLlama-1.1B模型对于300B token仅需要3,456 A100 GPU小时,而Pythia为4,830小时。这显示了该研究优化的有效性以及在大规模模型训练中节省大量时间和资源的潜力。

与同等能力大模型的参数大小比较:尽管TinyLlama系列模型的规模相对较小,但它在一系列下游任务中表现相当出色,其性能显著优于同等大小的现有开源语言模型,包括Pythia-1.4B、OPT-1.3B和MPT-1.3B。

5、LiteLlama-460M

LiteLlama系列模型由德克萨斯工农大学的Xiaotian Han发布,LiteLlama系列模型在边缘设备上有着广泛的应用,如智能手机、物联网设备和嵌入式系统,这些边缘设备通常具有有限的计算能力和存储空间,它们无法有效地运行大型语言模型。因此,深入探究小型模型显得尤为重要。

LiteLlama系列模型主要有LiteLlama-460M。LiteLlama是对 Meta AI 的 LLaMa 2 的开源复刻版本,但模型规模显著缩小。它有 460M 参数,有 1T token。LiteLlama-460M-1T 在RedPajama数据集上进行训练,并使用 GPT2Tokenizer 对文本进行 token 化。作者在 MMLU 任务上对该模型进行评估,与同等能力大模型的参数大小相比,结果证明在参数量大幅减少的情况下,LiteLlama-460M-1T仍能取得与其他模型相媲美或更好的成绩。

6、Yuan2.0-2B

Yuan系列模型是由浪潮信息发布的一款人工智能大模型,Yuan系列模型是一种中英双语的AI大模型,使用新型的LFA模型结构。它在语义、数学、推理、代码、知识等不同方面具备更强的理解能力。大模型的作用机理可能和统计机器学习有本质的不同。大模型更像是学习到一个通用的蕴含样本内在信息的表示,使其能够在各种甚至未见过的任务上表现较好。

Yuan系列模型包括源2.0-102B,源2.0-51B和源2.0-2B三个版本,对应的参数规模分别为1026亿、518亿、21亿。在GSM8K的评估结果中,1026亿和518亿参数的Yuan2.0,准确率都超过了76%。与此同时,21亿参数的源2.0在准确率上也超过了规模大几十倍的Llama,达到了66.6%。

7、Qwen-0.5B、Qwen-1.5B、Qwen-1.8B

Qwen系列模型是由阿里云发布的大型语言模型,Qwen模型针对多达3万亿个token的多语言数据进行了稳定的预训练,覆盖领域、语言等,能够实现有竞争力的基准数据集上的性能。Qwen不仅仅是一个语言模型,而是一个致力于实现通用人工智能(AGI)的项目,目前包含大型语言模型(LLM)和大型多模态模型(LMM)。

Qwen系列模型包括基础语言模型Qwen-1.8B、Qwen-7B、Qwen-14B和Qwen-72B,以及相应的聊天模型Qwen-1.8B-Chat、Qwen-7B-Chat、Qwen-14B-Chat和Qwen-72B-Chat。此外,阿里巴巴还发布了第二代的Qwen系列大语言模型,包含6个不同参数规模的版本,分别是5亿、18亿、40亿、70亿、140亿和720亿。

Qwen1.5系列大模型相比较第一代有非常明显的进步,其中720亿参数规模版本的Qwen1.5-72B在各项评测结果中都非常接近GPT-4的模型,在MT-Bench的得分中甚至超过了此前最为神秘但最接近GPT-4水平的Mistral-Medium模型。

8、Bloom-1.1B、Bloom-1.7B

Bloom模型是由BigScience社区开发和发布的,这个社区是一个由Hugging Face、GENCI和IDRIS发起的开放式协作组织。训练Bloom的计算力是由来自于法国公共拨款的GENCI和IDRIS,利用了IDRIS的Jean Zay超级计算机。

Bloom模型的参数规模分为:560M,1.1B,1.7B,3B 和7.1B为1760亿,1760亿模型的规模与GPT-3的规模相当。此外,Bloom模型还提供了几个较小的模型,其模型参数规模为:560M,1.1B,1.7B,3B 和7.1B。

其中Bloom1.1b和Bloom1.7b模型是适合在个人电脑上运行的小模型,与同等能力的大模型相比,Bloom1.1b和Bloom1.7b模型的参数量相对较小。Bloom176B的模型参数量远大于Bloom1.1b和Bloom1.7b,但Bloom1.1b和Bloom1.7b仍然能够提供与更大模型相当的性能。

9、Deepseek-Coder-1.3B

DeepSeek-Coder是由深度求索(DeepSeek)发布的开源代码大模型。DeepSeek-Coder是一款智能代码助手,它可以帮助用户快速编写程序、修改用户界面(UI)、测试程序错误(bug)以及进行数据分析,学写SQL等。用户可以通过与DeepSeek-Coder进行对话,轻松创建小型游戏或进行数据分析,并且在多轮对话中满足用户的需求。

DeepSeek-Coder目前已经开源了包含Base模型和指令调优模型的全系列模型,包括1B、7B和33B参数的版本。

DeepSeek-Coder-1.3B模型是在包含87%的代码和13%的中英文自然语言的1TB Token的数据上进行预训练的。模型的层数为24层,隐藏层维度为2048。DeepSeek-Coder-1.3B在公开数据集榜单的表现上也可圈可点,在1.3B上更是超过当前2.7B尺寸模型(MobileVLM V2)。尽管DeepSeek-Coder的参数规模较小,但其性能与参数规模更大的模型相当,这表明DeepSeek-Coder-1.3B的性能与参数规模更大的模型相当。DeepSeek-Coder的70亿参数版本在代码能力上达到了CodeLlama的340亿参数水平。

10、Stability AI:Stable LM 2 - 1.6B、StableLM 2 Zephyr-1.6B

Stable LM 2系列模型是由Stability AI发布的一种文本内容生成的大语言模型。这些模型在各种自然语言任务中表现出色,是开发人员的重要工具。它们可以处理多种语言,包括英语、西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语。

Stable LM 2系列模型有多个版本,包括Stable LM 2 - 1.6B和StableLM 2 Zephyr-1.6B。这些模型都是在2024年发布的。其中Stable LM 2 - 1.6B是一个16亿参数规模的大语言模型。相比较常规的大语言模型,这个模型参数仅16亿,可以在移动端运行。但是它的性能效果与几个月前70亿参数规模差不多。在不超过30亿参数规模的大语言模型上,StableLM2-1.6B几乎与Phi-1.5差不多。

除去上述所提及的大模型家族中的小模型典范之外,市面上尚存在众多其它同类小模型实例,鉴于篇幅限制,此处不再赘述。值得注意的是,大模型的小型化趋势,不仅是对计算资源需求与现实条件间的一种务实平衡策略,更是未来人工智能模型发展路径中不可忽视的关键方向之一。

随着科技的日新月异,尤其在移动终端领域,为了迎合用户对于设备便携性的追求,智能设备的体积愈发紧凑,由此对芯片制造工艺提出了严苛的精细化要求。当前,移动设备制造商们在竭力将便携式装置的尺寸压缩至极限的同时,亦不断寻求在微型芯片上实现更高的集成度和性能优化。

打开网易新闻 查看更多图片

然而,当移动设备在体积和芯片设计方面达到极致精简后,单纯依靠缩小物理尺寸的方式进一步提升设备内置算力显然遭遇了瓶颈。在此情境下,唯有探寻新型的计算技术和模型优化方案,实现大模型的小型化与高效化,才能在不牺牲设备便携性的同时,赋予其更为强劲的计算能力和广阔的应用前景。这种转变,不仅是技术革新的必然诉求,更是对未来智能生态格局的前瞻布局。

在当下芯片设计的微缩化趋势和移动设备的小型化需求越发明显的情况下,若要在无法继续增大芯片尺寸或改进芯片利用率的条件下,仍期望设备能够提供足以运行特定效果模型所需的更高算力,那么一条可行且关键的路径便是寻求在保持模型原有性能水平的同时,对其参数进行有效的压缩和优化。

打开网易新闻 查看更多图片

针对模型压缩技术,目前业内已经拥有了多种成熟的方法,包括但不限于传统的模型剪枝,通过移除模型中贡献较小的权重和结构来精简模型;参数量化技术,通过降低参数的数值精度,减少存储和计算所需的空间;以及知识蒸馏技术,利用大模型的知识转移来训练一个结构简化但性能相近的小模型。

除此之外,另一项颇具前瞻性和针对性的策略则是从基础层面上重新构思和设计更为紧凑、高效的模型架构,这类模型从诞生之初就瞄准了轻量化和小型化的需求,旨在实现与大模型相当的效果,同时又能适应更小尺寸、更低功耗的硬件设备,从而在资源受限的环境中实现高性能的模型应用。