亲爱的数据

香港浸会大学公司治理硕士

大语言模型有可能彻底改变安全蓝队的工作方式，可以使安全蓝队更高效、更有效，并最终帮助组织更好地抵御网络攻击。比如， LLM 可以用于扫描所有现存的开源代码以查找安全漏洞。这将是一项不可能由人工完成的任务，但它可以帮助安全蓝队更有效地识别和修复潜在的安全风险。
第一，安全蓝队将能够将更多的时间和精力集中在更复杂和战略性的任务上，例如威胁情报和风险管理。第二，安全蓝队将能够更快地识别风险模式，以及响应安全威胁，从而降低组织遭受攻击的风险。

亲爱的数据

香港浸会大学公司治理硕士

通义听悟已全面升级为通义效率

亲爱的数据

香港浸会大学公司治理硕士

Snowflake 人工智能团队正逐步发布北极模型的食谱（Arctic Cookbooks）：这很重要，为什么呢？
他们不仅讨论了的模型，还提供了宝贵的见解和教程，具有很强的实用指导意义。他们最近发布了有关数据来源和数据组合在加工的信息。文章涵盖了北极模型使用多种数据源的情况，包括高精度和高召回的网络抓取数据（C4、Refined Web、带注释的 Common Crawl）以及企业级数据集（来自 StarCoder、GitHub 和 PyPi 的代码数据；来自网络资源的 SQL 和数学相关内容）。

亲爱的数据

香港浸会大学公司治理硕士

清华大学成立人工智能学院姚期智任院长。

亲爱的数据

香港浸会大学公司治理硕士

清华大学+生数科技：Vidu：中国首个原创全自研，长时长、高一致性、高动态性的视频大模型。

亲爱的数据

香港浸会大学公司治理硕士

2024年4月22日，苹果团队发布了OpenELM，包含了2.7亿、4.5亿、11亿和30亿四个参数版本。值得一提，模型用「分层缩放」策略分配Transformer模型每一层参数。

亲爱的数据

香港浸会大学公司治理硕士

美国那帮人把好几万GPU互联，
形成非常大的集群，或者再拿超级节点来组集群。这些可能是单节点计算能力不够的时下，最好的解决方案了。没有什么更神奇的了。换句话说，难题摆在这里，没有神药。那时下美国头部厂商的GPU集群有多大呢？确切数字在文章开头表格里。答案是：好几万卡。

亲爱的数据

香港浸会大学公司治理硕士

英伟达B200是把两个芯片拼在一起，
这两个芯片都是GPU。 GB200是三个芯片并在一起。之所以用“拼”和“并”两个不同的词，是因为技术上有差别，封装工艺不同。这三个芯片分别是，两个GPU，一个CPU； CPU是英伟达自产的，名叫Grace。这个G，就是GB200的第一个字母。 GB200是典型的，根据“往上堆”的思路设计的产品。 GB200 NVL72更是这个思路，把72颗B200芯片全部连接起来。关键是虽说有72个，但是工作起来像一个。这真是汪峰的歌唱的，这是飞一样的感觉。用自己芯片的内存，和用另一个芯片的内存，用的时候，没有感觉到跨芯片了。超级节点工作起来像一个巨大的GPU，这个就是GB200 NVL72的灵魂。

亲爱的数据

香港浸会大学公司治理硕士

目前，有30万创作者在文心一言APP创建了智能体，上线了40万个功能丰富的智能体，智能体调用量达8亿。
2024年4月16日，Create2024百度AI开发者大会在深圳举行。百度创始人、董事长兼首席执行官李彦宏以“人人都是开发者”为题发表演讲，为全球开发者带来“组团出道”的文心大模型系列以及AgentBuilder、AppBuilder、ModelBuilder三大“开箱即用”的AI开发工具。会上，百度集团资深副总裁、百度移动生态事业群组总经理何俊杰发表《智能体：创造AI原生未来》主题演讲。何俊杰表示，智能体将重塑人与技术互动的方式，带来新的应用生态、流量格局和商业模式。百度移动生态，既是大模型应用生长的热土，也是智能体浪潮的潮头。无论是用户、客户，还是生态伙伴，都能在百度移动生态共享低门槛、多场景、高价值的智能体生态。在用户层面，百度移动生态致力于打造“人人可用的超级智能体”，他现场展示了百度新文库、文心一言APP的全新进展；在客户层面，商家智能体、慧播星等正成为商业经营的标配和基建；在生态层面，Agent Builder（文心智能体平台）致力于让每个人都能成为智能体开发者，成为人人可开发、人人可经营、人人可获益的平台。 AI原生应用全面焕新，打造“人人可用的超级智能体” 百度移动生态拥有10亿量级用户。在大模型的加持下，智能体不仅将用户需求转化为成熟产品，更让经典产品全面焕新，抓住AI时代用户的心。以百度文库为例，在大模型赋能下，百度文库全面重构为“一站式AI内容创作平台”，不仅新推出了跨模态的智能漫画和智能画本创作，大幅降低漫画、画本创作的成本和门槛，提升内容创作效率，还能进行全场景指令创作与编辑，无论文档、研报、PPT还是思维导图，“动动嘴”就能生成、编辑。例如，如果我们想要制作一份新能源汽车行业报告，可以在百度文库APP上，说出简单的语音指令，不仅能迅速生成结构完整、内容权威的报告，还可以用语音对文档直接进行排版调整、内容细节优化、数据图表制作等操作。据悉，百度文库AI新功能上线至今，累计AI用户数已超1亿，累计功能使用次数超8亿。

亲爱的数据

香港浸会大学公司治理硕士

Runway（全球头部视频生成公司）
首席执行官Cristobal Valenzuela （克里斯托瓦尔•巴伦苏埃拉）推特发文配图：“机器在背后谈论我和你”

亲爱的数据

香港浸会大学公司治理硕士

“紫东太初”团队学术论文推荐：
论文标题：《Interpreting and Exploiting Functional Specialization in Multi-Head Attention under Multi-task Learning》论文摘要：基于 Transformer 的模型在许多下游任务上表现优于人类，但它们常常被视为黑箱整体使用。我们仍然不清楚这些模型学习到了什么机制，尤其是其核心模块 - 多头注意力机制。受人类大脑功能分化的启发，大脑能够高效处理多项任务，这项研究尝试探究在多任务训练下，多头注意力机制是否也会发展出类似的功能分离。如果会，这种机制能否进一步提升模型性能？为了研究这些问题，我们提出了一种解释方法，用于量化多头注意力机制中的功能分化程度。此外，我们还提出了一种简单的多任务训练方法，以增加功能分化并减轻多任务学习中的负面信息传递。在七个预训练 Transformer 模型上的实验结果表明，多头注意力机制在多任务训练后确实会发展出功能分化现象，并且这种现象会受到任务相似性的影响。更重要的是，基于功能分化的多任务训练策略可以在不增加参数的情况下，同时提升多任务学习和迁移学习的性能。对论文的三点理解：第一点，实验的设计角度就是从删除注意力头对剩余网络的影响角度分析。第二点，如何定义合理的量化指标。尤其是第三点，在多任务训练后，多头注意力机制会进化出功能分化现象。我特地请教了张家俊教授，他告诉我：“就是说虽然大模型训练后拥有了通用能力，实际上每个任务并不是使用全部参数，而是一部分相关参数，例如理解类任务利用其中一部分参数，生成类任务利用另一部分参数，就像人脑一样，有个功能分区，大模型也有类似现象，可能有的明显有点不明显。实际上MoE也是基于这个基本想法，只是显式建模了。” 论文实验设计：作者从删除注意力头对剩余网络的影响角度来分析功能分化。具体来说，他们对每个注意力头进行消融实验，并观察模型性能的变化。如果删除某个注意力头导致模型性能明显下降，则说明该注意力头具有重要的功能。作者发现，在多任务训练后，多头注意力机制会进化出功能分化现象。具体来说，不同的注意力头会专注于不同的任务或功能。例如，一个注意力头可能专注于语义理解，而另一个注意力头可能专注于情感分析。论文有关技术点：多头注意力机制（Multi-Head Attention）是Transformer模型中一种重要的注意力机制，它可以捕捉输入序列中不同子空间的信息。多头注意力机制由多个独立的注意力机制（称为“头”）组成，每个头都学习不同的注意力权重。这些注意力权重随后被拼接起来，以产生最终的输出表示。每个头都是通过不同的查询（Query）、键（Key）和值（Value）矩阵来计算注意力权重的。这些矩阵可以是随机初始化的，也可以是通过训练学习到的。而注意力头剪枝是一种通过删除冗余的注意力头来提高模型效率的技术。可以根据每个注意力头的重要性来进行剪枝，重要性可以通过注意力权重的值来衡量。注意力头剪枝是一种通过删除冗余的注意力头来提高模型效率的技术。如何理解“解离分数”这个指标? 解离分数 (Dissociation Score) 是衡量注意力头对特定任务重要性的指标。它是通过计算去掉特定注意力头后模型性能的下降程度来衡量的。解离分数的计算方法如下：首先，训练一个包含多个注意力头的完整模型。然后，逐个删除每个注意力头，并重新训练模型。最后，计算每个注意力头对模型性能的影响，并将其作为该注意力头的解离分数。解离分数的计算原理是基于这样一个假设：重要的注意力头会对模型性能产生更大的影响。因此，如果去掉一个注意力头后模型性能明显下降，则该注意力头对任务很重要。除了解离分数之外，还可以使用一阶泰勒展开来衡量每个注意力头对任务的重要性。一阶泰勒展开是一种近似计算函数导数的方法。它可以用来估计去掉一个注意力头后模型性能的变化。也就是说，解离分数和一阶泰勒展开都是衡量注意力头对任务重要性的有效方法。总而言之，这篇论文研究了多任务训练下多头注意力机制的功能分化现象。作者提出了一种解释方法和训练策略来利用功能分化现象提升模型性能。该研究为理解和改进多任务学习提供了新的思路。