量子位

《量子位》官方网易号

#Bing推出生成式AI搜索#
家人们！微软Bing已面向小部分用户开启AI内测了—— 没错，此番对标谷歌，一举在搜索结果中推出了“AI概述”，所问即所得。【图1】不过可能是鉴于谷歌“翻车”（曾建议人们在披萨中添加无毒胶水）在前，Bing此次升级主打一个谨慎。微软搜索主管Jordi Ribas特意强调，传统的算法结果将始终占据页面高位。正如图片一开始所展示，AI搜索页面占据左侧，传统搜索占据右侧，颇有“青龙白虎”那味儿了。这还不算完，Bing在提供由AI生成的答案时，大大增加了索引跳转链接。不仅在回答末尾附上参考来源，还在最左侧添加了目录索引。对于此次升级，有网友火速赶来支持，并特意cue到了Bing竞争对手谷歌。根据Statcounter发布的数据，目前谷歌占据了91.05%的搜索引擎市场份额，而Bing占据了3.74%。不过，随着AI搜索引擎逐渐火热，已经有大量新玩家开始涌入了……OpenAI推出新AI搜索，老伙计微软也默默更新了Bing

行业密探

量子位

《量子位》官方网易号

#OpenAI发布搜索引擎# #searchgpt挑战谷歌# OpenAI最新发布了一款搜索引擎：SearchGPT，其呈现结果的方式更像对话，且能联系上下文。

行业密探

量子位

《量子位》官方网易号

#英伟达发布基于Llama3新模型#
英伟达发布了基于Llama3的新模型——ChatQA 2，专注于提升模型理解长文本和检索增强生成（RAG）的能力！以前，开源模型在处理大量信息时，表现总是与前沿的模型（比如GPT-4 Turbo）差距较大。对此，研究团队通过一个“继续训练”的方法，把Llama3-70B-base的上下文窗口从8K扩展到128K，一次性可以处理更多的信息。轻松应对文档总结、对话问答和信息检索等任务。他们还设计了一个三阶段的调优过程，来增强模型的指令理解、RAG表现和长文本理解能力，让模型的处理过程更加流畅。此外，团队还使用了长文本检索器，能够有效解决RAG中的“上下文碎片化”问题，从而提升长文本理解的效果。实验结果表明，ChatQA 2在很多长文本理解任务上的表现都跟GPT-4 Turbo不相上下，在RAG基准测试中甚至还超越了它。论文：

行业密探

量子位

《量子位》官方网易号

#能上楼的快递机器人#
普林斯顿大学研究团队，设计了能上楼的机器人，有望在2030年前将人类快递员的送货效率提高一倍。这种机器人的移动方式很特别，是将腿和轮子结合起来，这样就能走过不平整的路，上台阶，甚至是上楼梯！再加上稳定的三角形设计，理论上还能携带大件重物以及形状不规则的包裹。据研究团队所说，有了这个机器人，只需要一个人类司机，驾驶送货车回收这些机器人即可，能大大提升送快递的效率。目前，这项技术正在申请专利，并由初创公司Vault Robotics负责开发，并已获得普林斯顿大学的知识产权加速基金(IP Accelerator Fund)的支持。如果你想进一步了解，普林斯顿大学官网介绍了更详细的信息：

行业密探

量子位

《量子位》官方网易号

#知乎万粉博主开源Llama3.1中文优化版#
Llama3.1 中文优化版来了！知乎万粉博主王慎执，在抱抱脸新开源了Llama3.1 8B 和 70B两个参数版本。据他介绍，新版本针对超过 100K 用户偏好数据进行了微调。当然，咱们也了解了一下博主的情况。王慎执，清华大学自动化系LEAP实验室学生，目前在读博三。除了这次的Llama3.1 ，他还参与开源了Mistral-7B-v0.3-Chinese-Chat等。开源

行业密探

量子位

《量子位》官方网易号

#开源RAG解决上下文缺失#
开发者们在使用 RAG（检索增强生成模型）时经常会遇到一个问题——上下文缺失。因为单个数据块缺乏足够的背景，导致模型无法准确回答问题，甚至出现幻觉！先举几个例子让大家感受一下： - 数据块常常用代词来描述内容（比如：它、它们…），在检索时可能导致错误。 - 许多问题的答案分散在多个数据块中，单个数据块无法满足需求。而开源模型dsRAG提供了2种解决方法： 1. 添加上下文块头在每个数据块前加一个“头部”，提供更多背景信息。可以是文档标题、简要总结，或者章节和小节标题的组合。这样，模型在处理这些数据块时，就能更好地理解内容。比如图1中Nike的文件在添加了头部信息后检索匹配度上升了0.24。 2. 将块转换为段落大块内容通常提供更好的上下文，但检索特定信息时不太方便。我们可以将文档拆分成语义一致的部分，动态选择小块或大块。具体方法是用 LLM 标注每个部分的起止行，然后再根据需要拆分成更小的块。以Nike2023年的财报为例，在查询“Nike的股票补偿费用”时，相关数据块会集中在某几个部分（图2中x轴的200-500之间）。通过设定一个阈值，把无关块的价值变为负数，而相关块则保持为正数，算法就能识别出最相关的文本段落（对应图2中x轴的400左右）。而图3中的文本段落就是与“Nike的股票补偿费用”最相关的部分，图4展示了更详细的相关性图表。经过测试，这种方法不仅能提供更完整的上下文，还能减小模型排名错误对检索效果的影响。 dsRAG notebook版： LangChain版：

行业密探

量子位

《量子位》官方网易号

#如果AI能回溯时间# #逆向图生视频#
Luma AI推出了一个新功能——尾帧视频生成，能生成你上传图片的前几秒钟。之前的视频生成，都是根据你上传的图片，生成之后的几秒钟发生了什么。而这个新功能，相当于一个“时间回溯机”，能生成图片的前几秒，最终定格成你上传的图片。具体效果请看视频：

行业密探

量子位

《量子位》官方网易号

#新方法提升AIGC速度和质量#
Meta团队最近提出了一种提升AIGC速度和质量的方法——离散流匹配（DFM，Discrete Flow Matching）。那什么是“离散流”呢？这就不得不说一下连续数据与离散数据的区别。连续数据的值是连续的，可以取任意实数值，例如温度、高度、时间等。与之不同，离散数据的值是离散的，只能取特定的值，例如学生人数、班级数等。而自然文本数据就是典型的离散数据，字词可以视为离散的符号序列，代码、视频、音频也都可以看作是离散数据的一种。那么DFM的创新性是什么呢？主要有以下三点： 1. 概率路径插值：在离散状态空间中进行流处理，避免了将离散数据嵌入连续空间所导致的信息丢失和生成质量下降的问题。 2. 通用采样公式：通过使用学习的后验（如概率去噪器和噪声预测器）进行采样，模型能够高效且准确地生成新的文本样本，确保生成的离散数据质量更高。 3. 非自回归生成：DFM采用非自回归的生成方式，可以并行生成音频片段，提高生成速度，同时保持高质量，有效解决了传统自回归模型速度慢且难以并行化的问题。传统方法为什么不能达到如此效果？原因是传统的自回归模型和扩散模型有着以下缺陷： - 自回归模型逐个生成数据点，虽然生成质量较高，但速度较慢，难以并行化，导致在处理大规模数据时效率低下。 - 扩散模型在处理离散数据时效果不佳，需要将离散数据嵌入连续空间，这一过程容易导致信息丢失，从而影响生成数据的质量。如果你想进一步查看论文，跳转链接：

行业密探

量子位

《量子位》官方网易号

#生物电路设计免费教程#
今天介绍一个免费学习生物电路设计的教程！（图1）如果你要想学习细胞级和分子级的生理过程，生物电路设计是一个非常流行的方法。它类似于在细胞内部搭建“电路”，模拟信号传递和基因表达等功能，结合了生物学、化学、物理学和工程学的知识。（图2）举个例子，图3就是来自顶刊综述的癌症细胞电路设计图。这个教程的内容覆盖从基础到高级的多个方面，包括： - Python 编程：教你如何配置计算机，使用 Python 进行科学计算。 - 设计原则：生物电路设计的基础知识，让你从零开始了解。 - 电路分析：深入探讨正反馈循环、前馈循环等电路拓扑，了解它们如何工作。还有一些高级主题，比如： - 多稳态：如何让细胞保持在多个状态之间切换。 - 信号放大：外细胞信号如何被放大以增强反应。 - 模式形成：细胞如何形成有趣的空间模式，甚至借助图灵模式。网页还提供了很多数学和编程工具，帮助你更好地理解生物电路设计的问题，比如： - 使用 SciPy 求解常微分方程的数值解。 - 交互式绘图工具 Bokeh，让你可视化数据。生物电路设计不仅仅是理论，它的应用前景非常广泛，包括合成生物学、药物发现、甚至疾病治疗等。如果你对科学计算和数据分析感兴趣，可以通过这个教程来深入学习！

行业密探

量子位

《量子位》官方网易号

#光互动装置反思虚拟与现实#
ENTER是一个互动光装置，其尺寸如同一扇门，由32条每条长5米的LED灯带组成。它与高帧率摄像头连接，能够实时对声音和动作做出反应。随着数字世界的普及，我们在网上分享的个人信息越来越多。这些信息碎片逐渐拼凑出一幅反映我们真实生活的图像。这个作品的灵感源于，每次按下键盘上的“ENTER”键，我们都会向互联网输入关于自己的数据。每一次的“ENTER”都仿佛将我们从现实转移到数字世界中。目前，虚拟世界中的我们仍然只是各种数据的碎片，这些数字化碎片只是我们不完整的反映。然而，如果未来我们继续上传更多个人数据，是否有可能拼凑出我们完整的自己？什么是数字化的我们，什么是真实的自己？这些问题值得深思。

行业密探

量子位

《量子位》官方网易号

#1万亿Tokens开源数据集# 比普通数据集大10倍！
Salesforce AI Research 团队刚刚发布了一个名为 MINT-1T 的开源多模态数据集，规模达到了惊人的 1 万亿Tokens！这可真是目前最大的开源多模态数据集，研究LLM的小伙伴们不容错过！ MINT-1T 的规模是之前最大的数据集 OBELICS 和 MMC4 的 10 倍。它包含了各种类型的数据，比如 HTML 文档、PDF 文件和 ArXiv 论文，尤其是增加了很多科学文档，让数据变得更加丰富多样。团队表示，开发这个数据集的目的是为了提高LLM在图像和文本问题上的推理性能。研究人员已经在 MINT-1T 上预训练了XGen-MM 模型，并在图像描述和视觉问答的测试中评估了它的表现。结果显示，MINT-1T 的性能超越了之前的 OBELICS 数据集。 Salesforce还计划继续使用 MINT-1T 来训练新一代的 XGen-MM 模型，并且持续分享更多高质量的开源数据集和模型。项目介绍：论文：数据集：

行业密探

量子位

《量子位》官方网易号

#苹果地图网页版开启测试#
今天，苹果地图网页版正式开启测试了！你可以直接从浏览器访问它。可提供的服务包括： - 规划驾车和步行路线：地图会帮你规划到达目的地的清晰指示。 - 浏览精选指南：发现更多的推荐餐厅、商场和景点。 - 查看详细信息：查询附近餐厅的照片、营业时间、评分和评论。 - 点餐：直接从地图上的地点卡进行点餐，省时省力，吃货们绝对爱！苹果称，未来几个月还会推出“环顾四周”等更多功能。所有开发者，包括使用 MapKit JS 的开发者，还可以链接到网页版地图，然后使用路线规划和查询地点信息等功能。网页版地图目前提供英语版本，兼容 Mac 和 iPad 上的 Safari 和 Chrome 浏览器，以及 Windows PC 上的 Chrome 和 Edge 浏览器。对其他语言、浏览器和平台的支持将在后续发布。网址：

行业密探

量子位

《量子位》官方网易号

#揭开Transformer信息流动机制#
Transformer中的信息流动机制，被最新研究揭开了：所有层都是必要的吗？中间层在做同样的事吗？层的顺序重要吗？如果跳过一些层，比如第4层输出接到第6层会怎样。随机打乱层的顺序，比如4-6-5-7又会怎样。最近一项名为“Transformer Layers as Painters”的研究火了，由来自AI初创公司Sakana AI、Emergence AI的研究团队完成。他们从Transformer内部工作原理出发，经过一系列实验对以上问题得出了结论。团队表示深入理解这些原理不仅能提高现有模型利用效率，还能帮助改进架构开发新的变体。谷歌DeepMind研究员、ViT作者Lucas Beyer看过后直接点了个赞：很棒的总结！尽管一些实验在之前的研究中已经被展示过了，但我喜欢你添加的新细节，特别是强调了“推理”类任务比其他任务受影响更大！还有不少学者、工程师也表示强烈推荐：敢打赌，其中一些见解最终将会用于改进Transformer。其中的实验再次证实了复制层对创造性任务有帮助，但对推理任务通常无效；改变层的顺序行不通；剪枝在中间层效果最佳，但仍需要进行修复调整。所以，在这项研究中，研究团队都进行了哪些实验？回答了哪些问题？打乱/跳过Transformer层会怎样？最新研究揭开其信息流动机制，一口气解答8大问题

行业密探