欢迎收看最新一期的Hunt Good周报!

在本期内容你会看到:

6 条新鲜资讯
4 个有用工具
1 个有趣案例
3 个鲜明观点

Hunt for News|先进头条

特斯拉展示第二代人形机器人

今日凌晨,特斯拉公司在社交媒体上 X 展示了其研发中的 Optimus 人形机器人的行走能力。

视频中,机器人在测试场地内稳健行走,并幽默地配有「完成每日步数目标」标题。

打开网易新闻 查看更多图片

与之前的视频相比,这次展示的机器人经过了新一轮更新,步伐稳健,动作也更加流畅。

Optimus 人形机器人被设计为能够执行对人类来说危险、无聊或重复性的任务,旨在提高工作效率和安全性。

https://twitter.com/Tesla\_Optimus/status/1761450961409573077

英伟达成立最壕 AI 实验室,专攻具身智能

英伟达近日宣布成立一个新的研究小组——GEAR(通用具身智能体研究),由高级科学家 Jim Fan 领衔,专注于开发能够在虚拟和现实世界中自主行动的 AI 智能体。

Jim Fan 表示,他们相信未来移动机器将具备自主性,机器人和模拟智能体将无处不在。GEAR 团队将构建具有通用能力的 AI,能够在多种环境中学习并执行任务。

得益于英伟达的市值暴涨,Jim Fan 「壕气」地表示:「我们有足够的资金一次性解决机器人基础模型、游戏基础模型和生成式模拟。我们团队可能是全球最有钱的具身智能实验室。」

此前,英伟达已经在具身智能领域取得了一系列成果,如 Eureka 项目和 Voyager 项目。随着这一新研究小组的成立,英伟达在具身智能领域的研究和开发将进一步加强。

https://twitter.com/DrJimFan/status/1761052023821369639

ElevenLabs 入选迪士尼年度企业孵化计划

近日,迪士尼在其年度创业孵化器计划中选择了三家人工智能研究公司作为合作伙伴。

这三家公司分别是:AudioShake,专攻 AI 音乐混音;ElevenLabs,将文本转语音的 AI 解决方案提供者;Promethean AI,利用 AI 搜索档案辅助设计各类原型,如游戏和摩托车。

打开网易新闻 查看更多视频
黄仁勋谈中美 AI 竞争,英伟达首次将华为视为最大竞争对手 | Hunt Good 周报

ElevenLabs 最近也给 Sora 演示视频配音,让原本的视频内容听觉上得到了极大的提升。

但这些配音并非直接由视频内容自动生成,还需要依赖精心设计的 Prompt 才能完成。

https://twitter.com/elevenlabsio/status/1759240084342059260

Magic 声称 AI 推理取得重大突破

据 The Information,前 GitHub CEO Nat Friedman 和投资伙伴Daniel Gross 对一家名为 Magic 的编程初创公司投资了 1 亿美元。

Magic 声称其开发的 AI 编码助手能够处理 350 万字的文本输入,远超 Google 的 Gemini 和 OpenAI 的 GPT-4。

打开网易新闻 查看更多图片

知情人士透露,Magic 私底下还声称取得了一项技术突破,可以实现类似于 OpenAI 去年开发的 Q* 模型的「主动推理」功能,这可能解决 LLMs 模仿训练数据而非逻辑解决问题的问题。

Magic 的联合创始人兼 CEO Eric Steinberger 曾在 Meta Platforms 工作,研究如何让 AI 模型进行推理等问题,并致力于开发出 AI 超智能。

https://www.theinformation.com/articles/the-magic-breakthrough-that-got-friedman-and-gross-to-bet-100-million-on-a-coding-startup?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=google-goes-open-source&rc=qmzset

英伟达市值破 2 万亿美元

本周英伟达的关键词依然是「涨涨涨」。23 日,英伟达开盘涨近 3%,股价突破 800 美元大关,市值一度突破 2 万亿美元。

自 1993 年成立以来,英伟达市值历经 24 年才达到 1 万亿美元,而实现从 1 万亿到 2 万亿美元这一里程碑式的跳跃,英伟达仅用了八个月。

资深股票分析师 Dan Ives 评价英伟达最新财报为「多年来最重要的企业财报」,从需求峰值等角度来看,这场 AI 派对才刚刚开始。

黄仁勋此前在财报电话会议表示,加速计算和生成式 AI 已经达到了「引爆点」,全球各地的公司、行业和国家的需求正在激增。

⏸️ Google 宣布 Gemini 暂停 AI 图像生成

Google 公司近日宣布,将暂停其 Gemini 模型生成人物图像的功能,原因是基于该模型生成的历史人物图像并不准确。

在社交平台 X 上,Gemini 错误地将应当是白人的历史人物的图像生成为有色人种,这引发了人们对于人工智能存在种族歧视问题的担忧。

Google 承认该模型在尝试增加输出多样性时出现了过度校正的问题。

「我们已经在努力解决 Gemini 图像生成功能的最新问题。在我们这样做的同时,我们将暂停人物图像生成,并将很快重新发布改进版本。」

https://www.ft.com/content/979fe974-2902-4d78-8243-a0cff68e630a?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=google-s-ai-ethics-crisis

Hunt for Tools|先进工具

Stable Diffusion 3 正式亮相

Stability AI 最近推出了其文本到图像生成模型 Stable Diffusion 3 的测试邀请。根据官方声明,这个新版本在多主题提示、图像质量和拼写能力方面的性能得到了显著提升。

Stable Diffusion 3 支持从 8 亿到 80 亿不等的参数规模,能够满足不同用户的需求和硬件配置,降低了使用门槛。

Stability AI 还透露,Stable Diffusion 3 采用了与 Sora 类似的 diffusion transformer 结构。

打开网易新闻 查看更多图片

虽然 Stable Diffusion 3 目前还没有公开测试,但用户可以通过访问特定页面并提交所需信息来加入等待名单,以便在正式发布前体验模型并提供反馈。

申请地址:https://stability.ai/stablediffusion3

另外,日前 Stable AI 宣布 AI 视频生成工具 Stable Video 正式开启公测,基于 Stable Video Diffusion 模型,每日提供免费的 150 积分,支持生成约 15 个视频。

体验地址入口:https://www.stablevideo.com/

马斯克:Grok V1.5 将在两周后发布

马斯克本周在社交媒体平台 X 发文称,xAI 将在两周后发布 Grok V1.5 聊天机器人,「目前还远非完美,但会迅速改进」。

此前,据可靠博主 @cb_doge 爆料,新版本将包含一个「Grok 分析」按钮,能够概括整个主题及其回复。此外,它还将辅助用户进行帖子的创作。

早些时候,该博主还透露,马斯克的 X 正在与 AI 文生图公司 Midjourney 就潜在的合作进行谈判。

Grok 是由马斯克旗下的 AI 初创公司 xAI 开发的一个聊天机器人。它被设计成能够与社交平台 X 的用户进行对话,并且具有实时访问 X 平台的能力。

https://twitter.com/elonmusk/status/1760504129485705598

Google 推出 Gemma AI 模型

Google DeepMind 宣布开源名为 Gemma 的全新大型语言模型(LLM)。Gemma,拉丁语中意为「宝石」,提供 2B 和 7B 两种参数规模的模型。

基于与 Gemini 相同的技术,Gemma在性能上超越了包括 Llama 2 13B 在内的大型模型,并在 18 项基准测试中平均得分领先。

特别是在数学和编码能力上,Gemma-7B 在 8 项测试中超越了 Llama 2 的 7B 和 13B 版本,以及 Mistral 7B 模型。

在安全性方面,经过指令微调的 Gemma-2B IT 和 Gemma-7B IT 版本在人类偏好评估中也表现优异,超越了 Mistral-7B v0.2 版本。

https://blog.google/technology/developers/gemma-open-models/

⚡️世界最快大模型 Groq 登场

近日,一款名为 Groq 世界最快大模型问世,以每秒 500 个tokens 的惊人速度超越了同类产品,比 GPT-4 快了整整 18 倍。

Groq 的这一成就得益于其自研的 LPU(语言处理单元),在 LLM 任务上性能是英伟达 GPU 的 10 倍。

Groq 的 LPU 采用时序指令集计算机架构,有效利用每个时钟周期,减少内存加载需求,降低成本,提高能效。

LPU 卡售价 2 万美元,单卡内存为 230MB,但通过多个 LPU 的无缝链接,可以实现性能的线性扩展。

Groq 的 API 已向开发者开放,兼容 OpenAI API,并提供 100 万 token 的免费试用。

https://twitter.com/IntuitMachine/status/1759941976927924682

Hunt for Fun|先行

百科词条可视化,一图胜千言

Globe 是一款类似于可视化版百科词条的搜索工具。只需输入一个搜索关键词,它就能搜罗全网信息,然后迅速整理出一张思维导图。

以鲁迅为例,当你在 Globe 中搜索这位文学巨匠时,它会以一张精心设计的思维导图展示鲁迅的生平、作品、影响以及与他相关的各种知识点。

打开网易新闻 查看更多图片

这样的视觉呈现方式,无疑让信息的检索变得更加直观和便捷。但是 Globe 信息的深度和广度上可能并不如传统的百科词条那样详尽。

因此,在使用 Globe 时,不妨将其视为一个快速概览工具,而在需要深入研究时,再转向更详尽的资料。

体验地址入口:https://explorer.globe.engineer

https://twitter.com/xiaohuggg/status/1761329682635448623

Hunt for insights|先知

黄仁勋点赞华为:即使技术受到限制也努力突破

美国《连线》杂志近日专访英伟达 CEO 黄仁勋,探讨了 AI 的未来。

黄仁勋对 AI 的前景充满信心,预测神经网络将主导未来,并在机器人、医疗和自动驾驶等领域带来革命性变化。他甚至设想了具备记忆功能的聊天机器人的诞生。

在谈及美国政府对华出口限制时,黄仁勋表示,英伟达正与政府紧密合作,开发符合新规定的芯片产品。

对于中国可能因此加速自主研发 AI 芯片的担忧,黄仁勋认为,尽管中国有能力通过集成芯片提升系统性能,但出口限制可能会增加其技术获取的难度和成本。

黄仁勋还对华为的创新能力表示赞赏。他指出,尽管华为面临半导体技术的限制,但通过集成多芯片的方式,华为成功构建了强大的系统。

值得一提的是, 英伟达在本周提交给美国证券交易委员会的文件中,首次将华为认定为在 A I 芯片等多个类别中的「 最大竞争对手」。

在提交的文件中,英伟达还提到了其他几家竞争对手,如英特尔、超微、博通、高通、亚马逊和微软。

该公司表示,华为在提供用于人工智能的图形处理器(GPU)和中央处理器(CPU)方面,均具备与行业内其他公司竞争的实力。

https://www.wired.com/story/nvidia-hardware-is-eating-the-world-jensen-huang/

图灵奖得主:Sora 的世界模拟器理论注定要失败

近日,图灵奖得主 Yann LeCun 对 OpenAI 的模拟器理论给出了不一样的看法。

他在社交平台 X 发帖称:「通过生成像素来模拟世界的行为,就像曾经被广泛弃用的『通过合成进行分析』一样,既浪费资源又注定失败。」

在他看来,对于文本,生成式人工智能效果很好,是因为文本是离散的并且符号数量有限,处理不确定性很容易。但如果像 Sora 那样模拟世界,就不仅仅是处理几个字符了。

几乎与 Sora 同一时间,LeCun 提出了一种新模型及其架构,即视频联合嵌入预测架构 (V-JEPA)。

该模型可以预测复杂的交互,专注于更广泛的概念空间中的预测,类似于人类认知图像处理。

https://twitter.com/ylecun/status/1759486703696318935

Google CEO:AI 能协助防御网络安全威胁

在最近的慕尼黑安全会议上,AI 在网络安全领域的应用和潜在影响成为了讨论的焦点。

Google CEO 桑达尔·皮查伊在会议上发言表示,尽管人们普遍担心 AI 可能被用于恶意目的,但实际上 AI 技术可以成为加强网络安全防御的有力工具。

皮查伊指出,AI 可以帮助政府和企业更快地识别和应对网络攻击,从而提高网络安全的整体水平。

在他看来,AI 技术在网络安全防御方面的应用,可以在一定程度上减少所谓的「防御者困境」,即黑客只需成功一次即可造成破坏,而防御者则必须每次都成功防御。

https://dig.watch/updates/google-ceo-sundar-pichai-optimistic-on-ais-role-in-cybersecurity

彩蛋时间

AI 算法与人类审美的精妙融合,赋予脸谱一种既亲切又新奇的视觉体验。

向左滑动查看更多内容

作者:@ahha1963

工具:Midjourney

链接:https://twitter.com/ahha1963/status/1761573210343276963