量子位

量子位

网易号

关注
17.5万粉丝
0关注
7.9万被推荐
IP属地:北京

《量子位》官方网易号

2枚勋章

2次获得编辑精选

追踪人工智能动态

  • #Adobe引入Sora能力# 炸裂!Adobe刚刚宣布旗下视频剪辑软件Premiere Pro将引入Sora、Pika和Runway的AIGC能力。以后剪辑视频也可以靠prompt来生成了!
    行业密探
  • 4月17日,2024中国AIGC产业峰会将汇聚技术、产品、投资和用户等玩家代表,共讨AIGC正在重塑的新世界!#中国AIGC产业峰会# 量子位的微博直播 中国AIGC产业峰会「你好,新应用!」
    行业密探
  • 【#东大机器人复现铃芽之旅三脚椅# 】梦幻联动!东大用机器人复现了铃芽之旅三脚椅,网友惊呼:赛博草太来了!
    行业密探
  • #国外小伙自制可穿戴AI# 在今年的 Google AI 黑客马拉松上,有一位名叫 Advait 的学生用 Gemini 1.5 Pro API 和 Raspberry Pi 搞了个可穿戴 AI 设备。在视频中,该设备利用摄像头拍照,然后通过 Gemini 1.5 Pro 实时输出问答。而且它还通过头戴耳机支持语音输入输出。最后,Advait 还为我们展示了该设备的长期记忆能力。即便是之前的提问,它也能重新检索并准确回答。相关代码目前在 GitHub 开源~GitHub:补充知识:1.MHacks 是密歇根大学首屈一指的学生黑客马拉松。今年 4 月 12 日至 14 日,该校与谷歌合作开展 Google AI 黑客马拉松。参与者将可以访问 Gemini 1.5 API 以及许多其他 Google AI Studio 工具。奖池如下:一等奖3000美元,二等奖1500美元,三等奖500美元。2.Raspberry Pi,中文名叫树莓派,是一块拥有功能特别强大的内嵌式系统集成电路板,由CPU、内存、电源管理、音频与视频接口等组成,可以理解成一台电脑。
    行业密探
  • 北大字节开辟图像生成新范式!超越DiT,不再预测下一个token

    9小时前
    图片
  • #AI公司挤爆B站# 现在,AI大模型公司们有了新的必争高地——把流量打出去,普通用户抢过来。例如现在逛个B站,画风简直就是“五步一AI,十步一AIGC”。以智谱AI为例,不时会在视频旁边看到这样的露出:【图1】。在搜索视频的过程中,也会直接蹦出来AI产品的“立即下载”APP的跳转入口:【图2】。而与之相关的使用教程、案例分享、技术应用等内容也是数不胜数,看上去有不少也是AI公司和UP主的合作内容:【图3】。最近我们也从AI圈内朋友处打探到,2024年开年,AI公司投放的整体费用有明显增长,也有公司为此扩充了市场营销团队。以AI潜在用户群体最为集中的B站为例,头部AI厂商及市面常见AI产品几乎已经全部入局,旺盛的需求导致内容“供不应求”,不少科技UP主档期被约满,多次出现品牌抢单的情况。业内人士保守估计,仅仅在B站,品牌方今年的广告投入就是去年的3 到 4 倍。甚至有AI厂商特意从拼多多挖人负责B站的投放。嗯,不得不说,AI大模型公司们已经在开展激烈的营销商战了,年轻用户恰是他们的主要目标。作为年轻人密度最高的B站,必然是这场“战役”的桥头堡,当然,还有更多社交媒体平台,也都在印证着这点。
    行业密探
  • 融合ChatGPT+DALLE3,贾佳亚团队新作开源:识图推理生图一站解决
    10小时前
  • 人在B站,要被AI公司们挤爆了

    10小时前
    4跟贴
    图片
  • #爆火AI写真工具开源# 只需一张照片,不依赖模型训练,多风格 AI 写真瞬间呈现。这是小红书团队最近刚开源的 #InstantID# 项目能够实现的效果。该项目在 GitHub 一经发布便立即收获 4000+ 星标,还得到了图灵奖得主 Yann LeCun 的认可。InstantID 是什么呢?简而言之,它是一个基于扩散模型的图像生成解决方案,能实现从单一参考图像到多样化风格化写真的快速生成。用户只需上传一张自拍,20 秒就能得到定制版 AI 写真。(之前爆火的妙鸭至少要传20张)该开源项目的核心在于其 Zero-shot 技术,整个过程无需训练 LoRA 模型,就能实现高保真的 ID 保持。据介绍,InstantID 巧妙地避免了对文生图模型 UNet 部分的训练,仅通过训练一个轻量级的可插拔模块,实现了在推理过程中无需 test-time tuning,同时保持了文本控制的灵活性,确保了面部特征的高保真度。【图3】目前,InstantID 还允许用户进行五官夸张定制,与宠物的趣味合体,以及实现多身份和风格的创意合成。体验项目介绍主页:论文:GitHub:
    行业密探
  • #OpenAI开除Ilya盟友# 突发!OpenAI开人了,理由:涉嫌信息泄露。一位是失踪的首席科学家Ilya盟友,超级对齐(Superalignment)团队核心成员Leopold Aschenbrenner。另一位也不简单,是LLM推理团队研究员Pavel Izmailov,曾经也在超级对齐团队干过。目前尚不清楚这俩人到底泄露了啥信息。消息被曝出后,不少网友表示“挺震惊”:不久前我还看过Aschenbrenner的帖子,感觉他正处于事业上升期,没想到会有这样的转变。还有网友认为:OpenAI失去Aschenbrenner,Ilya Sutskever也被边缘化,该公司对于构建安全AI的承诺看起来更加不可信了。OpenAI人才流动,与谷歌Meta互挖墙脚已经见怪不怪,但开除形式的人事调动,还是去年11月董事会叛变之后的第一回。突发!OpenAI开除Ilya盟友,理由:涉嫌信息泄漏
    行业密探
  • 突发!OpenAI开除Ilya盟友,理由:涉嫌信息泄漏

    11小时前
    图片
  • #周鸿祎现身哈佛演讲# “我来哈佛的目的,说白了就一个,是来吸粉的”。这是 360 集团创始人、董事长周鸿祎近日在第27届哈佛中国论坛开幕式上的自侃。由于近期周鸿祎在短视频领域频频发力,网传其正准备进入直播带货领域。周鸿祎解释称,国内很多老百姓每天只刷短视频,因此,无论创业者还是企业家,最重要的一点就是要与用户保持接触。“你要获得话语权,获得影响力,不一定非要在网上卖面膜、卖名产品做网红”。此外,他还幽默解释了 “360” 名称起源以及自己经常穿红衣服的原因。【图2】谈及人工智能的发展,他笑称自己是“中国互联网最倒霉的创业者”——虽然是第一批创业者,但一直不是很成功,屡败屡战,不断在折腾。对于AI接下来的发展趋势,他也分享了一些自己的看法。主要观点整理如下:1.周鸿祎提出了“AI信仰”的概念,强调人们需要相信当前大模型的突破代表了真正的人工智能,而不仅仅是人工智障。2.他预测在未来三到五年,甚至两到三年内,AGI 将会到来,它将引发一场真正的工业革命。3.他觉得人工智能不见得会淘汰某个人,到时候不用人工智能,不了解人工智能的人会被用人工智能的同行给淘汰掉。4.他指出 AI 发展并非只有一种路径,即不仅仅是通过增加数据、模型规模和计算力来实现超级智能。他提倡“think different”,鼓励人们采取不同的思路和策略来发展 AI。5.他提到了大模型的三个小趋势:由多个专家小模型构成的模型(MOE),专业小模型的协作,以及大模型向终端设备上的应用。6.周鸿祎强调了开源在 AI 发展中的重要性,认为没有开源就没有今天的互联网,开源社区的力量将会持续增长。7.他提到企业级的专业大模型是一个巨大的机会,鼓励创业者关注专业级大模型的发展。周鸿祎认为,企业应该找到垂直场景,训练专业的大模型,而不是只依赖一个通用的大模型。最后,谈及360公司自身的业务。周鸿祎说,360安全大模型可以发挥专业的安全攻防知识,在安全攻击的自动发现能力上远远超过GPT4。
    行业密探
  • #AI已进化出自私的人格# 附论文
    行业密探
  • #英特尔中国特供AI芯片曝光# 性能暴降 92% 据外媒报道,英特尔在其 Gaudi 3 AI芯片白皮书中披露,正准备向中国市场推出“特供版”Gaudi 3。特供芯片包括名为 HL-328 的 OAM 兼容夹层卡,和名为 HL-388 的 PCle 加速卡两种。据悉,原版 Gaudi 3 在处理 FP16/BF16 这两种数据时,每秒能执行大约 1835 万亿次浮点运算。而受制于美国对AI芯片的出口管制,芯片的综合运算性能(TPP)需要低于4800才能出口到中国。这意味着中国特供版 Gaudi 3 的16bit 性能不能超过 150 TFLOPS(150万亿次浮点运算)。和原版相比,特供版性能需直接降低约 92%。不过性能的降低也使得其功耗大幅降低。根据曝光的资料,特供版的 PCle 卡和 OAM 卡的功耗 TDP 均为450瓦,而原版的性能分别为600瓦和900瓦。
    行业密探
  • #网页一键转markdown# 有网友在 Hacker News 上分享了一个自己创建的网页一键转 markdown 工具#Vercel# 。该工具能够自动过滤网页杂乱部分、提供 HTML 和 图像压缩包、以及提供 GPT-3.5 进一步清理和转换 markdown 内容选项。不过目前由于在线用户过多,应用可能会出现页面崩溃问题~PS:工具刚推出,暂未找到收费消息,不过小编已经免费体验了一把~工具
    行业密探
  • #Grok1.5V解决特斯拉自动驾驶问题# 英伟达高级研究经理 Jim Fan 在 X 上分享了观点:Grok-1.5V 在提高特斯拉自动驾驶能力方面存在巨大潜力。简单来说,以往汽车看到左边可以转弯,它就会做出左转的行动,整个链条是 “视觉理解——动作”。而现在,加入了 Grok-1.5V,汽车在视觉理解和行动中增加了一个中间环节,即语言。它会将决策逻辑转化为语言显示在屏幕上,而这意味着汽车是先理解情况,再用语言表达出来,再做出决策。这一新链条“视觉理解——语言——动作”提高了汽车自动驾驶的决策质量。而且,特斯拉有大量真实案例可以用来训练这个系统,包括马斯克在评论区提到的真实视频及合成数据。
    行业密探
  • #5分钟开发AI应用不是梦# #中小企业轻松用上AIGC# 随着AIGC应用极速发展,GPU算力已然成为市场竞争的焦点。不仅大企业和大模型创业公司对算力有迫切需求,众多中小企业和个人用户同样存在较为旺盛的使用需求。腾讯云高性能应用服务HAI,立足于开源社区生态,以简单、快捷、易用的GPU云服务产品,满足用户多样化的需求。本期课程将为中小企业用户多角度详解HAI产品能力、应用场景及前沿的技术创新,手把手地带您5分钟开发一款AI应用,让每家企业都能轻松拥抱AIGC。直通车:
    行业密探
  • 5分钟开发AI应用不是梦!中小企业都能轻松用上AIGC

    15小时前
    图片
  • #吴恩达AI智能体新发现# 吴恩达最新发现,Planning 在 agentic AI 中非常关键。当我们使用 LLM 时,它能自主决定执行哪些步骤以完成更复杂的任务。简单举例来说明 Planning。例如,如果您希望智能体考虑一张男孩的照片并画一张相同姿势的女孩的照片,则该任务可以分解为两个不同的步骤:(i) 检测男孩图片中的姿势和 (ii) 以检测到的姿势渲染女孩的图片。LLM可能会通过输出类似“{tool: pose-detection, input: image.jpg, output: temp1 } {tool: pose-to-image, input: temp1, output: final.jpg}”这样的字符串来微调或提示(使用少量提示)来指定 Planning。此外,他还举了一个自己亲身经历的例子。在一次现场演示 agent 访问各种在线搜索工具以完成总结摘要的任务中,API 意外返回并出现速率限制错误。当他以为演示会公开失败时,agent 却自主使用了维基百科完成了任务。因此他得出,许多任务无法通过单一步骤或工具完成,而 agent 可以通过 Planning 自主决定执行哪些步骤,从而带来人们预料之外的效果。至于 Planning 的实现方式,他认为通过微调或少量提示,如指定使用特定工具和输入输出可以起到作用。然而,他也强调了, Planning 技术目前还不够成熟,它可能会导致结果难以预测。PS:对于想要深入了解 Planning 技术的人,吴恩达推荐了几篇论文~推荐论文1:推荐论文2:推荐论文3:
    行业密探
  • #iOS18或不包含苹果自研聊天机器人# #iOS18首批AI功能将完全运行于设备端# 据彭博社记者古尔曼透露,iOS 18 预计不会包含苹果自研的类似于 ChatGPT 的聊天机器人。但目前尚不清楚 Gemini 或其他聊天机器人是否会直接集成到 iOS 18 中。此外,他还透露了 iOS 18 推出的首批全新 AI 功能将完全运行于设备端,而无需依赖云服务器的消息。传闻称,iOS 18 将为 iPhone 的 Spotlight 搜索工具、Siri、Safari、快捷指令、Apple Music、信息、健康、Numbers、Pages、Keynote 等应用带来全新的生成式 AI 功能。具体一切都要等到苹果将于 6 月 10 日至 14 日举办的年度开发者大会才能知晓了。
    行业密探
正在载入...
正在载入...