Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

本期为TechBeat人工智能社区第643期线上Talk。

北京时间11月27日(周三)20:00，卡内基梅隆大学硕士生刘士弘的Talk将准时在TechBeat人工智能社区开播！

他与大家分享的主题是:“LOV - 如何无参数有效优化视觉语言模型”，届时他将分享一种新的优化方法，利用大语言模型来有效地自动优化视觉语言模型在多个下游任务中的表现。相关工作已入选CVPR 2024。

Talk·信息

主题：LOV - 如何无参数有效优化视觉语言模型

嘉宾：卡内基梅隆大学 · 硕士生 - 刘士弘

时间：北京时间11月27日(周三)20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍

GPT-4o、DALL-E 3等模型在图像生成领域取得了令人惊讶的成绩，然而这些视觉语言模型通常拥有数十亿参数，且模型权重不公开，使得传统的白盒优化方法（如反向传播）难以实施。同时，即使这些模型通常向用户开放自然语言接口，传统的提示词工程严重依赖工程师的经验和先验知识。

本次Talk将介绍CMU近期发表在CVPR 2024上的‘Language Models as Black-Box Optimizers for Vision-Language Models’。团队创新性的提出利用大语言模型来有效的自动优化视觉语言模型在多个下游任务中的表现。这一方法不仅无需触及模型内部参数，还大幅提升了优化的灵活性与速度，让用户即使没有技术背景也能轻松提升模型性能。

Talk大纲

1. 背景：视觉语言模型近期在CV领域的发展以及优化难点

2. 研究动机：模型权重不透明/人工提示词的难度较高且依赖先验

3. 解决方案：我们设计了一个以hill climbing及大语言模型为核心的自动优化框架，使得视觉语言模型在不依赖参数和人工先验的情况下有效得到改进。

4. 应用与延伸讨论：有关prompt engineering的一些应用思考以及相关的延伸思考。

Talk·预习资料

论文链接： https://arxiv.org/abs/2309.05950 项目主页： https://github.com/shihongl1998/LLM-as-a-blackbox-optimizer

Talk·提问交流

在Talk界面下的【交流区】参与互动！留下你的打call和问题，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

刘士弘‍‍‍‍‍‍‍‍‍

卡内基梅隆大学 ·硕士生

刘士弘（Shihong Liu）是卡内基梅隆大学的研究生毕业生，曾任机器人研究所研究员。目前在北美Amazon 工作，负责大型分布式系统的计算和大语言模型驱动的 AI Agent 的开发。

个人主页: https://www.techbeat.net/grzytrkj?id=42605

-The End-

如果你也想成为讲者

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择！

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>

预约本期Talk

Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

CVPR｜让图像扩散模型生成高质量360度场景，只需要一个语言模型

网友用350美元造出能走能玩的端到端人形机器人

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

研究人员阐明语言模型在不同场景中泛化机制，指导大模型训练优化

国产AI视频神器X-Portrait 2，效果碾压Runway

大模型可视化工具爆火，GPT推理过程一目了然

AI如何改变社交娱乐新姿势？阿里云专家解读来了

AI是怎么认出AI视频的？人类靠寻找“违和感”，AI靠的是

在解码中重新对齐，让语言模型更少幻觉、更符合人类偏好

AI能替你网购了！Perplexity开始搞AI购物

AI MagicQuill：用笔画两下帮你P图

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

告别屈膝小碎步 让机器人像人一样走路 国产团队造出“钢铁侠”

CVPR｜让图像扩散模型生成高质量360度场景，只需要一个语言模型

网友用350美元造出能走能玩的端到端人形机器人

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

研究人员阐明语言模型在不同场景中泛化机制，指导大模型训练优化

国产AI视频神器X-Portrait 2，效果碾压Runway

大模型可视化工具爆火，GPT推理过程一目了然

AI如何改变社交娱乐新姿势？阿里云专家解读来了

AI是怎么认出AI视频的？人类靠寻找“违和感”，AI靠的是

在解码中重新对齐，让语言模型更少幻觉、更符合人类偏好

AI能替你网购了！Perplexity开始搞AI购物

AI MagicQuill：用笔画两下帮你P图

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有