大模型端侧落地，扩展超自动化边界

作者｜ViniWang
邮箱｜viniwang@pingwest.com

随着人工智能技术的不断发展，大模型部署已成为重要话题。

过去大模型在云端部署，可以帮助企业更高效地利用资源，降低成本，提高效率。随着人工智能技术不断进步，随之而来的安全、隐私、规范和可持续发展问题也备受关注。

在这种背景下，大模型端侧部署也应运而生。

什么是“端侧”部署？“端侧”部署，是指模型服务并不是部署在云端，而是直接存储在手机设备内部的芯片中，仅利用芯片的算力生成结果。这样不需要联网，也不用上传到云端。

相比云端部署，大模型端侧部署有哪些优势？又会为“超自动化”带来哪些影响？为了回答这些问题，硅星人“未来科技力100人”系列专题策划了一场直播对话，专门邀请实在智能创始人CEO孙林君、来也科技CPO褚瑞、李未可科技合伙人古鉴三位嘉宾共同探讨AI大模型端侧部署，及其如何影响超自动化有关的一切。

大语言模型为何进行“端侧”部署？

来也科技是数字化劳动力领军品牌，凭借其大语言模型赋能自动化解决方案构建的软件机器人，代替人工完成枯燥、重复性高的工作，解放生产力，帮企业解决数字化转型挑战扩大数字化劳动力规模。

来也科技CPO褚瑞为我们分享大语言模型“端侧部署”的四个认知，以及“云端大模型+端侧小模型”的部署优势：

我们在“端侧部署大语言模型以及端侧大语言模型如何驱动超自动化”方面有以下观点。第一个，大模型驱动的超级自动化应用场景非常多，在实践过程中，我们发现很多大模型驱动的超自动化项目，把它做到70分非常简单，因为现在市面有很多开源工具。

但要从70做到90分，它的难度就会突然增加，就会出现很多难以处理的问题。比如说，一个程序员如何通过一条指令去生成一段程序代码，仅仅在这个事情上，我们就发现这里面有很多很多难点。

第二个认知，我们发现小模型经过微调以后，能够在某些能力范围上媲美大模型。当然小模型，它只能在一定的能力范围内起到作用，肯定做不到全能。第三点，大模型加云端模式到底有什么样的应用，或者说大模型加小模型在云端模式有什么应用呢？

在这种场合下，大模型加小模型在云端可能是容易落地的。或者说，可能是会产生应用场景的：第一个场景大家容易想到的数据隐私。

我的数据不想传到这种云端大模型上怎么办？这是非常常见的一个想法，在这个时候，我可能需要一个在端侧部署的一个小模型。这种情况下，一个端侧部署的小模型，就能把我的任务完成。

第二个应用场景，可能是一些离线场景。比方说，我突然不能上网了，或者说，当我的手机在一个没信号的地方。

在这种离线场景，用云端部署的大模型加端侧部署的小模型。也是可以去相得益彰的。这样，即便在离线的情况下，也是能够取得比较好的效果。最常见的场景就是，我在国外去旅游的时候，我去翻译一下，国外很多地方信号部署不如我们国家好，所以经常出现没信号的情况。那在这种场景下，就需要端侧部署小模型

关于端侧部署的第四个认知，我们发现其实大模型，它的响应时间很长。如果它的响应时间变长，这样就使得我们，看起来一些很有意思应用，受到时间的制约，而变得很难落地。

比方说推理能力、思考能力、决策能力。它需要人们反复和大模型交互，如果一次交互动不动就需要好几秒钟的时间。这样十几次交互下来，这个时间就长到很难让人接受了。等他推理完决策完，很多时候我们处于一个紧急情况，当我们迫切需要知道答案的时候，大模型迟迟不给反馈，几分钟过去了，黄花菜都凉了。

所以我们认为大模型的响应时间，也是一个非常影响它落地的一个重要因素。这个时候呢，如果有一个小模型，他就部署在我的本地，他的响应时间，会远远快于在云端部署的大模型。本地部署的小模型凭借着它的快速响应，会给我们带来许多便利。

但是我们在云端部署的大模型，它会有它的应用场景的，在云端部署的大模型，我们更强调它的推力和决策能力，还需要端侧部署，帮助它去落地。部署在云端的大模型，负责帮助我们决策、思考、推理。而在端测部署的小模型，可以帮助我们去执行

大语言模型“超自动化”如何应用？

实在智能是一家通过自研AGI大模型＋超自动化技术，领跑人机协同时代的人工智能科技公司。作为中国AI准独角兽和RPA行业头部企业，超自动化解决方案提供商，实在智能结合国产全自研的AI技术与RPA产品，助力政府企业实现数字化改革和转型升级。

实在智能创始人CEO孙林君从“数字员工解放企业生产力”的角度为我们分享大语言模型“超自动化”在现实当中的应用：

实在智能坚持技术创新和产品迭代，曾先后发布三代RPA软件，具备高度的易用性和稳定性。其中，第二代“点选用”IPA模式、第三代“所说即所得、你说PC做”的RPA-Agent智能体产品在全球范围内实现技术超越和赛道领。

说到大模型超自动化在现实当中的应用，以实在智能为例。

实在智能创办以来，就以为全社会贡献100万个数字员工为使命。我们为未来所描绘空间就是，各种各样的数字员工在千行百业去赋能。而数字智能员工，它们和人之间，是一种人机协同关系

数字员工最开始的形态，是解决人工作当中重复琐碎的工作。随着人工智能的发展，数字员工能称为“员工”，是因为它也有这种智能化的特性，它可以代替人去做一些思考，代替人去做一些决策，它也可以学习人的经验。从人工智能发展的角度来看，未来数字员工，它也一定会走向“智能体”

这些“智能体”有独立思考能力，它可以通过各种各样的方式，代替人类去进行决策，或者代替人去完成某些特定的工作。所以从业务视角上看，我们就可以把这些“智能体”叫做数字员工——它不仅可以思考，还可以行动，而且可以帮助我们去解决一些问题。

但大模型并不是一个纯粹的产品，它是个离产品差一步的东西，当然它也能代替人去思考，但它能够去帮助人解决问题吗？

它如果能够帮助人解决问题，那它就需要有对任务的规划能力，就需要有记忆能力，需要有使用工具能力，也需要有逻辑推理能力。只有这些能力集中在一起，才会让大模型显得像一个智能的人。

所以这就引出了AI Agent智能体这个概念。比尔盖茨前几天也讲了未来我们跟计算机的交互方式转变。其实这里面有一个隐含的逻辑——随着大模型的出现，随着“AI Agent智能体”的出现，我们人类跟操作系统做的这些交互，可以变得更简单，也可以拥有无限可能。“AI Agent智能体”能做的事情，相当于一个人能做N个人能做的事情，并且效率可能更高。

那我们简单看一下AI Agent智能体的这个框架，首先需要有角色概念，它扮演什么角色？是开发人员，是数据分析师，还是人类助理。

当它能够扮演这些角色，它就需要有一定的技能，而它这些技能其实就是它的一些任务。它这些任务是可以经过大模型的推理去做拆解的。而它的知识会被存在短期和长期记忆里，随时可以被调取。

比方说，我是财务人员，我有很多财务知识，同时我对我的工作流程非常熟悉。我把这些构成了记忆，当智能体要干一件事的时候，比方说财务人员要完成对账，那么它就需要使用一些工具解决问题。

这里就涉及到大模型“使用工具”的能力，然后另外一方面，它又能够对这个环境有所感知，这样才能够不断决策下一个步骤需要做什么。所以这里面不仅包括职责扮演，还包括逻辑推理，还包括工具使用，以及学习能力、记忆能力，这些构成了“智能体”的能力框架。

数字员工就是大语言模型“超自动化”在现实当中应用的例子。

来也科技CPO褚瑞从“逻辑推理”角度为我们分享大语言模型“超自动化”在现实当中的应用：大语言模型推理和角色能力是非常具有想象空间的，我们简单盘点一下，这些能力跟超自动化是如何结合的呢？

其实这里面有很多很有意思的场景。举个例子，比如说，当我们进行文本提取的时候。什么叫文本提取呢？就是我给你一张照片，然后你把这张照片里的关键字段，按照我的需要，给我提取出来。

文本提取原本是个非常简单的问题，不需要大于模型就可以做得非常好。比方说提取发票内容，我们国家的发票样式是高度统一的，所以内容就比较容易提取。但如果到国外，海外发票样式各不一样。

比如说在这张毕业证书里面，出现了一个姓名叫褚瑞，还出现了一个姓名叫温希森，那到底持证人是褚瑞还是温希森的。它并没有一个锚点。当你需要提取日期的时候，你可以看到，这里有一个1979年的日期，还有一个2008年的日期，到底该提取哪个日期呢？

像这些内容的提取，都是需要进行逻辑推断的，这在以前很难做到。但是在今天，基于大模型就可以非常轻松把关键词段提取出来。

还有一个例子，比如说我们经常看到有餐馆有预定电话机器人。当你把电话打过去以后，是机器人接的。这个机器人能帮你做一些简单操作，比方说简单的订餐。但是这个订餐操作，以前做的不是特别好，不是特别好的原因，是由于人说话有时候并不是那么有条理的。

人的自然语言是没有条理的，人说话如果表达非常正规，比方说我要定什么样的座位、定多少人，当把一切表述的都非常有条理的时候，机器人都可以做到，如果人说的稍微有点颠三倒四的时候，机器人就做不到了。那今天大圆模型出现以后呢，在使用不太有条理的自然语言的场景下，机器人也可以很好的为客人提供预定服务。

比方说，当机器人询问订餐时间，这个打电话的人可能不会按照机器人提问顺序来，他会先说我们有7、8个大人，还有2个小孩，最后再说订餐时间是明天晚上。在这个时候，机器人就要作出判断7、8个大人是什么意思。是78个大人吗？总共多少人？怎么推断出来呢？

这是以前客服机器人非常难推理的一点，但是今天，具有推理能力的AI大模型就能很好的推断出来。

这是对话生成这方面，但是大语言模型它的能力，除了自然原处理，还有编程语言处理能力。这方面主要就是，可以给它一个相关的使用命令。它能够根据我们的这个要求去生成一段程序，并且让这段程序能够自动帮我们做一件事情。解决的是今天我们做RP产品。

它有一个很大的痛点，这个痛点就在于它在每个客户都需要重新部署，重新开发，因为每个客户的业务流程不一样。但是AI大模型能根据不同客户，去自动进行改善，去适应客户的业务流程。

目前我们看到了很多场景，但在这些场景里面，都是我命令一下，大模型去执行一下，我命令一下，大模型去执行一下，这些都是人跟大模型进行的单步骤交互。但如果说真的是类似智能管家这种的Agent，当我能把我要求提出来以后，智能管家就能够自动拆解任务，然后自动根据我拆解的任务进行执行的话，目前还不成熟。

大模型“端侧”部署

对AR行业有什么影响？

李未可科技是一家基于AI前沿技术研发下一代智能交互平台的企业。

企业围绕 “ AI+AR ” 战略，先通过打造基于自研 AI Agent 打造的李未可 AI 家族数字人IP，又于2022 年至2023年陆续发布了搭载了 AI Agent 智能决策助手的李未可 AR 户外眼镜Meta Lens S1、Meta Lens S3，希望通过垂直场景的培育，让用户真正的感受到 AI Agent + AR 所带来的更为便捷、高效的生活方式。

李未可科技合伙人古鉴从AR行业出发分享大模型“端侧”部署带来的影响以及在行业当中的应用：我分享一下大模型“端侧”部署对AR眼镜行业影响的看法。AR眼镜行业可能会分成两条赛道，一条赛道主攻室外应用场景——可能会在旅游、户外出行、本地生活领域，给大家提供一些信息展示，以及给人们带来一些助手式的“问答式”反馈。

另外一条线路偏VR、或者是MR的。它可能更倾向于室内应用场景，比如游戏、影视、等等。很多就是比如说现有的一些AR眼镜，可能走的都是这条路。在这两个方向的基础上，我们会把我们研发的AR眼镜做到极致轻薄，然后用AI来加持它的交互系统。

让用户可以在室外能够长时间佩戴，除了运动，还有其他应用场景，包括旅游、出行、本地生活。这都是我们的主要应用场景，那我今天主要跟大家分享一下AR眼镜在旅游场景内的应用。

端侧大模型结合AR眼镜在旅游场景的应用上，其实有三块趋势：第一块趋势在于人们的兴趣，人们可能更倾向于去小众独特的景点，喜欢未知惊喜，喜欢景点深度探索，比如说挖掘当地文化。所以我们的AR眼镜，就拓展了一个叫做citywalk的核心功能。

比如说，用户可以去问周边有什么吃的、周边有什么好玩的。所以我们通过很自然的交互来让用户达到深度游览的目的。

这块是我们的核心，这个核心不仅包括数据的内容、核心的功能，还包括核心体验数据、数据内容我们包括，比如说，景区核心数据供给，包括小众特色的景点路线，还有当地美食的一些信息的收集。

还包括路线生成、周边推荐、游览攻略以及路线推荐。比方说，你走在哪，他就给你介绍相关景区的一些信息。那这么多功能其实都是由大模型或AI去串起来的。AI大模型在整个交互体验中，起到非常重要的作用。AI大模型帮助用户去跨越所有的app进行内容搜索。

比如说我可以通过AI去调用地图、去调用美食、去调用住宿。AR眼镜可以更方便的去帮你记录，记录你的视频、记录你的照片。AI大模型可以帮助用户的把指令和意图更好的分发到指定功能里面。

第二个其实是垂直大模型里面，对内容进行加工和整理，主要是内容供给方。第三块我们认为是非常重要的，关于大模型检索生成。

谈及“基于嵌入式设备的多模态AI大模型将进一步推动AI落地”，李未可科技合伙人古鉴给我们分享了他心目中的AI助手的应用：

前两天Google发布了新视频，在Google新发布的视频里，展示了这样的功能：比如说你发很多手势，大模型就可以跟你互动，告诉你做什么样手势，或者对你的手势，给你一些反馈。

我觉得这个跟我们眼镜的应用场景是很贴合的。就是说，当你以低视角方式看见一些图片、看见一些信息的时候。它就会给你给你一些反馈，这样你可以围绕着这个信息去进行提问。

我觉得这个核心场景可以应用在很多方面，比如说教育场景，当小孩学习的时候，比方说学生在物理课上，你如何不断去做一些东西。比如说，我的小孩喜欢玩一些手工东西，这样你可以通过这个设备，可以去不断跟它进行交互，然后它可以给你一些反馈。在这种情况下，整个使用场景，就会觉得非常有价值，也非常有意思。

但我也是觉得云端部署的大模型，可能远远达不到这种交互非常自然情况，无论是反馈时间，或者是推理时间等等，就是因为它是动态模型，如果想要速度反应比较快的话最好也是在端侧部署。

我个人是觉得，明年在针对大模型的端侧部署方面，会有非常大的起色，大模型端侧部署也会加速整个AR眼镜产业的发展。

大语言模型“超自动管家”

何时实现？

谈及“未来端侧AI超自动化的发展”，来也科技CPO褚瑞给我们分享了他心目中“贾维斯式”的综合智能管家，何时能照进现实：

我们所看的电影《钢铁侠》当中“贾卫斯式“综合式智能管家现实当中何时出现？我觉得如果在端侧的话，可能时间会比较久。如果云端结合起来让云侧去做推理执行的话，那可能会是在未来两三年。

这种综合智能管家，它经常解决的一问题，是我们在就是日常工作当中所遇到的一些触发性的问题。所谓触发这个问题，是说我们其实很多时候做超自动化。超自动化解决的是一个企业内部的一个历程，这个历程意思就是他已经被提前规划好了，触发性问题并没有被提前规划好，是临时的、突发的，突然出现一个意想不到的需求。

这种需求特别需要一个智能管家来帮我去完成了，比如说做PPT的时候，我要从这边摘十行，在那边复制一行或者粘贴一下，这样不停的复制一行粘贴一下，我自己都觉得很烦。但这时候如果这有个像贾维斯式的智能管家，我只需要告它一声，请它帮我把这些做一下。

你拆解推理完之后，帮我把这事做完就可以，但是今天看起来，我觉得这样基于云端的工具，可能会在两、三年内可能出现。极端的话那可能就时间会远一点，因为确实今天端侧确实都是小模型。而这些功能的实现，不仅依托云端，还要依托芯片的强大的计算能力。

大模型端侧落地，扩展超自动化边界

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

大模型不需要眼前的共识

蚂蚁技术日首次对外开放，各种大模型应用看花了

OpenAI宣布已启动下一代前沿模型训练 AGI愿景变得更加务实

五大AI聊天机器人盲测！ChatGPT未能夺冠，最终赢家竟来自这家“小公司”

“离谱的AI扩图”火了！张张那叫一个出其不意

清华、华为等提出iVideoGPT：专攻交互式世界模型

钛媒体首发 | 哈工大系科技公司推出若愚·九天机器人大脑，已完成多智能体验证

技术吹得再强，离用户不近有何用？

2024投什么？先来看看人形机器人吧｜钛媒体创投家

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

一哄而上，打不赢美国高科技

员工正在上班，老板却“跑路”了

杭州不限购后河南购房者花2300多万3天连买8套房

15号会把菲律宾的坐滩舰拖走吗？看海军这艘战舰的做法就知道了

字节掀桌，和BAT赌明天

不允许起火爆炸，动力电池新规来了

乌议长：泽连斯基将担任总统直至选举产生新总统

这事儿｜选调生不满嘉峪关，官方确认其已离职

大模型端侧落地，扩展超自动化边界

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

大模型不需要眼前的共识

蚂蚁技术日首次对外开放，各种大模型应用看花了

OpenAI宣布已启动下一代前沿模型训练 AGI愿景变得更加务实

五大AI聊天机器人盲测！ChatGPT未能夺冠，最终赢家竟来自这家“小公司”

“离谱的AI扩图”火了！张张那叫一个出其不意

清华、华为等提出iVideoGPT：专攻交互式世界模型

钛媒体首发 | 哈工大系科技公司推出若愚·九天机器人大脑，已完成多智能体验证

技术吹得再强，离用户不近有何用？

2024投什么？先来看看人形机器人吧｜钛媒体创投家

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

一哄而上，打不赢美国高科技

员工正在上班，老板却“跑路”了

杭州不限购后 河南购房者花2300多万3天连买8套房

15号会把菲律宾的坐滩舰拖走吗？看海军这艘战舰的做法就知道了

字节掀桌，和BAT赌明天

不允许起火爆炸，动力电池新规来了

乌议长：泽连斯基将担任总统直至选举产生新总统

这事儿｜选调生不满嘉峪关，官方确认其已离职

杭州不限购后河南购房者花2300多万3天连买8套房