“天猫精灵之父”创业打造「鼻尖上的GPT」，扫射豆包、Kimi盲区

智东西
作者三北
编辑漠影

拥有一款“鼻尖上的GPT”是一种什么体验？

近期，杭州李未可科技公司推出了首款AI眼镜Chat，支持用户通过语音与眼镜中的智能助手进行交互，比如答疑解惑、日程安排、语音导航、英语翻译等，都不在话下。

同时，这款AI眼镜背后的多模态AI大模型平台WAKE-AI也随之开放。据悉，这是国内首个面向AI眼镜等可穿戴设备的大模型平台，既支持李未可科技内部团队做开发，同时也为广大AI开发者伙伴提供技术共享。

当下，市面上已经有豆包、Kimi等多款支持大模型语音交互的平台，但它们大多以匹配PC、手机为主；WAKE-AI则率先切入AI眼镜这一新形态，试图为用户带来更自然的交互、更人性化的陪伴、更场景化的精准服务。

李未可科技创立于2021年10月，创立之初便聚焦“AI+AR”眼镜赛道，公司成立仅三个月便拿下字节跳动的融资，其创始人茹忆曾是阿里AI实验室智能终端负责人、天猫精灵硬件&产品总经理，也是这波大模型浪潮中最具代表性的创业者之一。

▲李未可科技创始人兼CEO茹忆

当下，随着Ai Pin、Rabbit R1等AI新硬件产品在国外崭露头角，掀起大模型智能终端的新风口，国内“天猫精灵之父”带队的新锐团队也交出了答卷，成为智能硬件产业关注的一个焦点。

AI智能眼镜是否会成为一种主流的AI新硬件?面向“AI+终端”的多模态AI大模型平台WAKE-AI有什么过人之处？通过对话李未可科技创始人兼CEO茹忆、AI首席架构师庄博宇，本文对此进行了深入探讨。

一、在豆包、Kimi的射程盲区，打造“鼻尖上的GPT”陪伴助手

尽管豆包、Kimi等各种大模型App风靡手机端，但它们却迟迟未攻入智能眼镜等可穿戴设备。

背后的一大“拦路虎”是时延问题。庄博宇告诉智东西，用户在眼镜上对机器时延的容忍度比在手机上更低，1.8秒是一个容忍时间，如果超过这个时间点，用户就会感到交互不流畅自然。然而，包括豆包等市面上的多个大模型落地眼镜都需要5秒左右。

为此，李未可科技自研了WAKE-AI大模型平台，试图为用户打造一个随叫随到的“鼻尖上的GPT”陪伴助手。

据悉，该平台专门面向可穿戴设备等终端优化研发，能在500毫秒内快速精准地识别用户指令，且将大模型实时回答反馈控制在2秒左右，具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。

从体验来说，这意味着用户将可以在AI智能眼镜上享受到自然流畅的AI交互，比如让眼镜搜索新闻、导航目的地或增加日程，都不会太费功夫。AI智能眼镜可能取代手机的部分功能，让用户真正体验到AI融入生活。

“技术的一小步，用户体验的一大步。”茹忆说。从2016年3月阿尔法狗打败李世石到2022年的12月份ChatGPT 发布，中间经历了六年六个月时间，AI算法架构从CNN、BERT改进到Transformer，模型参数扩展带来智能涌现，茹忆对此感到很兴奋，认为这将为语音交互体验带来巨大提升。

与在上一波AI浪潮中押准智能音箱风口不同，这一次，茹忆认为，眼镜将成为AI落地的最佳载体之一。这与Meta首席科学家、图灵奖得主杨立昆的观点不谋而合，杨立昆在前不久也曾提到：“通过智能眼镜访问的AI助手是未来的趋势。”

面向这一趋势，李未可科技近期推出的AI智能眼镜Chat是其小试牛刀之作。

以低至699元的价格让用户低门槛地迈入AI体验大门，Chat可以说非常亲民。这款AI眼镜的外形与日常佩戴的眼镜几乎没有差异，但简约却不简单，一个贴身陪伴助手的雏形已经出现。

二、自研WAKE-AI大模型平台，三大技术护城河打造交互新体验

可以预测，大模型未来将重新定义智能眼镜等可穿戴设备。可穿戴设备将不再只是工具，而是好像有一个真人助理在用户旁边，或者一个虚拟人在用户鼻尖上的眼镜里，帮用户解决各种复杂的问题。

WAKE-AI大模型平台推出的意义，则是将大模型运用到AI硬件设备上的诸多畅想落地实际，不仅实现更自然的交互，还带来更人性化的陪伴，更精准的服务。

那么从技术角度来看，WAKE-AI大模型平台究竟有什么过人之处？

据悉，李未可科技通过三种方式提升WAKE-AI大模型平台的效果：

第一，使用定向优化的分发大模型，帮助AI助手能快速地分发用户的指令，打造更自然的交互。

第二，基于情感大模型，使用户和设备产生深度信任，让AI助手形成更有温度的陪伴。

第三，针对室外场景需要大量的数据，使用多模态的VQA（视觉问答）模型，让用户可以指哪问哪，获得更精准的服务。

1、分发大模型+Agent，让交互更自然

作为一款C端产品，AI智能眼镜的交互体验被李未可科技放在首位。WAKE-AI大模型平台能提供更丰富的交互功能，同时耗时比同行更低。

庄博宇谈道，比如当用户与豆包语音聊天，往往需要2秒才能完成语音交互，时间主要花在语音与文本相互转化及大模型推理上。但这一交互体验仅限于聊天，而不能执行网络搜索、导航等更复杂的任务。

但是，基于WAKE-AI大模型平台，用户在AI智能眼镜上调用大模型的时延大大降低，一般对话时延控制在1.8秒左右、2秒以内；同时，用户还可以体验主动搜索、语音导航、眼镜操控等多样化的功能，复杂的交互反应也能缩短至3-5秒。

背后，李未可科技团队使用分发大模型，通过语音输入来快速分发用户意图，为用户提供反馈；同时，大模型支持不同的AI Agent的能力，能快速执行用户的导航、买票、备忘录等可能存在的刚需意图。

此外，团队也在降噪技术、收音、ASR（自动语音识别）技术等方面也做了大量优化，从而使得用户能与智能助手更丝滑地进行交互。

2、情感大模型+超拟人TTS，让陪伴更人性化

茹忆和庄博宇都提到了《她》（Her）这部科幻电影，片中的机器人由于与主人公建立了情感连接，从而能进行更有深度的聊天和陪伴，这是李未可科技希望打造的智能助手的一个理想形态。

基于这样的愿景，李未可科技与市面上同行的一大差异化是做情感搭配。

为了让AI眼镜产品具备更拟人化的特征，李未可科技团队一是基于情感大模型研发了长记忆系统、情感类的Agent，二是打磨了拟人化的TTS（文本转语音）技术，以此打造用户能够天天使用AI智能眼镜的核心基础。

在情感大模型方面，对标国内外的Claude等相关模型，庄博宇及其团队发现了一个行业核心的问题：大模型的记忆力是有上限的，不利于长时间陪伴用户。

为此，李未可科技团队通过核心记忆和长期记忆，不断更新用户的画像，从而使得智能助手在对话中能够更充分地理解用户想要什么，更懂用户。

而在打造拟人化的语气方面，目前市面上能上线情感表述的文本转语音TTS能力的厂家并不多，因为它有一个延时的考量，AI抽取、理解和表述会耗费大量的时间，所以速度上面需要优化；第二是成本上的优化，比如豆包虽然在App上能够提供情感表达，但它并没有把这个API能力开放出来，智能终端厂商无法获取。

但是，李未可科技率先将超拟人TTS上线，把它轻量化到时延和成本都可承受的范围，然后开放出来，供自己的团队和合作伙伴使用。

3、多模态+LBS能力，让服务更精准

多模态大模型+LBS（基于位置的服务）会产生什么样的化学反应?

李未可科技已经找到了验证场景。Citywalk（城市漫步）是当下备受年轻人青睐的室外项目，多模态大模型可以让Citywalk的人做到“指哪儿问哪儿”，比如指着岳王庙里的碑问“碑上写的到底是什么”，一套精准的智能导览服务就诞生了。

据悉，李未可科技已经打造了“旅游助手+城市漫游系统”，核心是数据内容，以景区作为核心供给，现在大概有2000多个景区数据。

结合这些景区数据，团队已经打造了景点游玩导览、自动巡航系统、地点弹幕等多个服务，而多模态大模型的加持则让“指哪儿问哪儿”、自动生成路线、自动生成游记等更多丰富功能涌现，从而为用户提供更精准的服务。

庄博宇告诉智东西，大模型使得原本碎片化的场景走向大一统，从而使精准服务的成本大大降低。一方面，WAKE-AI大模型可以更好地理解和消化海量的景区数据，另一方面，Agent可以对数据进行更加自动化地处理，这使得团队能够在精准度和信息数量基础上提供更好的服务。

可以看到，通过从模型了解意图、搜索资料、转化风格、分析情绪、转化声音的各个环节去做优化，李未可科技试图打造交互更自然、陪伴更人性化和服务更精准的AI眼镜设备，从而交出其大模型应用创业的“答卷”。

三、Meta苹果看中的新赛道，“天猫精灵之父”带领国产抢跑

当下，已经有不少大厂盯上了“AI+AR”眼镜赛道。比如Meta与雷朋合作的AI智能眼镜已经在测试多模态大模型，并在近期宣布将推出首副“AI+AR”眼镜；苹果近期也传出正研究端侧大模型，可能将落地Vision Pro……

与此同时，也有一些知名企业似乎在抽火。比如近期OPPO被传出了暂停XR探索，相关人员将转向AI设备方向的开发，或许意味着其“AI+XR”眼镜业务踩下了刹车。

对此，茹忆认为这是由于产业发展仍处于初级阶段，大家还未形成共识。这就考验创业者对事情的认知，以及如何与自身优势做结合。

站在李未可科技的角度来看，“AI+AR”眼镜的发展已经处于一个临界点，即将突破用户体验差，为此团队进行了积极布局。

李未可科技打法的一大特点是不强行创造出一种产品形态，而是在已存在的产品上进行AI升级，从而在存量市场基础上拓展出新的增量市场。根据知名数据分析机构Statista数据，2023年全球眼镜市场总规模超1400亿美元，2015-2025年全球眼镜市场规模从1183 亿美元提升至1552亿美元。

“未来我们的眼镜都会智能化，就像手表智能化一样。”茹忆说，“它的标志是体验成本大大降低，用户买一副AI智能眼镜和买一副传统眼镜价格也差不多，那为什么不买一个AI智能眼镜？现在手表就是这样。”

AI智能眼镜市场的发展壮大需要生态共融。目前，李未可科技已经将WAKE-AI大模型平台面向伙伴开放，与伙伴一起来建设AR眼镜+AI能力、在室外等多个场景的生态。

结语：大模型卷入设备端，AI智能眼镜或成室外最佳载体

当下，大模型加速落地端侧，我们可以看到AI PC、AI手机、AI智能眼镜以及各色的AI新硬件如雨后春笋般冒了出来。凭借便携、可扩展等多重优势，眼镜或许成为大模型在室外落地的一大最佳载体。

现阶段大模型在端侧落地应用仍处于初级阶段。可以预测，未来云边端异构架构将发展得更加庞杂，同时多模态交互变得更加丰富，这对速度、性能和成本的平衡会提出新的要求，也将成为AI硬件赛道玩家需要直面的新挑战。

“天猫精灵之父”创业打造「鼻尖上的GPT」，扫射豆包、Kimi盲区

腾讯元宝评测出炉！与字节豆包各有千秋，这事儿略遗憾

2024怎么活，AI还是AO（熬）？

大疆前高管带6人创业，做出了类目Top1的割草机器人

速腾聚创高级副总裁魏永刚：人形机器人存在三大技术难点：通用模型、数据和硬件成本丨新质生产力·AI Partner大会

对话Arm终端产品副总裁：当生成式AI与Arm的DNA相契合，会擦出怎样的火花？

国产大模型第一波应用已经落地：搜索与情感陪伴赛道崛起！

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

“离谱的AI扩图”火了！张张那叫一个出其不意

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能

对于孙颖莎王楚钦有自己的标准。莎头关系延续，全靠王楚钦拿捏

一哄而上，打不赢美国高科技

C罗哭成泪人！两年败给同一人，已3年无冠

曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

余承东再放豪言：特斯拉 FSD 入华后，华为智驾有信心干翻对手

美国H-1B工作签证持有人注意了，“AI限制令”影响合法身份！

保定一商场三楼以上全装上网，抬头望去密密麻麻！

3-2！陈梦险遭爆大冷，决胜局1-6落后绝地翻盘，16岁小将太惊艳