AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者肖镇中是德国马克思普朗克-智能系统研究所和图宾根大学的博士生,Robert Bamler 是图宾根大学机器学习方向的教授,Bernhard Schölkopf 是马克思普朗克-智能系统研究所的所长,刘威杨是马普所剑桥大学联合项目的研究员。

打开网易新闻 查看更多图片

论文地址:
https://arxiv.org/abs/2406.04344

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

图 1:VML 的训练算法。

打开网易新闻 查看更多图片

图 2:VML 中模型和优化器的自然语言模版样例。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

图 3: VML 在多项式回归任务中的训练过程记录。

非线性二维平面分类

打开网易新闻 查看更多图片

仔细观察第五十步后的模型参数,我们可以看到加了归纳偏置的模型描述中包含了很多与肺炎相关的医学词汇,比如「感染」、「发炎」;而没有加归纳偏置的模型描述中只有对肺部 X 光片的特征描述,比如「透明度」、「对称」。

同时,这些模型所学到的描述,都是可以被具备专业知识的医生验证的。这种可解释和人工检验的机器学习模型在以安全为重的医疗场景下十分有价值。

打开网易新闻 查看更多图片

图 5: VML 在 PneumoniaMNIST 图片二分类上的训练记录。

结语

该文章介绍了一种基于大语言模型的机器学习新范式 Verbalized Machine Learning (VML; 言语化的机器学习),并在回归和分类任务上展示了 VML 的有效性和可解释性的特点。