仍有生命力的CLIP，训练过程如何？

CLIP是美国OpenAI团队的一项技术专利，凭借技术实力和无私开源，蜚声技术圈。它在图文方向上颇有进展，一举奠定了图文模型领域的第一块地基石。

虽是“陈年”论文，但时至2023年，它仍有生命力。

这张图展示了 CLIP 模型的训练过程。
图中的左侧是图像编码器，它将图像转换为一个向量表示。图像编码器使用了 Transformer 架构。
图中的右侧是文本编码器，它将文本转换为一个向量表示。文本编码器也使用了 Transformer 架构。

按道理图中的中间是投影矩阵，它将图像和文本编码后的表示映射到同一个空间。但是图中没有单独画出来，含在两个encoder里面了，I和T是投影过的特征向量。
CLIP 模型的训练目标是最大化正确配对（图像和文本匹配）的相似度得分，同时最小化错误配对的相似度得分。
具体来说，训练过程如下：

1.从一个大型图像-文本数据集中随机抽取一张图像和一句话。
2.用图像编码器将图像转换为一个向量表示。
3.用文本编码器将句子转换为一个向量表示。
4.使用投影矩阵将图像和文本编码后的表示映射到同一个空间。
5.计算图像和文本表示的相似度得分。
6.如果图像和文本是正确配对的，则增加相似度得分。如果图像和文本是错误配对的，则减少相似度得分。
7.重复步骤1-6，直到模型收敛。

通过这种训练方式，CLIP 模型能够学会将图像和文本之间的语义联系映射到相似度得分上。

CLIP 最大的亮点之一，能够将不同模式的数据，也就是文本和图像数据，映射到共享向量空间。这种共享的多模态向量空间使“文本到图像”和“图像到文本”的任务变得更加容易。

也就是融合训练。

（完）

《我看见了风暴：人工智能基建革命》，作者，谭婧

仍有生命力的CLIP，训练过程如何？

从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

大模型也有小偷?为保护你的参数,上交大给大模型制作人类可读指纹

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

ChatGPT真能记住你的话吗？DeepMind与开源大佬揭示LLM记忆之谜

爆火ChatTTS突破开源语音天花板，3天斩获9k的Star量

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

解决Transformer根本缺陷，CoPE论文爆火：大模型都能巨大改进

一个人最了不起的能力：内核稳定

首个智慧城市大模型UrbanGPT，全面开源开放｜港大&百度

内需外需难以改善，五月经济景气继续回落，制造业重回收缩区

信仰已经崩塌，大多数人只是活着

从零手搓MoE大模型，大神级教程来了

8枚海王星全命中，S-400没用，乌军以后干脆用反坦克导弹

C罗哭成泪人！从世界杯到沙王冠，两年败给同一人，已3年无冠

90年我开餐馆，房东看生意好把二女儿嫁给我，现在大女儿找上门

曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

100%的高兴

上门女婿被欺负离家出走，妻子和岳娘哭着挽留：我们需要你

俄罗斯已成为世界第四大经济体

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD