人工智能研究所AI

人工智能研究所AI

网易号

关注
765粉丝
18关注
62被推荐
IP属地:山东

10枚勋章

python人工智能领域分享

  • CNN卷积+Transformer打造DETR视觉模型

    2024-04-30
    图片
  • 鼓吹开源无前途,Meta却开源了Llama 3模型,无需注册在线即可使用,谁说闭源才是大模型的出路,Meta AI开源了自己的Llama 3大模型,最大参数4000亿
    Meta AI一直是人工智能领域开源领域的领导者,一边是OpenAI鼓吹闭源才是人工智能大模型的未来,但是Meta AI却开源了自己的Llama 3大模型,且Llama 3开源模型支持80亿与700亿参数,而未来更大的4000亿参数大模型还在继续训练中。其Llama 3大模型可以直接在Meta AI官网直接使用,且支持无需注册登陆即可使用,简直是开箱即用。 Llama 3是Meta AI开源的第三代Llama系列模型,其新的 8B 和 70B 参数 Llama 3 模型在Llama 2的基础上,实现了更大性能的提升。由于预训练和训练后的技术改进,其Llama 3模型是当今 8B 和 70B 参数规模的最佳模型。Llama 3模型的改进大大降低了错误拒绝率,改善了一致性,并增加了模型响应的多样性。Llama 3模型在推理、代码生成和指令跟踪等功能也得到了极大的改善。 Llama 3 中选择了相对标准的仅解码器 Transformer 架构。与 Llama 2 相比,Llama 3 使用具有 128K 标记词汇表的标记器,可以更有效地对语言进行编码,从而显著提高模型性能。为了提高 Llama 3 模型的推理效率,在 8B 和 70B 大小上采用了分组查询注意力 机制(GQA)。不得不说,transformer依然是大模型的天下。
  • 稀疏注意力集中的原理与应用
    2024-04-20
  • 7年来Google 首次更新transformer 模型,性能提升50%
    Mixture-of-Depths:动态分配Transformer模型中的计算资源。其实质也是一种transformer模型,但是提出了动态分配计算资源的问题,大大提升了50%的计算性能。传统的基于 Transformer 的语言模型在输入序列中均匀地分配 FLOPs(浮点运算次数)。MoD模型证明了 Transformer 可以学习动态地将 FLOPs分配到序列中的特定位置,并在模型的不同层级中优化序列的分配。MoD方法通过限制在给定层中可以参与自注意力和 MLP 计算的 token 数量来强制执行总计算预算。 MoD 的核心思想: 设置静态计算预算: 通过限制参与每个 block(自注意力层和前馈网络层)计算的 token 数量来控制总计算量。 路由机制: 使用路由器为每个 token 生成一个权重,表示该 token 参与 block 计算的优先级。 Top-k 选择: 选择权重最高的 k 个 token 参与 block 计算,保证计算图和张量大小保持静态。 MoD 的优势: 提高计算效率: 相比于传统 Transformer 模型,MoD 模型在每个前向传递中使用更少的计算量,从而提高了训练和推理速度。 保持或提升性能: 实验结果表明,在相同的计算预算下,MoD 模型可以达到与传统 Transformer 模型相当甚至更好的性能。 灵活的资源分配: MoD 模型可以根据上下文动态地将计算资源分配给更需要处理的 token,从而更好地理解输入序列。#动图详解Transformer
  • ChatGPT无需用户登陆网站,就可以任意使用了,这意味着任何人只要输入ChatGPT的官方网站,就可以直接使用ChatGPT。
    ChatGPT在2023年爆火的时候,很多人为了能体验一把ChatGPT费劲了脑汁。如何科学上网,如何注册ChatGPT账号,如何使用虚拟号接受注册验证码等等。使用一个ChatGPT,感觉像是一个十分复杂繁琐的工作。甚至很多人为了体验ChatGPT,而去购买一个ChatGPT账号。 现在无需复杂的任何流程了,OpenAI官方宣布,任何人无需注册登陆OpenAI的官方账号就可以直接使用ChatGPT了。登陆ChatGPT的网站,无论是否登陆了账号,都可以使用ChatGPT。 1. 也许是大模型的不断竞争,让ChatGPT也考虑如何更加容易使用。毕竟现在Google发布的Gemini以及开源的Gemana,还有mistral,Claude3等大模型的发布也抢占了一些份额,且很多模型直接对比GPT-4模型,并没有对比ChatGPT。 2. OpenAI一直想打造AI搜索引擎,若人人可以直接使用,是不是跟Google搜索一下,但是比搜索更直接,答案更明确。 3. 让用户升级GPT-4已经更高的模型,也许GPT-5模型也会在不远的将来公之于众。
  • Transformer能够有效地处理长距离依赖问题,主要得益于其自注意力机制。在计算序列中任意两个位置之间的关联时,Transformer无需考虑它们在序列中的距离,因此能够更好地捕捉长距离依赖。这种机制突破了传统RNN和LSTM在处理长序列时可能遇到的梯度消失或梯度爆炸问题,使得Transformer在长距离依赖关系的建模上更具优势。
    相较于传统的RNN和LSTM,Transformer还具有以下显著优势: 1. 自注意力机制:Transformer使用了自注意力机制,可以同时考虑输入序列中的所有位置,从而能够更好地捕捉长距离依赖关系。 2. 没有循环结构:传统的RNN和LSTM模型是基于循环结构的,存在梯度消失和梯度爆炸的问题,限制了其处理长距离依赖关系的能力。而Transformer没有循环结构,可以更好地处理长距离依赖问题。 3. 并行计算:Transformer可以进行并行计算,不同位置的信息可以同时进行处理,加快了训练速度。 4. 位置编码:为了补偿缺乏内在的位置信息,Transformer通过特殊的位置编码将序列位置信息加入到输入嵌入中,使得模型能够理解和利用位置之间的相对和绝对距离。 5. 扩展性:随着上下文长度的增长,RNN和LSTM的计算复杂性和内存需求会线性增加,而在Transformer中,尽管自注意力计算的复杂度是二次的,但通过各种优化方法和技术(例如稀疏注意力)可以缓解这一问题。#动图详解Transformer
  • Swin Transformer 是一种视觉 Transformer 模型,它是一种用于图像分类、对象检测和语义分割等计算机视觉任务的强大模型。由于VIT模型使用的全局注意力机制,无法把此模型应用到分辨率比较大的图片尺寸上,由于全局注意力机制在使用大尺寸图片时,其计算复杂度将会称指数增加,而Swin transformer 模型采用窗口注意力机制的方式,大大降低了模型的计算复杂度。
    Swin transformer 主要特点: 移位窗口注意力机制:Swin Transformer 采用移位窗口注意力机制,将图像划分为不同的窗口,并在每个窗口内计算注意力。这允许模型捕获局部和全局信息,同时减少计算成本。 CNN卷积结构:Swin Transformer 采用类似卷积神经网络的结构,将图像尺寸维度不断压缩,通道维度不断提高,有助于模型捕获更加细节的图形特征。 轻量级设计:与其他 Transformer 模型相比,Swin Transformer 由于采用窗口注意力机制,大大降低了计算复杂度,使其在资源受限的设备上也能高效运行。 由于窗口注意力机制的特性,可以把输入图片扩展到更大尺寸的图片,让模型能够处理更大的输入数据#动图详解Transformer
  • Vision Transformer (ViT) 是一种基于 Transformer 的深度学习模型,用于图像分类和其他计算机视觉任务。它结合了 Transformer 在自然语言处理中的优势与计算机视觉中的卷积神经网络(CNN)的优势。
    ViT 模型的核心思想是将图像分割成一个个固定大小的patch块,然后将这些patch块视为序列数据,并使用 Transformer 进行注意力机制的计算。通过注意力机制,ViT 模型可以捕捉到图像中长距离依赖关系,同时保持对局部特征的敏感性。 ViT 模型的架构主要包括以下几个部分: 1. 图像分割:将输入图像分割成固定大小的patch图像块,例如 16x16 或 32x32。 2. 线性投影:将每个patch图像块投影到一个固定维度的向量空间中,以便与 Transformer 的输入维度匹配。此过程便是embedding 的过程 3. Transformer 编码器:使用标准的 Transformer 编码器对图像块序列进行注意力机制的计算,以捕捉图像中的长距离依赖关系。这里是有12层的编码器。 4. 分类头:在 Transformer 编码器的输出上添加一个分类头,用于预测图像的类别。用于下游任务的最终输出。 ViT 模型的优势在于它可以捕捉到图像中长距离依赖关系,同时保持对局部特征的敏感性。这使得 ViT 模型在图像分类和其他计算机视觉任务中取得了非常好的结果。 ViT 模型的成功还证明了 Transformer 在计算机视觉中的潜力,并为未来的研究提供了一个新的研究方向。
  • Llama2,Gemma,Mistral等大语言开源模型都开源免费给大家使用,但是基于这些模型的使用都要操作一堆代码,操作之繁琐。基于ollama一键安装各大开源模型,且可以本地部署使用。告别繁琐的代码编程,不用联网,本地使用大语言模型。
    ollama是一个开源的第三方大语言模型使用插件,下载ollama后,可以很方便的使用Llama2,Gemma,Mistral等大语言开源模型。首先到ollama的官网,或者GitHub链接下载ollama进行安装,其ollama支持window版本,Mac版本,以及Linux版本,可以根据自己的电脑配置下载安装。 ollama支持主流的几十种大语言模型,可以直接使用ollama run + 模型的名字来运行,若本地没有下载过相关的模型,会自动下载,大大节省了操作的流程。
  • Anthropic AI发布了Claude 3大模型,一共发布了三个版本的模型,分别是Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,其中Claude 3 Opus是最大的模型,更加智能,但是API价格就越高。其Claude模型与GPT系列模型一样,是闭源的模型,若需要使用,需要购买API服务。若想使用免费的版本,可以使用Mistral Large大模型。
    Opus 和 Sonnet 现已可在 claude.ai 中使用,可以直接申请API进行使用。 Claude 3 Opus 是Anthropic最强大的模型,在很多人工智能测试基准上都优于其他模型,包括本科水平专家知识 (MMLU)数据库、研究生水平专家推理 (GPQA)数据库、基础数学 (GSM8K) 等。Claude 3 Opus在复杂任务上表现出接近人类水平能力,其很多基准任务已经超越了GPT-4模型。
  • 马斯克说若OpenAI更名为closeAI,其针对OpenAI的起诉讲会被撤销。很是显然马斯克针对OpenAI的创业的初衷有一定的质疑。但是无论如何OpenAI也无法更名为为close AI,其公司下的ChatGPT以及文生视频大模型Sora也不会开源。但是随着马斯克旗下公司xAI大模型的成功,其马斯克也兑现了自己开源的承诺,把3140亿参数的grok模型进行了开源。
    Grok 动力引擎便是grok-1模型,此模型拥有3140亿个训练参数。而GPT-3模型的参数是1750亿参数,差不多1.8倍左右。Grok-1 是一个由 xAI 从头开始​训练的 3140 亿参数混合专家模型。Grok-1 预训练阶段在 2023 年 10 月结束,这意味着该模型没有针对任何特定应用(例如对话)进行微调。grok在 Apache 2.0 许可下发布权重和架构 其模型是基于transformer的混合专家MoE模型。模型输入此表128*1024,输入序列长度为8192,embedding尺寸为48*128,多头注意力机制头数为48,一共有64层的解码器层,使用了8个专家模型,在选择专家模型时,使用2个专家进行结果的输出。#动图详解Transformer
  • Sora建立在DiT模型上(Scalable Diffusion Models with Transformers, ICCV 2023)
     "Scalable Diffusion Models with Transformers" 是一篇由 William Peebles 撰写的研究论文,其中提出了一种基于 Transformer 的扩散模型,用于生成高质量的图像。这种方法结合了扩散模型和 Transformer 的优点,实现了可扩展的高质量图像生成。 Transformer 是一种注意力机制的神经网络架构,最初被用于自然语言处理任务,如机器翻译和文本摘要。Transformer 的关键特点是其自注意力机制,它可以捕捉输入序列中不同位置之间的关系,后期也成功把transformer 的注意力机制应用到计算机视觉任务中。 在本论文中,作者提出了一种基于 Transformer 的扩散模型,用于生成高质量的图像。该模型通过将扩散过程分解为多个阶段,每个阶段都由一个 Transformer 来计算注意力机制。从而实现了可扩展的高质量图像生成。具体来说,该模型包括以下几个部分: 噪声分布:模型从一个简单的随机噪声分布开始,该噪声分布可以是高斯分布或均匀分布等。 扩散过程:模型通过一系列的扩散步骤将噪声分布逐步转化为目标数据分布。每一步都通过一个 Transformer 实现,该 Transformer 负责根据当前状态来预测下一个状态。 采样过程:模型通过反向的扩散过程从噪声分布生成新的样本。该过程通过一个 Transformer 实现,该 Transformer 负责根据当前状态来预测上一个状态。 损失函数:模型使用一个对数似然损失函数来训练,该损失函数用于最大化生成样本的对数似然。 该模型的主要功能是生成高质量的图像。通过结合扩散模型和 Transformer 的优点,该模型可以生成具有复杂结构和细节的图像,同时保持生成过程的可扩展性和稳定性。
  • 文生视频Sora,自然语言处理的ChatGPT或Bert,Gemini模型,计算机视觉的VIT,Swin等,几乎现在大的神经网络模型,都使用了transformer 模型的框架,到底transformer 模型做对了什么,让各大模型都使用transformer 的方法?
    Transformer模型之所以被包括Sora,ChatGPT,BERT,GPT及其后续版本在内的众多大型预训练模型广泛应用,并且逐渐渗透到计算机视觉等其他领域,主要原因在于其创新的设计解决了传统序列模型的一些关键问题,并展现出卓越的性能: 1. 自注意力机制:Transformer 模型引入了自注意力机制,使得模型能够在一个序列中同时关注不同位置的信息,从而提高了模型的表示能力和学习效率。这种机制使模型能够更好地捕获序列中的长期依赖关系和模式。 2. 并行计算:不同于循环神经网络(RNN)和长短期记忆网络(LSTM)需要按顺序处理序列数据。由于自注意力机制的特性,Transformer 模型可以实现全局并行计算,大大加快了模型的训练速度。 3. 可扩展性:Transformer 模型的结构简单清晰,易于理解和修改,可以方便地进行扩展和改进。Transformer模型由多个堆叠的自注意力层(Self-Attention Layer)和前馈神经网络层(Feed Forward Network Layer)组成,这种结构具有很强的模块化特性,可以根据任务需求调整层数、头数等参数,适应不同的应用场景。 4. 适应性:Transformer模型具有很强的适应性,可以应用于不同的任务和数据模态。通过调整模型的输入和输出方式,以及引入任务特定的组件(如分类层、解码器等),Transformer可以被应用于多种任务,如语言理解、生成、机器翻译、图像识别等。
  • Transformer模型解码器的输入,在进行神经网络训练时,为了保证神经网络不会提前看到未来信息,其模型提出了序列mask的概念
    在机器翻译实例上,我们在训练神经网络时,其输入模型的输入是一个单词,一个单词输入给神经网络的,比如我们要输入 人工智能四个单词,那第一次输入神经网络的是人,然后神经网络预测出工,然后把工传递给输入,第二次输入人工,神经网络预测出智,然后同样的道理,神经网络输入人工智,然后神经网络预测出能,这样,人工智能就被预测出来了 以上的操作可以查看动画教程,轻松了解其模型的实现过程#动图详解Transformer
  • Transformer模型这么火🔥🔥🔥,且在NLP自然语言处理上这么大放异彩,那是否也可以把transformer模型的注意力机制应用在计算机视觉领域哪?
    模型大一统,一直是人工智能领域研究的热点,随着transformer模型的火热,人们在想是否可以把注意力机制应用到计算机视觉任务。 计算机视觉领域一直被CNN卷积神经网络占领,无论是googlenet 还是resnet,都有CNN卷积的身影,那注意力机制应用在计算机视觉领域,代替CNN是否可以。 答案是肯定的,随着vision transformer模型的发布,让大家看到,注意力机制不仅可以应用在NLP领域,且同样可以使用在计算机视觉领域。让大家对模型大一统更有了信心。 那么vision transformer又是如何使用注意力机制来实现CNN卷积神经网络的效果呢?#动图详解Transformer
  • Google发布的多模态人工智能模型Gemini 1.5,在长上下文理解、运算效率和多模态输入方面取得了显著进展。该模型可支持长达1小时的视频、11小时的音频文件、30k行代码和700k多的文字的一次性输入,为人工智能应用提供了更广泛的可能性。
    多模态输入:Gemini 1.5支持文字和图片输入,甚至可以处理长达1小时的视频和11小时的音频文件。 长上下文理解:模型可以处理多达100万个tokens的上下文窗口,实现了迄今为止任何大型基础模型中最长的上下文窗口。 高效运算:通过Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4等研究,极大地提高了模型的运算效率。 应用场景广泛:模型可用于电影、电视剧制作,代码开发和文学讨论等多个领域。
  • Sora大模型使用到了vision Transformer 提出来的Patch embedding 操作。
    Vision Transformer(ViT)是一种基于Transformer架构的视觉模型,用于处理图像分类任务。传统的卷积神经网络(CNN)在图像分类任务中表现出色,但是ViT提出了一种全新的思路,将图像分割成小块(patches)并将每个patch作为输入序列,然后通过Transformer模型进行处理。 ViT模型的输入是一张图像,首先将图像分割成固定大小的patch,然后将每个patch转换成一个向量(patch embedding)。这个操作可以通过简单的线性变换(通常是一个全连接层)来实现,将每个patch的像素值展平成一个向量作为输入。 Patch Embedding: • 首先,ViT将输入的二维图像分割成多个固定大小的 patches(例如,通常为16x16像素的小块)。 • 这些patches被线性嵌入到一个高维向量空间中,每个patch可以看作是一个词或者token,与NLP中的单词嵌入相似。 • 对于每个patch,通过一个线性层(如卷积层或全连接层)将其转换成向量表示,并且可能进行一层位置编码(Positional Encoding),以便模型能够捕捉到这些patch在原始图像中的相对位置信息。 而Sora 模型不仅使用了VIT相关的技术,还使用了transformer 以及扩散模型。open AI把技术与实际应用相结合的能力需要佩服。
  • Stable diffusion 3文生图大模型重磅发布,与文生视频Sora大模型都使用了相同的技术。看看这文生图的效果,简直跟Sora模型一样炸裂,细节纹理处理的很详细。
    Stable diffusion 系列文生图大模型一直使用的都是扩散模型,而transformer 模型的注意力机制又是如此的强大,是不是可以把扩散模型与transformer 模型结合起来? DiT(Scalable Diffusion Models with Transformers)模型就是把扩散模型与transformer 模型有机结合起来。2大模型强强联合,怪不得Sora模型的效果这样的炸裂。而stable diffusion 3也使用了此模型的相关技术,不得不说transformer 模型的魔力是真的强大。
  • 在Transformer模型中,这些向量代表着词向量,是输入单词在word-embedding与位置编码后的 高维度空间的数值映射,当两个词向量的内积比较大时,代表词相关度比较大,当Transformer模型预测或者训练模型时,当关注某个单词时,应当密切关注与这个单词词向量内积比较大的其他单词。
    两个向量的乘法,也是两个向量的内积,代表了两个向量的夹角,同时也表征着一个向量在另外一个向量上的投影,那么这个投影的值越大,说明其2个向量相似度越高,若两个向量的夹角为90度,甚至大于90度,那么这两个向量线性无关,完全没有相似性。 Attention注意力机制便是把输入数据通过预处理操作,变成可以计算的向量表示,通过向量的乘法计算,实现查找句子中相识性比较大的其它单词,这也是神经网络模型中说的权重。 有了权重的概念,我们就可以把句子或者图片预处理成一个一个的向量,然后通过attention机制来训练神经网络模型,毕竟这些权重的和也是1。 关于transformer模型应用于计算机视觉领域,这个在我们介绍完基础的transformer模型后,会重点介绍Vinsion transformer与Swin transformer模型。#动图详解Transformer
  • Google发布开源Gemma LLM大语言模型,效果超越LIama-2
    Google开源了其Gemma大语言模型,其性能在多个数据集上超越了LIama-2大模型,提供了两种尺寸的模型权重:Gemma 2B 和 Gemma 7B,支持开发人员创新、使用。在使用之前,需要注册Kaggle账号,接受相关的使用条款,可以免费使用
正在载入...
正在载入...