新智元编译

来源:engineering.com

译者:熊笑

【新智元导读】受到人类视觉系统的启发,普渡大学的研究人员提出了深度神经网络 CortexNet,它不仅具有自下而上的前馈连接,而且还模拟了我们视觉皮层中存在的丰富的自上而下的反馈和横向连接,来解决标准前馈深度神经网络的架构和训练缺陷。CortexNet 可以通过两种方式进行训练,MatchNet 和 TempoNet。

打开网易新闻 查看更多图片

最新的用于计算机视觉的前馈性深度神经网络使用来自大量静态图像的数据和标签进行监督训练。这些神经网络缺少视频流中存在的时间变量,并且不用于观看视频中场景的平滑转换。因此,当应用于视频流时,标准前馈网络的输出稳定性较差。这个问题是其前馈架构和训练框架的直接结果。该项目通过提出一种新颖的网络模型和两种训练方案,来解决标准前馈深度神经网络的架构和训练缺陷。受到人类视觉系统的启发,CortexNet 通过向自下而上的前馈连接添加自上而下的反馈和横向连接,提供了鲁棒性强的视觉时间表征。所有这些连接都存在于我们的视觉皮层中。

在上图中,我们看到(a)完整的 CortexNet 架构,它由几个(b)判别和(c)生成块组成。对数是嵌入的线性变换,其通过(d)对上一个判别块的输出进行空间平均而获得。

CortexNet 可以通过两种方式进行训练,MatchNet 和 TempoNet。细节如下:

TempoNet

TempoNet 形式的 CortexNet,可以提供更稳定的输出表征,如下面的动画所示。

打开网易新闻 查看更多图片

在上面的两个图表中,我们可以看到完整的 CortexNet 架构(中)在时间稳定性方面与经典卷积网络(上)的比较。我们注意到作为 TempoNet 训练的 CortexNet,能够预测正确的目标类,即使它的判别部分没有预测。TempoNet 自动学习如何随时间跟踪和处理对象(track and tend)(下),从而提供更稳定的时间预测。

MatchNet

MatchNet 在 CortexNet 中实施了预测,并且被训练为再现视频流中的下一帧。下面是输入面中 MatchNet 预测能力的一个例子。

μ-matching loss 显示了模型输出h[t] 与完美匹配视频 v 的下一个输入 距离有多远。我们可以关注一下 ρ-replica loss,看看模型是否简单复制了其输入帧 。最后,你可以检查这些损失并与时间信号相比较,即下一帧和当前帧之间的差值。

这里,MatchNet 被训练用于再现视频中未来的输入帧。一个更有趣的方法是能够预测更高层的表征。在这个激动人心的研究领域,我们需要你的帮助和想法。请告诉我们你的想法,为我们的 GitHub 项目做出贡献。

MatchNet 和 TempoNet 的训练方案

为了训练我们的模型,我们使用了几个损失函数的组合。当馈送视频流时,我们使用了 μ-matching 和 ρ-replica 均方误差损失,τ-temporal 和 π-periodic 交叉熵损失来调校模型参数。

在 MatchNet 模式下,网络将尝试在完全无监督的学习框架中生成视频剪辑中的下一帧。在 TempoNet 模式下,我们要求网络在少量弱监督下通过跟踪运动对象来学习查看。

摘要

打开网易新闻 查看更多图片

在过去的五年中,我们观察到了针对视觉相关任务进行监督训练的前馈神经网络令人难以置信的良好表现。这些模型在静态图像中的物体识别、定位和检测方面取得了超过人类的表现。然而,需要确定一个使用这些视觉输入并获得视频数据鲁棒且稳定表征的最佳策略。受人类视觉系统的启发,我们提出了一个深度神经网络 CortexNet,它不仅具有自下而上的前馈连接,而且还模拟了我们视觉皮层中存在的丰富的自上而下的反馈和横向连接。我们介绍了两种训练方案 - 无监督的 MatchNet 和弱监督的 TempoNet 模式——其中神经网络通过学习自我运算线索以及如何自动跟踪多个对象,来学习如何正确预测视频剪辑中的后续帧。

原文地址:https://engineering.purdue.edu/elab/CortexNet/