2D和3D卷积网络应用于视频数据比较

需要解决的问题和数据集

本文目的是研究使用神经网络对视频帧进行分类的方法，特别是研究将时间信息与视频帧的空间信息一起考虑的体系结构。我们旨在证明，仅将标准卷积神经网络单独应用于视频的每个帧，对于可以捕获视频帧之间的时间模式的模型而言是一种较差的方法。

基于改进VGG网络的标准cnn

我们使用的数据集是Rat Social Interaction数据集，它是包含两只老鼠的一系列视频，这些视频的所有帧都标有老鼠的行为。我们将10类问题减少到两类：交互行为和孤立行为。数据集包含约200,000帧，并且这些帧在两个类别之间几乎均等地划分，因此我们模型的基准精度应大于50％。我们使用数据集的前半部分进行训练，后半部分用于估计泛化误差。

我们的项目开始于VGG架构的修改版本，我们称之为mVGG。我们将使用这些标准的2D卷积神经网络作为起点，然后建立它们来利用时间信息。

改进后的VGG网络(mVGG)整体块结构与原VGG网络相同，我们用Max-Pooling层分隔了5个卷积层块，每个块后的feature map在两个图像维上都减小了2倍。每个block由多个2D卷积层组成，但与原始VGG网络不同的是，我们在每个卷积层之后使用dropout和批处理归一化层。每个卷积层使用尺寸为3x3、填充“相同”的核，从而保持图像的高度和宽度，并具有ReLU激活函数。我们使用了0.05的dropout，最大池层使用2x2的池大小和2x2的步长，就像原来的VGG架构一样。这些池化层选项确保在每个块之后，图像大小在每个方向上减少2倍。最后，在最后一个最大池化层之后，我们将神经元压平，并使用Softmax激活的全连接层输出两个神经元的预测输出。

每个mVGG网络的前两个块有两个2D卷积的重复加上dropout和批归一化层，最后三个块有可变的N个层。我们考虑N = 2、3、4、5的mVGG网络，分别表示为mVGG11、mVGG14、mVGG17、mVGG20，因为11、14、17、20表示每个网络的可训练层数。

使用3D卷积提取时间信息

就像卷积层可以在图像数据中提取空间模式一样，卷积也可以沿着时间维度来提取数据中的时间模式。但是，如果我们的数据中既有空间模式也有时间模式，就像我们处理视频数据一样，这两种模式可以形成更复杂的时空模式，我们想要一起分析它们可以通过使用3D卷积来实现，其中第一个卷积轴沿着时间方向，第二个和第三个轴用于视频帧的空间维度。

我们的三维卷积神经网络在我们的mVGG网络的基础上，除了二维卷积层外，用三维卷积层代替，二维Max-Pooling层用3D Max-Pooling层代替。网络的输入是视频的连续帧序列，这是一个张量的大小(128,128,128)。第一个维度是时间维度，第二个和第三个维度是空间维度。三维卷积层利用内核的大小(3,3,3),和3 d Max-Pooling层使用池化大小(1、2、2)和(1、2、2)。因此,池化并时间维度进行池化,所以每一层的输出总是保持时间维度的128点。对于我们的每个mVGG网络，我们都有一个等效的3D卷积版本，我们将其表示为mVGG11-3D、mVGG14-3D、mVGG17-3D和mVGG20-3D。

这种架构的一个问题是，与标准的mVGG网络相比，额外的卷积维度需要更多的模型参数。为了将参数数量减少到与mVGG网络相同的数量级，我们在每个块上只使用了等效mVGG网络核数量的一半。

RatSI数据集的性能

上面描述的所有模型都使用Adam优化器进行了训练，每个模型的辍学率均设置为0.05，因为发现这足够了，而且可以尽早停止以防止过度拟合。 mVGG网络以128的批量大小进行训练，而mVGG-3D网络以1的批量大小进行训练，因为128帧的序列在训练时会占用大量内存。

使用3D的卷积只训练了2个模型，但是从图中可以看到，准确率要比2D卷积好的多，但是使用3d卷积的问题是不能获取更长时间的依赖（这里我们只用了128帧）

另一个可以使用数据中的时间信息的体系结构是使用卷积-LSTM网络，它使用的LSTM层具有卷积内核，而不是普通的仿射转换。这些层已经被证明可以有效地捕捉时空模式，因为架构的卷积和LSTM组件在网络的每一层中绑定在一起。下一篇文章中我们将讨论这种架构。

作者:Maitreya Venkataswamy

2D和3D卷积网络应用于视频数据比较

需要解决的问题和数据集

基于改进VGG网络的标准cnn

使用3D卷积提取时间信息

RatSI数据集的性能

官方通报“干部阻挠农民种地要求交钱”

绍伊古：从特别军事行动开始以来乌军已损失近50万人

媒体："三战将爆发"言论毫无根据伊朝不可能参与进来

民生访谈｜今年，上海将推动500个小区按质论价调整物业费

台媒：与台军张骞舰在台海相遇，解放军丽水舰喊话警示“注意你的位置”

开鲁县再发声！春耕不能停，费用仍得交，这次真错怪纪云浩了！

专家上央视节目，不能胡说八道

神舟十八号瞄准4月25日20时59分发射航天员乘组确定

俄罗斯矿业巨头计划将部分产能转移至中国：拟先建一家合资铜厂

在上海50块一个月的房子会是什么样？

赵岩昊25分广厦23分大逆转1-2广东周琦被逐

79比18，美国参议院通过援乌法案

官方将整治自媒体自导自演式造假

为中小学教师减负官方部署专项整治工作

广交会，外国采购商多得出人意料

他们的孩子回来“为人民服务”了

大瓜！传谷爱凌妈妈90年代“诈骗”英国贵族400万美元，坐牢5年后去美国才洗白

多所高校发文禁止宿舍挂床帘部分学生：是否挂床帘影响评奖评优

内蒙古开鲁县被免职镇党委副书记学历造假？县委组织部：正调查核实，结果将及时公布

网传深圳部分区域“五一”后取消限购深圳相关部门回应称：尚未收到相关通知

2D和3D卷积网络应用于视频数据比较

需要解决的问题和数据集

基于改进VGG网络的标准cnn

使用3D卷积提取时间信息

RatSI数据集的性能

官方通报“干部阻挠农民种地要求交钱”

绍伊古：从特别军事行动开始以来 乌军已损失近50万人

媒体："三战将爆发"言论毫无根据 伊朝不可能参与进来

民生访谈｜今年，上海将推动500个小区按质论价调整物业费

台媒：与台军张骞舰在台海相遇，解放军丽水舰喊话警示“注意你的位置”

开鲁县再发声！春耕不能停，费用仍得交，这次真错怪纪云浩了！

专家上央视节目，不能胡说八道

神舟十八号瞄准4月25日20时59分发射 航天员乘组确定

俄罗斯矿业巨头计划将部分产能转移至中国：拟先建一家合资铜厂

在上海50块一个月的房子会是什么样？

赵岩昊25分广厦23分大逆转1-2广东 周琦被逐

79比18，美国参议院通过援乌法案

官方将整治自媒体自导自演式造假

为中小学教师减负 官方部署专项整治工作

广交会，外国采购商多得出人意料

他们的孩子回来“为人民服务”了

大瓜！传谷爱凌妈妈90年代“诈骗”英国贵族400万美元，坐牢5年后去美国才洗白

多所高校发文禁止宿舍挂床帘 部分学生：是否挂床帘影响评奖评优

内蒙古开鲁县被免职镇党委副书记学历造假？县委组织部：正调查核实，结果将及时公布

网传深圳部分区域“五一”后取消限购 深圳相关部门回应称：尚未收到相关通知

绍伊古：从特别军事行动开始以来乌军已损失近50万人

媒体："三战将爆发"言论毫无根据伊朝不可能参与进来

神舟十八号瞄准4月25日20时59分发射航天员乘组确定

赵岩昊25分广厦23分大逆转1-2广东周琦被逐

为中小学教师减负官方部署专项整治工作

多所高校发文禁止宿舍挂床帘部分学生：是否挂床帘影响评奖评优

网传深圳部分区域“五一”后取消限购深圳相关部门回应称：尚未收到相关通知