AI安全初探：利用深度学习检测DNS隐蔽通道

* 本文作者：bonelee，本文属FreeBuf原创奖励计划，未经许可禁止转载

DNS 隐蔽通道简介

DNS 通道是隐蔽通道的一种，通过将其他协议封装在DNS协议中进行数据传输。由于大部分防火墙和入侵检测设备很少会过滤DNS流量，这就给DNS作为隐蔽通道提供了条件，从而可以利用它实现诸如远程控制、文件传输等操作，DNS隐蔽通道也经常在僵尸网络和APT攻击中扮演着重要的角色。

DNS隐蔽通道可以分为直连和中继两种模式。直连也就是Client直接和指定的目标DNS Server(授权的NS 服务器)连接，通过将数据编码封装在DNS协议中进行通信，这种方式速度快，但是限制比较多，很多场景不允许用户指定DNS Server。而中继模式的DNS通道则更为隐蔽，但同时也因为数据包到达目标DNS Server前需要经过多个DNS查询服务器，所以速度上较直连模式慢很多。中继模式的DNS通道原理如图1所示。

图1 中继模式下的DNS隐蔽通道原理

例如，前段时间著名的XShell DNS通道攻击，黑客在Xshell中植入恶意代码，通过DNS隐蔽通道外发用户敏感数据的示例如图2 所示，黑客将外发数据藏在nylalobghyhirgh.com子域名中。

图2 Xshell DNS隐蔽通道，黑客将外发数据藏在nylalobghyhirgh.com子域名中

DNS 隐蔽通道从提出到现在已经有了很多实现工具，历史比较早的有NSTX、Ozymandns，目前比较活跃的有iodine、dnscat2、dns2tcp，其他不太常见的还有DeNise、Heyoka等。不同工具的核心原理相似，但在编码、实现细节和应用场景方面存在一定的差异。

本文使用卷积神经网络（CNN）来检测DNS隐蔽通道。第一步工作是样本数据采集。

算法前的准备工作——数据采集

利用上述DNS隐蔽通道工具进行“黑”样本采集工作见另一篇博文《DNS隐蔽通道检测——数据收集，利用iodine进行DNS隐蔽通道样本收集》，其流程是先抓取DNS隐蔽通道工具攻击过程中的网络流量pcap包，然后利用wireshark工具将pcap包转换为机器学习算法能够识别文本文件。这是一个体力活，我收集到的业界流行的DNS 隐蔽通道工具的数据样本如图3所示。

图3 收集的DNS隐蔽通道工具示意样本

以dnscat2工具为例，其生成的一个样本见图4，可以看到DNS报文里包含了大量的较长子域名，而外发数据便藏在这些子域名中（我使用的主域名是friendsakka.xyz）。

图4 dnscat2工具生成的示意样本

至于“白”样本收集，我们使用的是某高校的校园网络流量。黑白样本收集好以后，就可以进入检测算法环节了。

利用深度学习进行DNS隐蔽通道检测

本文使用CNN（卷积神经网络）来检测DNS隐蔽通道，在介绍算法前，先简单介绍下CNN。

CNN（卷积神经网络）常用于图像识别并取得了极佳的效果。图5展示的是一个典型的卷积神经网络结构。该网络包含两个卷积层（convolution layer），两个池化层（pooling layer）和一个全连接层（fully connected layer）。

图5 典型的卷积神经网络结构

卷积神经网络的基本思想和我们人类大脑识别图像的机制是一致的。例如，当看到一张“喵星人”图像时，我们之所以认为它是“喵星人”，是因为我们看到它有萌萌的头、长长的尾巴、柔软光滑的皮毛等明显特征，通过组合（更高层次的抽象）这些特征，我们的大脑最终便可做出准确的判断。卷积神经网络的基本思想也是类似，核心理念包括：

· 局部感受野：这是通过卷积层来完成的，形象地说，就是模仿你的眼睛，想想看，你在看东西的时候，目光是聚焦在一个相对较小的局部吧？比如喵星人的图像上有爪子或者萌头等明显的局部特征。而在卷积神经网络中，每个隐层节点只连接到图像的某些局部像素点上。

· 池化：形象地说，当你看向远方，然后闭上眼睛，你仍然记得看到了些什么，但是你能完全记住你刚刚看到的每一个细节吗？答案是不能。同样，在卷积神经网络中，没有必要对原图像所有细节做处理，而是使用某种 “压缩”方法，这就是池化，也就是每次将原图像卷积后，都通过一个采样的过程，来减小图像的规模。

· 权值共享：在卷积神经网中，同一个卷积核内，所有的神经元的权值是相同的，从而大大减少需要训练的参数。之所以如此设计，就如同人类大脑的某个神经中枢中的神经细胞，它们的结构、功能是相同的，甚至可以互相替代。

如果你还没有理解的话，我们再看下面这个例子，专家们设计了包含10个卷积层，4个池化层和2个全连接层的卷积神经网络，见图6所示，该网络主要用于图像识别。专家们发现，在比较低的层，神经元倾向于学习一些简单的模式，比如图像边缘、颜色、条带灯；而在比较高的层，神经元能够检测到一些更为高层次的抽象特征，比如整辆轿车等。

图6 专家构建的用于图像识别的卷积神经网络

图6 专家构建的用于图像识别的卷积神经网络

CNN的诞生是为了解决图像处理问题。在安全界，瀚思科技开发出了基于深度学习的二进制病毒样本检测技术，可以做到沙箱同等水平的 99% 的检测准确率，而误报率低于 1/1000。

CNN检测的图像通常是二维数据，而作为DNS隐蔽通道传输的子域名虽是一维的文本数据，但同样可以用CNN进行处理。在本文的DNS隐蔽通道检测中，我们使用一维的卷积函数处理DNS子域名片段，以提炼高级特征进一步分析。

利用CNN进行DNS隐蔽通道检测的代码框架如下：

def run(): X, Y, max_len, volcab_size = get_data() trainX, testX, trainY, testY = train_test_split(X, Y, test_size=0.2, random_state=42) model = get_cnn_model(max_len, volcab_size) model.fit(trainX, trainY, validation_set=(testX, testY), show_metric=True, batch_size=32)

大致流程是先获取黑白样本数据，然后将80%的数据用于训练，剩下20%的数据用于CNN模型验证。

其中，get_cnn_model使用了python的TensorFlow库tflearn，其代码如下：

def get_cnn_model(max_len, volcab_size): # 构建CNN模型 network = tflearn.input_data(shape=[None, max_len], name='input') # 为了进行数据降维加入了embedding层 network = tflearn.embedding(network, input_dim=volcab_size, output_dim=64) # 卷积层使用了一维的卷积函数 branch1 = conv_1d(network, 128, 3, padding='valid', activation='relu', regularizer="L2") branch2 = conv_1d(network, 128, 4, padding='valid', activation='relu', regularizer="L2") branch3 = conv_1d(network, 128, 5, padding='valid', activation='relu', regularizer="L2") network = merge([branch1, branch2, branch3], mode='concat', axis=1) network = tf.expand_dims(network, 2) # 最大池化操作 network = global_max_pool(network) # 加入dropout防止过拟合 network = dropout(network, 0.5) # 全连接 network = fully_connected(network, 2, activation='softmax') # 回归操作 network = regression(network, optimizer='adam', learning_rate=0.001, loss='categorical_crossentropy', name='target') # 构建深度神经网络模型 model = tflearn.DNN(network, tensorboard_verbose=0) return model

在上述模型中，为了进行数据降维先加入了embedding层，其本质和word2vec一样，因为在DNS 隐蔽通道的子域名中包含了大量的字符而导致数据输入维度过高，代码中output_dim=64表示将数据输入降低维度到64维。接下来我们使用一维的卷积函数 conv_1d处理DNS子域名片段，提炼高级特征进一步分析。由于典型的一维卷积函数处理文字片段的大小通常为3、4、5，我们也使用这些典型参数。此外，模型中加入了dropout，用于防止过拟合。

获取黑白样本数据的代码如下，其中包括对原始的子域名字符进行字典编码（先得到黑白样本所有子域名字符集合），并使用pad_sequences函数按照固定长度进行子域名长度对齐操作（因CNN要求各样本数据输入维度一致，而某些子域名很短，某些子域名很长， pad_sequences将短的子域名采用特殊数字进行填充补齐，使它们长度一致）：

def get_data(): black_x, white_x = get_local_data() black_y, white_y = [LABEL.black]*len(black_x), [LABEL.white]*len(white_x) X = black_x + white_x labels = black_y + white_y # Generate a dictionary of valid characters valid_chars = {x:idx+1 for idx, x in enumerate(set(''.join(X)))} max_features = len(valid_chars) + 1 maxlen = np.max([len(x) for x in X]) # Convert characters to int and pad X = [[valid_chars[y] for y in x] for x in X] X = pad_sequences(X, maxlen=maxlen, value=0.) # Convert labels to 0-1 Y = to_categorical(labels, nb_classes=2) return X, Y, maxlen, max_features

其中，get_local_data主要是从样本文件中提取DNS子域名。

def get_local_data(tag="labeled"): data_path = "latest_metadata_sample" black_data, white_data = [], [] for dir_name in ("black", "white_like"): dir_path = "%s/%s_%s" % (data_path, tag, dir_name) for path in iterbrowse(dir_path): with open(path) as f: for line in f: _, subdomain = extract_subdomain(line) if subdomain is not None: if "white_like" in path: white_data.append(subdomain) elif "black" in path: black_data.append(subdomain) return black_data, white_data

核心代码讲解完毕，开始进行模型训练。在我的个人电脑上，算法运行时间大概17小时，最后的结果如下：

可以看到算法迭代了10次，每次训练时间一个多小时，最终的检测精度在99.53%，使用CNN进行DNS隐蔽通道的检测效果初步看来还不错。但是，因为训练样本和测试样本的内在数据分布规律是相同的，该精度再高也可能存在一定的过拟合风险。下面我们利用前段时间著名的XShell DNS隐蔽通道攻击来评估算法的检测能力。

验证XShell的检测效果

我们尝试用训练出的算法检测前段时间著名的XShell隐蔽通道攻击，其进行攻击的域名为nylalobghyhirgh.com，将包含该攻击的DNS样本加入到模型预测中：

def predict(): testX, testY = get_xshell_data() model = get_cnn_model() .... predictions = model.predict(testX) cnt = 0 for i,p in enumerate(predictions): if abs(p[2]-testY[i][2]) < 0.1: cnt += 1 print cnt/(len(predictions)+.0)

运行后得到的检测准确率为97.3%，也就意味着nylalobghyhirgh.com下97.3%的子域名都可能是在利用DNS隐蔽通道传输数据。

上述验证表明，使用CNN可以有效地检测DNS隐蔽通道。当然，最终的检测准确率还需在真实而复杂的网络环境中长期运行观察而定。

结语

本文只是AI安全初探的一次尝试，大致说明了使用深度学习算法CNN进行安全检测的基本流程，文中有写得不明白的地方，欢迎大家留言一起探讨。

参考资料：

1、http://blog.csdn.net/baobei0112/article/details/54906309

2、https://yq.aliyun.com/articles/68901

3、http://www.freebuf.com/articles/network/153345.html

* 本文作者：bonelee，本文属FreeBuf原创奖励计划，未经许可禁止转载

AI安全初探：利用深度学习检测DNS隐蔽通道

开鲁县再发声！春耕不能停，费用仍得交，这次真错怪纪云浩了！

美参议院投票通过向乌克兰和以色列援助法案

专家上央视节目，不能胡说八道

耿彦波留给大同的这块警示碑再引关注：华严寺综治犯三错，明耻彰过

大v称"上海人民广场下面的店全关完了" 记者实地走访

东契奇32分独行侠险胜快船1-1 欧文23分

官方否认种地交钱被免镇干部为干部子女当地回应：其父为普通居民，学历问题正调查核实

苏纳克宣布“有史以来最大规模军援”！英国军工业转入战时状态

4月24日俄乌最新：第115旅不战而退，乌军王牌血战Ocheretyne

成都二环高架公交车道能否开放？已初步拟定方案

2-0！6人得分上双森林狼射落太阳杜兰特18+6

我国居民居住条件处于欧洲60年前水平，未来高层住宅必定都会被拆除

工商银行突然设立人民武装部，释放了什么信号？逻辑是什么？

美国首条"真正意义上的"高铁开工交通部长感慨

中国游客在印尼“地狱之门”景点坠亡

深夜发文，深圳官宣住房“以旧换新”！具体怎么换？

神舟十八号瞄准4月25日20时59分发射航天员乘组确定

被指香港金融史重大时刻华夏博时嘉实三家现货比特币、以太币ETF获批

广交会，外国采购商多得出人意料

上海江边多人跑步被保安拦，“你们衣服一样的！”公园：统一着装要报备，不能拍照

AI安全初探：利用深度学习检测DNS隐蔽通道

开鲁县再发声！春耕不能停，费用仍得交，这次真错怪纪云浩了！

美参议院投票通过向乌克兰和以色列援助法案

专家上央视节目，不能胡说八道

耿彦波留给大同的这块警示碑再引关注：华严寺综治犯三错，明耻彰过

大v称"上海人民广场下面的店全关完了" 记者实地走访

东契奇32分独行侠险胜快船1-1 欧文23分

官方否认种地交钱被免镇干部为干部子女 当地回应：其父为普通居民，学历问题正调查核实

苏纳克宣布“有史以来最大规模军援”！英国军工业转入战时状态

4月24日俄乌最新：第115旅不战而退，乌军王牌血战Ocheretyne

成都二环高架公交车道能否开放？已初步拟定方案

2-0！6人得分上双森林狼射落太阳 杜兰特18+6

我国居民居住条件处于欧洲60年前水平，未来高层住宅必定都会被拆除

工商银行突然设立人民武装部，释放了什么信号？逻辑是什么？

美国首条"真正意义上的"高铁开工 交通部长感慨

中国游客在印尼“地狱之门”景点坠亡

深夜发文，深圳官宣住房“以旧换新”！具体怎么换？

神舟十八号瞄准4月25日20时59分发射 航天员乘组确定

被指香港金融史重大时刻 华夏博时嘉实三家现货比特币、以太币ETF获批

广交会，外国采购商多得出人意料

上海江边多人跑步被保安拦，“你们衣服一样的！”公园：统一着装要报备，不能拍照

官方否认种地交钱被免镇干部为干部子女当地回应：其父为普通居民，学历问题正调查核实

2-0！6人得分上双森林狼射落太阳杜兰特18+6

美国首条"真正意义上的"高铁开工交通部长感慨

神舟十八号瞄准4月25日20时59分发射航天员乘组确定

被指香港金融史重大时刻华夏博时嘉实三家现货比特币、以太币ETF获批