海外 推广网站,怎么做营销网站,和县网页定制,网站建设多少钱明细数据治理 (Data Governance) [1]作为一种数据管理的重要一环#xff0c;主要目的在于保证数据在整个生命周期内的高质量性。数据治理的核心包括#xff1a;数据的可用性 (Availability)#xff0c;易用性 (Usability)#xff0c;一致性 (Consistency)#xff0c;完整性 (I…数据治理 (Data Governance) [1]作为一种数据管理的重要一环主要目的在于保证数据在整个生命周期内的高质量性。数据治理的核心包括数据的可用性 (Availability)易用性 (Usability)一致性 (Consistency)完整性 (Integrity) 和安全性 (Security)。数据的安全性作为关键的一项旨在保护数据中敏感和隐私数据因此对于数据中敏感和隐私信息的识别至关重要。利用机器学习算法对敏感字段识别不仅能够提高识别的准确率同时也能极大的提高识别的效率从而帮助数据仓库运营人员高效地完成敏感数据的存储策略制定和数据落库。本文实现了一种基于 Wide Deep 网络和 TextCNN 的敏感字段识别算法主要探究数据探索性分析Wide Deep 网络和 TextCNN敏感字段识别模型数据探索性分析首先我们对接入整个数据仓库贴源层中的所有表所有字段的敏感类型 (也就是模型的目标变量Y)进行了统计其中敏感类型的字段占全部字段 2% 左右主要的敏感信息类型包括姓名身份证号手机号固定电话号银行卡号邮箱等。可以看出这一个样本极度不均衡的问题。其次我们对于所能获取到的用于判断一个字段敏感类型的信息 (也就是模型的自变量X)统计如下对于上表中的原始特征通过统计分析确定相应的数据预处理方法和参数从而衍生出更多的特征。例如对于数据库名称 (db_name)我们衍生出数据库名称长度 (db_name_len)特征并对其在是否为敏感字段上的分布统计如下从上图中不难看出数据库名称长度对于字段是否为敏感具有一定的区分性。从字段类型 (column_type) 角度分析不同字段类型的敏感和非敏感字段占比如下最终通过数据预处理特征衍生等多种手段得到模型最终的输入特征。WideDeep网络和TextCNNWide Deep 网络是由 Google 提出的一种用于推荐系统的深度神经网络模型 [2]。整个网络框架如下图所示模型 Wide Models 部分的输入为数值型和利用 One-Hot 编码的分类型特征Deep Models 部分通过学习得到了分类特征的Embedding 编码。对两部分进行合并得到最终的 Wide Deep 网络模型预测的条件概率为TextCNN是由 Kim 等人提出的一种利用卷积神经网络对文本进行分类的深度神经网络模型[3]。整个网络框架如下图所示敏感字段识别问题的输入中包含了大量的文本特征因此可以采用 TextCNN 网络进行处理。敏感字段识别模型对于敏感字段识别问题从问题和数据的特点出发对原始的 Wide Deep 模型和 TextCNN 做出了如下改进WideDeep网络改进原始 Wide Deep 网络的深度模型的输入均为分类型特征但在敏感字段识别问题还存在大量的文本特征。考虑到 CNN 在文本分类上具有较好的效果因此对于文本特征在通过 Embedding 层后利用 CNN 网络对其进行处理其它的分类型特征在通过 Embedding 层后仍使用全连接网络进行处理。改进后的网络框架如下图所示原始的 TextCNN 解决的是英文文本的分类问题对于敏感字段识别问题文本特征中存在大量的汉语信息。不同于英文汉语没有天然的分隔符传统的做法是采用分词技术对汉语文本进行预处理。但是这样模型的效果就会受制于分词效果的好坏同时计算效率也会有一定的下降因此我们选择不分词直接采用字向量处理文本。同时需要注意的是 CNN 会隐含地利用到文本的位置信息因此对于不同的文本特征组合成一个定长的文本时需先对每个文本特征进行截取和补全再将其进行拼接得到最终的定长文本。改进后的网络框架如下图所示模型训练在数据探索性分析阶段我们指出了数据的不平衡性。因此在处理数据不平衡问题时可以采用如下两个方法数据的过采样和欠采样。即对较少类型的数据多采样一些或者对于较多类型的数据少采样一些。代价敏感学习。即在损失函数中赋予较少类型的样本更大的损失值增加其在一批数据中的重要程度。对于训练数据的生成由于字段数量是有限的但字段内容值 (column_value) 是大量的。因此我们以一个不为空的字段内容值搭配其他特征为一个训练样本。数据的划分采用常用的模式训练集测试集划分 7:3训练集内部训练集验证集划分 8:2。模型训练的超参数采用常用的模式Wide 部分 Dropout 比例0.5Deep 部分 Dropout 比例0.5Concat 部分 Dropout 比例0.5Embedding 维度128优化器 Adamlr0.001, beta_10.9, beta_20.999训练数据 Batch Size: 128模型性能敏感字段识别问题为一个多分类问题训练好的模型在测试集上的整体准确率为 93% 左右。但其在一些具体类型上的效果略有欠缺通过具体的分析定位问题在于训练数据中包含了一些标注错误的样本例如敏感类型为“地址”但该字段保存的却不是地址类型的数据。实施流程模型的整个实施流程如下[1] https://en.wikipedia.org/wiki/Data_governance[2] Cheng, H.-T., Koc, L., Harmsen, J., Shaked, T., Chandra, T.,Aradhye, H., … Shah, H. (2016). Wide Deep Learning for RecommenderSystems. ArXiv:1606.07792 [Cs, Stat].[3] Kim, Y. (2014). Convolutional Neural Networks for SentenceClassification. In Proceedings of the 2014 Conference on Empirical Methods inNatural Language Processing (EMNLP) (pp. 1746–1751).文章来源京东数科技术说