当前位置: 首页 > news >正文

广东省网站备案要多久WordPress自带写文章

广东省网站备案要多久,WordPress自带写文章,上海专业网站优化排名,市场宣传推广方案论文地址#xff1a;[2102.08369] CTAB-GAN: Effective Table Data Synthesizing (arxiv.org) 介绍 虽然数据共享对于知识发展至关重要#xff0c;但遗憾的是#xff0c;隐私问题和严格的监管#xff08;例如欧洲通用数据保护条例 GDPR#xff09;限制了其充分发挥作用。…论文地址[2102.08369] CTAB-GAN: Effective Table Data Synthesizing (arxiv.org) 介绍 虽然数据共享对于知识发展至关重要但遗憾的是隐私问题和严格的监管例如欧洲通用数据保护条例 GDPR限制了其充分发挥作用。合成表格数据作为一种替代方案出现可在满足监管和隐私约束的同时实现数据共享。最先进的表格数据合成器从生成对抗网络 (GAN) 中汲取方法论并处理行业中的两种主要数据类型即连续数据类型和分类数据类型。在本文中我们阐明了 CTAB-GAN这是一种新颖的条件表 GAN 架构可以有效地对各种数据类型进行建模包括连续变量和分类变量的混合。此外该模型还解决了实际表格数据集中的数据不平衡和长尾问题即某些变量在大值之间具有显着的频率差异。这是通过利用条件 GAN 的信息损失和分类损失实现的。此外该模型具有新颖的条件向量可有效地对混合数据类型和数据变量的偏态分布进行编码。CTAB-GAN 在数据相似性和分析效用方面用当前的技术水平进行了评估。五个数据集的结果表明CTAB-GAN 的合成数据与所有三类变量的真实数据非常相似并导致五种机器学习算法的准确率更高高达 17%. 论文动机 工业数据集在银行、保险公司和医疗保健等利益相关者中提出了多重挑战。首先这些数据集被组织成表格并填充有连续变量和分类变量或两者的混合例如贷款持有人的抵押贷款价值。该值可以是 0无抵押或某个连续的正数。在这里我们将这种类型的变量称为混合变量。其次连续数据变量通常具有广泛的值并且可以表现出重长尾分布例如信用卡交易金额的统计。大多数交易应该在 0 到 500 美元之间即每天购买食物和衣服但肯定存在高交易额的例外。第三连续数据变量也可能包含具有多种偏斜频率模式的分布。在下面的图 2 中我们展示了这些问题在利用当前最先进的技术时如何表现出来。 使用现有的基于 GAN 的表生成器对工业数据集建模的挑战(a) 混合类型(b) 长尾分布以及偏斜数据 因此总而言之应对以下挑战构成了研究的主要动机 表格数据包含由连续和离散分量组成的混合变量。类似地嵌入在连续变量中的缺失值也可以被视为混合变量的一个分类组件。连续变量表现出严重的长尾分布难以真实地建模和重现。连续变量包含多种模式的偏斜频率这进一步加剧了建模。 贡献 我们设计了一种新的条件表格数据合成器 CTAB-GAN它解决了现有技术的局限性i编码连续和分类变量的混合数据类型ii长尾连续变量的有效建模(iii) 增加了对不平衡分类变量和偏斜连续变量的稳健性。此外CTAB-GAN 的两个关键特征是在条件 GAN 中引入分类损失以及对条件向量的新颖编码该编码有效地编码混合变量并有 助于处理连续变量的高度偏态分布。 因此主要贡献可以总结如下 新颖的条件对抗网络它引入了一个分类器提供额外的监督以提高其在 ML 应用程序中的效用。通过新颖的数据编码和条件向量对连续、分类和混合变量进行有效建模。轻量级数据预处理使用简单的对数变换减轻连续变量长尾分布的影响。为相关利益相关者提供有效的数据合成器。 结果 使用 CTAB-GAN 对工业数据集建模的结果(a) 混合类型(b) 长尾分布以及偏斜数据 现在让我们根据第2节前面介绍的三个动机案例来回顾CTAB-GAN的表现。 混合变量——上面显示的图 3.(a) 比较了贷款数据集中变量“抵押”的真实数据和 CTAB-GAN 生成的数据。CTAB-GAN 将此变量编码为混合类型。我们可以看到 CTAB-GAN 与现有的最先进技术不同生成了清晰的 0 值。 长尾连续变量 - 图 3.(b) 比较了 Credit 数据集中“Amount”变量的累积频率图。该变量是典型的长尾分布。可以看到 CTAB-GAN 完美地恢复了真实分布。由于对数转换数据预处理CTAB-GAN 比最先进的方法明显更好地学习这种结构。 倾斜的多模式连续变量 - 图 3.(c) 比较了来自 Adult 数据集的连续变量“Hours-per-week”的频率分布。除了 40 处的主峰外还有很多副峰这使得该色谱柱的合成极为困难。然而我们看到 CTAB-GAN 比现有方法更有能力恢复偏斜的多模态分布因为它是条件向量的新颖构造旨在使生成过程对此类分布更加鲁棒。 总结 受数据共享和履行政府法规的重要性的启发我们提出了 CTAB-GAN——一种基于条件 GAN 的表格数据生成器。CTAB-GAN 通过对混合变量进行建模而超越了先前最先进的方法并为不平衡的分类变量和具有复杂分布的连续变量提供了强大的生成能力。为此CTAB-GAN 的核心特征包括 (i) 将分类器引入条件 GAN(ii) 混合变量的有效数据编码以及 (iii) 条件向量的新构造。我们针对四个表格数据生成器在广泛的指标上详尽地评估了 CTAB-GAN即最终的 ML 实用程序、统计相似性和隐私保护。结果表明与现有的最先进技术相比CTAB-GAN 的合成数据具有高实用性、高相似性和合理的隐私保证。与所有最先进的算法相比复杂数据集的准确性提高了 17%。CTAB-GAN 的显着成果证明了其在广泛受益于数据共享的广泛应用中的潜力例如银行、保险、制造和电信。
http://www.zqtcl.cn/news/74989/

相关文章:

  • 安徽省网站建设外卖网站设计
  • 模板网站没有源代码广州品牌策划有限公司
  • 大型网站一般用什么语言做的海口模板建站定制
  • 关于网站备案广州工程
  • php mysql网站开发试题a百姓装潢口碑怎么样
  • 杭州建站模板制作欧美简约风格网站设计
  • 福建省建设厅考试网站关于门户网站建设通报
  • 东阳实惠营销型网站建设厂家pc网站案例
  • 自己如何做网站关键词排名女性做网站
  • 长春做网站价格网站开发和app的区别
  • 品牌网站建设帮你大蝌蚪哪个网站开发好
  • 跨境电子商务网页制作与网站建设怎么做网站推广的步骤
  • 网站安全 重要性.net网站项目有哪些
  • 商务网站设计实训报告网站模板 介绍
  • 亚马逊网站联盟网站建设 维护 编程
  • 一般网站要多大空间外包加工网手工活
  • 免费个人网站源码php专业seo整站优化
  • 深圳网站开发制作公众号免费推广平台
  • 网站推广怎么样做安徽专业网站建设大全推荐
  • 网站规划与建设需求分析常州想做个企业的网站找谁做
  • 网站开发的整体职业规划百度广告推广费用一年多少钱
  • 做网站是怎么赢利的山西建网站
  • 中国建设部网站监理延续aws 知乎 wordpress
  • 局网站建设管理制度廊坊酒店网站建设
  • 莱阳有网站建设推广的吗网络维护与管理
  • 空间登录入口搜索引擎优化和关键词竞价广告的区别
  • 网站备案率是什么长沙seo关键词
  • 建网站要花费多少钱泰州市靖靖建设局网站
  • 国家中管局官方网站研究所建设要求wordpress博客平台推荐
  • 做个电商网站做医疗设备的网站