当前位置: 首页 > news >正文

织梦网站模板制作流媒体视频网站开发

织梦网站模板制作,流媒体视频网站开发,兰州网站建设redu,免费响应式网站目录 智能模型数据处理 重复值处理 一致性检验 数据交叉验证 线上线下验证 有效性检验 业务经验 数据分析 特征工程和特征筛选 探索性数据分析 字符型特征 缺失率过高 类别过少 异常值处理 智能模型数据处理 重复值处理 保证数据的唯一性也是数据清洗过程中需要… 目录 智能模型数据处理 重复值处理 一致性检验 数据交叉验证 线上线下验证 有效性检验 业务经验 数据分析 特征工程和特征筛选 探索性数据分析 字符型特征 缺失率过高 类别过少 异常值处理 智能模型数据处理 重复值处理 保证数据的唯一性也是数据清洗过程中需要关注的问题过多重复数据会导致存储冗余并且在表与表关联过程中可能出现笛卡儿积造成内存溢出。去除重复数据的前提是确定该表对应的唯一主键基于唯一主键再去做重复值的处理。通常金融机构内部大多数的表都是以客户ID作为主键所有的数据都汇总到人的维度但是对于信贷数据一个客户可以多次申请一次成功申请可以多次支用一次成功支用可以多次还款一次逾期还款可以对应多个催收阶段不同环节数据源的主键都不相同如果把这些表都汇总到人的维度显然是不合理的因此只有弄清楚了唯一主键才能够做到有效的去重。 一致性检验 数据不一致是大数据建模过程中经常面临的问题无论是字段之间的不一致还是相同字段线上线下的不一致都可能导致线上模型的不可用因此尽可能在建模初期的数据清洗阶段就定位并解决这些不一致的问题。 数据交叉验证 在多个数据源中可能存在多个字段具备相似的含义这个时候就需要进行数据之间的交叉验证来找出最权威的字段。例如客户年龄可能存在平台业务电商、出行中填写的年龄、金融业务中填写的年龄、身份证号中解析的年龄这三类从权威性的角度来说应该是身份证年龄高于金融年龄高于平台年龄因为首先身份证信息一定是真实的其次对于信贷客户来说他们更愿意在金融业务中填写自已的真实信息。在实际数据清洗过程中可以结合这三个数据来源构建一个新的年龄字段对于实名客户选取身份证年龄对于未实名客户优先选取金融年龄这个新构建的年龄字段可以最大限度地保证数据的权威性。 线上线下验证 对于需要上线的模型上线前的数据验证是一件让建模人员很头疼的事情由于线上线下可能采用不同的数据源或者更新频率会导致线上模型结果和离线模型结果对不齐。在数据清洗环节如果线上数据已经落库建议事先评估线上线下数据之间的差异性。在积累时间足够长的情况下优先利用线上落库的数据分析建模对于刚开始积累的线上数据如果发现线上线下差异性过大建议在本期建模项目中暂时不使用这些数据以免导致模型上线前的返工. 有效性检验 数据清洗本身也是一个数据摸底阶段在处理完缺失值、异常值、重复值、致性这些问题后最后也可以从有效性的角度对原始字段做一次初筛进而从业务经验和数据分析这两个角度选择最有效的字段。 业务经验 业务经验在风控建模过程中会起一定的作用。经验丰富的业务专家可以从海量数据中挑选出符合业务认知的字段这些字段能够合理地评估客户的信用和欺诈风险并且不容易受到外部环境的影响从而保证模型的解释性和稳定性。 数据分析 对于机构以外的第三方数据在数据接入阶段可以利用少量样本进行数据分析评估这些数据对于建模目标的区分能力选取部分有效字段进入特征池建立最终的模型。这种有选择性的接入能够保证机构在数据成本方面的投入产出比最优并且不会因为太多的外部数据接口导致线上服务的时效性降低。 特征工程和特征筛选 有了较为干净的原始数据我们就可以开始特征工程的工作了。由于头部的互联网金融机构很早就开始了模型搭建的工作基本都沉淀了一套内部的特征平台这样建模人员在每个建模项目中就不需要重复造轮子只构建一些定制化的特征就可以了。 经过特征工程这一步我们已经将原始数据转化为成百上千维的大宽表但是直接将这个大宽表丢到模型里面去训练是不合适的因为这些特征中存在很多冗余信息会导致模型训练过程中时间和空间资源的浪费并且特征本身的不稳定性特征之间的强相关性也都会响最终模型的效果。这些问题都需要在特征筛选环节中解决。通常特征筛选可以通过探索性数据分析、稳定性、重要性、相关性、解释性这几个方面来进行。 探索性数据分析 探索性数据分析Exploratory Data AnalysisEDA是生成特征大宽表后应该做的第一步工作主要是通过统计分布或者做图的方式初步了解所有特征。通常计算的统计量有字段类型、缺失率、异常率、非重复值数量、标准差、最小值、最大值、平均值、分位点等。 字符型特征 字符型特征在计算机中是无法进行数值计算的经过特征工程之后字符型特征理应都转化成了数值型特征如果发现大宽表中还有遗留的字符型特征这里可以剔除。 缺失率过高 在原始数据中虽然做过缺失值处理的工作但是不排除由于特征匹配或者加工逻辑导致特征中依然存在缺失率过高的情况。一般我们会把缺失率过高例如大于0.9的特征筛除因为这类特征对于整体建模样本而言不具有通用性。 类别过少 有些特征会存在只有一种取值或者标准差为0的情况这说明这类特征本身并没有太多的信息对于这种类别过少的特征可以剔除。 异常值处理 对于特征大宽表中的异常值我们可以利用3sigma原理来界定也就是说距离平均值3个标准差以上的特征值认为是异常值 print(要天天开心)
http://www.zqtcl.cn/news/7364/

相关文章:

  • 华邦网站杭州施必得展示设计有限公司
  • 宝塔建设网站域名进不去高端网站建设哪些好做
  • 网站维护公告模板镇江网站制作费用
  • 网站开发常用技术郑州小程序开发外包
  • 网站的字体做多大电商平台运营是做什么
  • 那些做网站的那些软件都叫啥邯郸哪个公司做网站好
  • 网站前台管理系统2345浏览器网址大全
  • 专门做国外家具书籍的网站seo的最终目的是?
  • php网站留言板模板网站可信图标
  • 电子商务网站运营流程wordpress模板选择
  • 烟台cms建站模板ifm网站做啥的
  • 学校网站建设背景郑州建站模板厂家
  • 推广平台网站制作驾校网站建设方案
  • 网站建设昆山wordpress更新不成功
  • 微信建一个网站企业网站优化暴肃湖南岚鸿很好
  • 任丘建设网站网站建设的策划方案
  • 360云盘做 网站图片服务器做网站用什么开发工具
  • 自己做的网站怎么取sql数据wordpress首页默认中文
  • 郑州服装网站建设做影视网站对宽带要求
  • 深圳网站建设联华十大seo免费软件
  • 烟台建站价格潘家园网站建设公司
  • 做网站需要注意的问题郴州建设公司网站
  • 湘阴网站建设最经济 网站建设
  • 网页设计作业怎么做网站怎么给公司做网站
  • 怎么做网站的icp备案信息百度图像搜索
  • 校园互动平台网站建设阳西县网络问政平台公众号
  • 上海网站建设网页制作联系方式企业所得税怎么征收税率
  • 做爰全过程的视频网站房产网站建设哪家好
  • 广州顺德网站设计wordpress 更改目录权限
  • 安徽海鹏建设工程有限公司网站万万州州微微网站网站建建设设