当前位置: 首页 > news >正文

佛山做礼物的网站网站建设项目验收付款

佛山做礼物的网站,网站建设项目验收付款,百度搜索量排名,推荐坪地网站建设代码开源链接#xff1a;GitHub - wujiekd/Predicting-used-car-prices: 阿里天池与Datawhale联合举办二手车价格预测比赛#xff1a;优胜奖方案代码总结 比赛介绍 赛题以二手车市场为背景#xff0c;要求选手预测二手汽车的交易价格#xff0c;这是一个典型的回归问题。…代码开源链接GitHub - wujiekd/Predicting-used-car-prices: 阿里天池与Datawhale联合举办二手车价格预测比赛优胜奖方案代码总结 比赛介绍 赛题以二手车市场为背景要求选手预测二手汽车的交易价格这是一个典型的回归问题。 其他具体流程可以看比赛官网。 数据处理 1、box-cox变换目标值“price”解决长尾分布。 2、删除与目标值无关的列例如“SaleID”“name”。这里可以挖掘一下“name”的频度作为新的特征。 3、异常点处理删除训练集特有的数据例如删除“seller”1的值。 4、缺失值处理分类特征填充众数连续特征填充平均值。 5、其他特别处理把取值无变化的列删掉。 6、异常值处理按照题目要求“power”位于0600因此把“power”600的值截断至600把notRepairedDamage的非数值的值替换为np.nan让模型自行处理。 特征工程 1、时间地区类 从“regDate”“creatDate”可以获得年、月、日等一系列的新特征然后做差可以获得使用年长和使用天数这些新特征。 “regionCode”没有保留。 因为尝试了一系列方法并且发现了可能会泄漏“price”因此最终没保留该特征。 2、分类特征 对可分类的连续特征进行分桶kilometer是已经分桶了。 然后对power和model进行了分桶。 使用分类特征“brand”、“model”、“kilometer”、“bodyType”、“fuelType”与“price”、“days”、“power”进行特征交叉。 交叉主要获得的是后者的总数、方差、最大值、最小值、平均数、众数、峰度等等 这里可以获得非常多的新特征挑选的时候直接使用lightgbm帮我们去选择特征一组组的放进去最终保留了以下特征。注意这里使用1/4的训练集进行挑选可以帮助我们更快的锁定真正Work的特征 model_power_sum,model_power_std, model_power_median, model_power_max, brand_price_max, brand_price_median, brand_price_sum, brand_price_std, model_days_sum,model_days_std, model_days_median, model_days_max, model_amount,model_price_max, model_price_median,model_price_min, model_price_sum, model_price_std, model_price_mean3、连续特征 使用了置信度排名靠前的匿名特征“v_0”、“v_3”与“price”进行交叉测试方法以上述一样效果并不理想。 因为都是匿名特征比较训练集和测试集分布分析完基本没什么问题并且它们在lightgbm的输出的重要性都是非常高的所以先暂且全部保留。 4、补充特征工程 主要是对输出重要度非常高的特征进行处理特征工程一期 对14个匿名特征使用乘法处理得到14*14个特征 使用sklearn的自动特征选择帮我们去筛选大概运行了半天的时间。 大致方法如下 from mlxtend.feature_selection import SequentialFeatureSelector as SFS from sklearn.linear_model import LinearRegression sfs SFS(LGBMRegressor(n_estimators 1000,objectivemae ),k_features50,forwardTrue,floatingFalse,cv 0)sfs.fit(X_data, Y_data) print(sfs.k_feature_names_)最终筛选得到 new3*3, new12*14, new2*14,new14*14特征工程二期 对14个匿名特征使用加法处理得到14*14个特征 这次不选择使用自动特征选择了因为运行实在太慢了笔记本耗不起。 使用的方法是删除相关性高的变量,把要删除的特征记录下来 大致方法如下剔除相关度0.95的 corr X_data.corr(methodspearman) feature_group list(itertools.combinations(corr.columns, 2)) print(feature_group)# 删除相关性高的变量,调试好直接去主函数进行剔除 def filter_corr(corr, cutoff0.7):cols []for i,j in feature_group:if corr.loc[i, j] cutoff:print(i,j,corr.loc[i, j])i_avg corr[i][corr[i] ! 1].mean()j_avg corr[j][corr[j] ! 1].mean()if i_avg j_avg:cols.append(i)else:cols.append(j)return set(cols)drop_cols filter_corr(corr, cutoff0.95) print(drop_cols)最终获得的应该删除的特征为 [new146, new136, new012, new911, v_3, new1110, new1014, new124, new34, new1111, new133, new81, new17, new1114, new813, v_8, v_0, new35, new29, new92, new011, new137, new811, new512, new1010, new138, new1113, new79, v_1, new74, new134, v_7, new56, new73, new910, new1112, new05, new413, new80, new07, new128, new108, new1314, new57, new27, v_4, v_10, new48, new814, new59, new913, new212, new58, new312, new010, new90, new111, new84, new118, new11, new105, new82, new61, new21, new112, new25, new014, new47, new149, new02, new41, new711, new1310, new63, new110, v_9, new36, new121, new93, new45, new129, new38, new08, new18, new16, new109, new54, new131, new37, new64, new67, new130, new114, new311, new68, new09, new214, new62, new1212, new712, new126, new1214, new410, new24, new60, new39, new28, new611, new310, new70, v_11, new13, new83, new1213, new19, new1013, new510, new22, new69, new710, new00, new117, new213, new111, new511, new46, new122, new44, new614, new01, new414, v_5, new411, v_6, new04, new15, new314, new210, new94, new26, new1414, new116, new91, new313, new1313, new106, new23, new211, new14, v_2, new513, new42, new06, new713, new89, new912, new013, new1012, new514, new610, new107, v_13, new52, new613, new914, new139, new147, new812, new33, new612, v_12, new144, new119, new127, new49, new412, new113, new03, new810, new1311, new78, new714, v_14, new1011, new148, new12]]特征工程三、四期 这两期的效果不明显为了不让特征冗余所以选择不添加这两期的特征具体的操作可以在feature处理的代码中看到。 5、神经网络的特征工程补充说明 以上特征工程处理都是针对于树模型来进行的接下来简单说明神经网络的数据预处理。 各位都知道由于NN的不可解释性可以生成大量的我们所不清楚的特征因此我们对于NN的数据预处理只要简单处理异常值以及缺失值。 大部分的方法都包含在以上针对树模型数据处理方法中重点讲述几个不同点 在对于“notRepairedDamage”的编码处理对于二分类的缺失值往往取其中间值。 在对于其他缺失值的填充在测试了效果后发现填充众数的效果比平均数更好因此均填充众数。 选择的模型 本次比赛我选择的是lightgbmcatboostneural network。 本来也想使用XGBoost的不过因为它需要使用二阶导因此目标函数没有MAE并且用于逼近的一些自定义函数效果也不理想因此没有选择使用它。 经过上述的数据预处理以及特征工程 树模型的输入有83个特征神经网络的输入有29个特征。 1、lightgbm和catboost 因为它们都是树模型因此我同时对这两个模型进行分析 第一lgb和cab的训练收敛速度非常快比同样参数的xgb快非常多。 第二它们可以处理缺失值计算取值的增益择优录取。 第三调整正则化系数均使用正则化防止过拟合。 第四降低学习率获得更小MAE的验证集预测输出。 第五调整早停轮数防止陷入过拟合或欠拟合。 第六均使用交叉验证使用十折交叉验证减小过拟合。 其他参数设置无明显上分迹象以代码为准不一一阐述。 查看本文全部内容欢迎访问天池技术圈官方地址二手车价格预测第十三名方案总结_天池技术圈-阿里云天池
http://www.zqtcl.cn/news/459945/

相关文章:

  • 网站设计制作公司推荐自己做商务网站有什么利弊
  • 传媒网站杨浦网站建设哪家好
  • 500m主机空间能做视频网站吗做中文网站的公司
  • 网站建设规划模板公司网站建设论文
  • p2p网站开发的内容广东世纪达建设集团有限公司官方网站
  • 网站基本建设是什么o元做网站
  • 南昌做购物网站的公司mc做弊端网站
  • 汕头制作网站推荐文化建设五大工程
  • 公司购物网站备案遵义市乡村街道建设投诉网站
  • ps做景观有哪些素材网站网站推广软文
  • 医疗类网站备案dw网页设计期末作业源代码
  • 网站建设开发合同别具光芒 Flash互动网站设计
  • app导航网站建设多少钱网页游戏破解版
  • 布吉做棋牌网站建设哪家服务好青海做高端网站建设的公司
  • 邙山郑州网站建设好看手机网站推荐
  • 北京建设网官方网站外贸wordpress收款插件
  • 网站关键词进前三响应式手机网站模版
  • 网站采集来源制作好网站
  • 哪个网站有工笔教程免费物流公司网站模板
  • 网站怎么做才有收录西安建设工程信息网人员查询
  • 用dedecms做的网站电子商务公司名称大全简单大气
  • 网站建设的业务员wordpress font awesome
  • 艺术公司网站定制中心怎么搜索网站搜索量
  • 陕西网站建设设计公司西部数码网站管理助手破解版
  • 网站建设框架构建正规的app网站开发
  • 离退休工作网站建设方案wordpress在线浏览pdf
  • 昆明免费网站制作wordpress自定义路由
  • html5视频网站开发江西响应式网站制作
  • 网站照片加水印家装公司十大口碑排名
  • 做网站还有用PHP网站开发如何建立vip