当前位置：首页 > news >正文

佛山做礼物的网站网站建设项目验收付款

news 2025/11/14 11:38:31

佛山做礼物的网站,网站建设项目验收付款,百度搜索量排名,推荐坪地网站建设代码开源链接#xff1a;GitHub - wujiekd/Predicting-used-car-prices: 阿里天池与Datawhale联合举办二手车价格预测比赛#xff1a;优胜奖方案代码总结比赛介绍赛题以二手车市场为背景#xff0c;要求选手预测二手汽车的交易价格#xff0c;这是一个典型的回归问题。…代码开源链接GitHub - wujiekd/Predicting-used-car-prices: 阿里天池与Datawhale联合举办二手车价格预测比赛优胜奖方案代码总结比赛介绍赛题以二手车市场为背景要求选手预测二手汽车的交易价格这是一个典型的回归问题。其他具体流程可以看比赛官网。数据处理 1、box-cox变换目标值“price”解决长尾分布。 2、删除与目标值无关的列例如“SaleID”“name”。这里可以挖掘一下“name”的频度作为新的特征。 3、异常点处理删除训练集特有的数据例如删除“seller”1的值。 4、缺失值处理分类特征填充众数连续特征填充平均值。 5、其他特别处理把取值无变化的列删掉。 6、异常值处理按照题目要求“power”位于0600因此把“power”600的值截断至600把notRepairedDamage的非数值的值替换为np.nan让模型自行处理。特征工程 1、时间地区类从“regDate”“creatDate”可以获得年、月、日等一系列的新特征然后做差可以获得使用年长和使用天数这些新特征。 “regionCode”没有保留。因为尝试了一系列方法并且发现了可能会泄漏“price”因此最终没保留该特征。 2、分类特征对可分类的连续特征进行分桶kilometer是已经分桶了。然后对power和model进行了分桶。使用分类特征“brand”、“model”、“kilometer”、“bodyType”、“fuelType”与“price”、“days”、“power”进行特征交叉。交叉主要获得的是后者的总数、方差、最大值、最小值、平均数、众数、峰度等等这里可以获得非常多的新特征挑选的时候直接使用lightgbm帮我们去选择特征一组组的放进去最终保留了以下特征。注意这里使用1/4的训练集进行挑选可以帮助我们更快的锁定真正Work的特征 model_power_sum,model_power_std, model_power_median, model_power_max, brand_price_max, brand_price_median, brand_price_sum, brand_price_std, model_days_sum,model_days_std, model_days_median, model_days_max, model_amount,model_price_max, model_price_median,model_price_min, model_price_sum, model_price_std, model_price_mean3、连续特征使用了置信度排名靠前的匿名特征“v_0”、“v_3”与“price”进行交叉测试方法以上述一样效果并不理想。因为都是匿名特征比较训练集和测试集分布分析完基本没什么问题并且它们在lightgbm的输出的重要性都是非常高的所以先暂且全部保留。 4、补充特征工程主要是对输出重要度非常高的特征进行处理特征工程一期对14个匿名特征使用乘法处理得到14*14个特征使用sklearn的自动特征选择帮我们去筛选大概运行了半天的时间。大致方法如下 from mlxtend.feature_selection import SequentialFeatureSelector as SFS from sklearn.linear_model import LinearRegression sfs SFS(LGBMRegressor(n_estimators 1000,objectivemae ),k_features50,forwardTrue,floatingFalse,cv 0)sfs.fit(X_data, Y_data) print(sfs.k_feature_names_)最终筛选得到 new3*3, new12*14, new2*14,new14*14特征工程二期对14个匿名特征使用加法处理得到14*14个特征这次不选择使用自动特征选择了因为运行实在太慢了笔记本耗不起。使用的方法是删除相关性高的变量,把要删除的特征记录下来大致方法如下剔除相关度0.95的 corr X_data.corr(methodspearman) feature_group list(itertools.combinations(corr.columns, 2)) print(feature_group)# 删除相关性高的变量,调试好直接去主函数进行剔除 def filter_corr(corr, cutoff0.7):cols []for i,j in feature_group:if corr.loc[i, j] cutoff:print(i,j,corr.loc[i, j])i_avg corr[i][corr[i] ! 1].mean()j_avg corr[j][corr[j] ! 1].mean()if i_avg j_avg:cols.append(i)else:cols.append(j)return set(cols)drop_cols filter_corr(corr, cutoff0.95) print(drop_cols)最终获得的应该删除的特征为 [new146, new136, new012, new911, v_3, new1110, new1014, new124, new34, new1111, new133, new81, new17, new1114, new813, v_8, v_0, new35, new29, new92, new011, new137, new811, new512, new1010, new138, new1113, new79, v_1, new74, new134, v_7, new56, new73, new910, new1112, new05, new413, new80, new07, new128, new108, new1314, new57, new27, v_4, v_10, new48, new814, new59, new913, new212, new58, new312, new010, new90, new111, new84, new118, new11, new105, new82, new61, new21, new112, new25, new014, new47, new149, new02, new41, new711, new1310, new63, new110, v_9, new36, new121, new93, new45, new129, new38, new08, new18, new16, new109, new54, new131, new37, new64, new67, new130, new114, new311, new68, new09, new214, new62, new1212, new712, new126, new1214, new410, new24, new60, new39, new28, new611, new310, new70, v_11, new13, new83, new1213, new19, new1013, new510, new22, new69, new710, new00, new117, new213, new111, new511, new46, new122, new44, new614, new01, new414, v_5, new411, v_6, new04, new15, new314, new210, new94, new26, new1414, new116, new91, new313, new1313, new106, new23, new211, new14, v_2, new513, new42, new06, new713, new89, new912, new013, new1012, new514, new610, new107, v_13, new52, new613, new914, new139, new147, new812, new33, new612, v_12, new144, new119, new127, new49, new412, new113, new03, new810, new1311, new78, new714, v_14, new1011, new148, new12]]特征工程三、四期这两期的效果不明显为了不让特征冗余所以选择不添加这两期的特征具体的操作可以在feature处理的代码中看到。 5、神经网络的特征工程补充说明以上特征工程处理都是针对于树模型来进行的接下来简单说明神经网络的数据预处理。各位都知道由于NN的不可解释性可以生成大量的我们所不清楚的特征因此我们对于NN的数据预处理只要简单处理异常值以及缺失值。大部分的方法都包含在以上针对树模型数据处理方法中重点讲述几个不同点在对于“notRepairedDamage”的编码处理对于二分类的缺失值往往取其中间值。在对于其他缺失值的填充在测试了效果后发现填充众数的效果比平均数更好因此均填充众数。选择的模型本次比赛我选择的是lightgbmcatboostneural network。本来也想使用XGBoost的不过因为它需要使用二阶导因此目标函数没有MAE并且用于逼近的一些自定义函数效果也不理想因此没有选择使用它。经过上述的数据预处理以及特征工程树模型的输入有83个特征神经网络的输入有29个特征。 1、lightgbm和catboost 因为它们都是树模型因此我同时对这两个模型进行分析第一lgb和cab的训练收敛速度非常快比同样参数的xgb快非常多。第二它们可以处理缺失值计算取值的增益择优录取。第三调整正则化系数均使用正则化防止过拟合。第四降低学习率获得更小MAE的验证集预测输出。第五调整早停轮数防止陷入过拟合或欠拟合。第六均使用交叉验证使用十折交叉验证减小过拟合。其他参数设置无明显上分迹象以代码为准不一一阐述。查看本文全部内容欢迎访问天池技术圈官方地址二手车价格预测第十三名方案总结_天池技术圈-阿里云天池

查看全文

http://www.zqtcl.cn/news/459945/