win7架设asp网站,wordpress后台可视化编辑器,重庆化工建设信息网站,wordpress自动登录ftp一、 赛题理解
Tip:此部分为零基础入门数据挖掘的 Task1 赛题理解 部分#xff0c;为大家入门数据挖掘比赛提供一个基本的赛题入门讲解#xff0c;欢迎后续大家多多交流。
赛题#xff1a;零基础入门数据挖掘 - 二手车交易价格预测
地址#xff1a;零基础入门数据挖掘 -…一、 赛题理解
Tip:此部分为零基础入门数据挖掘的 Task1 赛题理解 部分为大家入门数据挖掘比赛提供一个基本的赛题入门讲解欢迎后续大家多多交流。
赛题零基础入门数据挖掘 - 二手车交易价格预测
地址零基础入门数据挖掘 - 二手车交易价格预测_学习赛_天池大赛-阿里云天池的赛制
1.1 学习目标 理解赛题数据和目标清楚评分体系。 完成相应报名下载数据和结果提交打卡可提交示例结果熟悉比赛流程
1.2 了解赛题 赛题概况 数据概况 预测指标 分析赛题
1.2.1 赛题概况
赛题以预测二手车的交易价格为任务数据集报名后可见并可下载该数据来自某交易平台的二手车交易记录总数据量超过40w包含31列变量信息其中15列为匿名变量。为了保证比赛的公平性将会从中抽取15万条作为训练集5万条作为测试集A5万条作为测试集B同时会对name、model、brand和regionCode等信息进行脱敏。
通过这道赛题来引导大家走进 AI 数据竞赛的世界主要针对于于竞赛新人进行自我练 习、自我提高。
1.2.2 数据概况 一般而言对于数据在比赛界面都有对应的数据概况介绍匿名特征除外说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。 Tip:匿名特征就是未告知数据列所属的性质的特征列。 train.csv SaleID - 销售样本ID name - 汽车编码 regDate - 汽车注册时间 model - 车型编码 brand - 品牌 bodyType - 车身类型 fuelType - 燃油类型 gearbox - 变速箱 power - 汽车功率 kilometer - 汽车行驶公里 notRepairedDamage - 汽车有尚未修复的损坏 regionCode - 看车地区编码 seller - 销售方 offerType - 报价类型 creatDate - 广告发布时间 price - 汽车价格 v_0, v_1, v_2, v_3, v_4, v_5, v_6, v_7, v_8, v_9, v_10, v_11, v_12, v_13,v_14 【匿名特征包含v0-14在内15个匿名特征】
数字全都脱敏处理都为label encoding形式即数字形式
1.2.3 预测指标 本赛题的评价标准为MAE(Mean Absolute Error): 一般问题评价指标说明:
什么是评估指标 评估指标即是我们对于一个模型效果的数值型量化。有点类似与对于一个商品评价打分而这是针对于模型效果和理想效果之间的一个打分 一般来说分类和回归问题的评价指标有如下一些形式
分类算法常见的评估指标如下 对于二类分类器/分类算法评价指标主要有accuracy [PrecisionRecallF-scorePr曲线]ROC-AUC曲线。 对于多类分类器/分类算法评价指标主要有accuracy [宏平均和微平均F-score]。
对于回归预测类常见的评估指标如下: 平均绝对误差Mean Absolute ErrorMAE均方误差Mean Squared ErrorMSE平均绝对百分误差Mean Absolute Percentage ErrorMAPE均方根误差Root Mean Squared Error R2R-Square 1.2.4. 分析赛题 此题为传统的数据挖掘问题通过数据科学以及机器学习深度学习的办法来进行建模得到结果。 此题是一个典型的回归问题。 主要应用xgb、lgb、catboost以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。 通过EDA来挖掘数据的联系和自我熟悉数据。
1.3 代码示例
本部分为对于数据读取和指标评价的示例。
查看全部内容欢迎访问天池技术圈官方地址Datawhale 零基础入门数据挖掘-Task1 赛题理解_天池notebook-阿里云天池