汽车信息网站设计论文,不动产登记门户网站建设,做网站需要什么备案,网页制作免费网站建设#x1f935;♂️ 个人主页#xff1a;艾派森的个人主页 ✍#x1f3fb;作者简介#xff1a;Python学习者 #x1f40b; 希望大家多多支持#xff0c;我们一起进步#xff01;#x1f604; 如果文章对你有帮助的话#xff0c; 欢迎评论 #x1f4ac;点赞#x1f4… ♂️ 个人主页艾派森的个人主页 ✍作者简介Python学习者 希望大家多多支持我们一起进步 如果文章对你有帮助的话 欢迎评论 点赞 收藏 加关注 目录
一、实验背景
二、实验内容及数据
2.1数据来源
2.2变量描述
三、数据处理
3.1导入模块和数据
3.2数据清洗
四、构建模型
4.1导入模块和数据
4.2变量转换
4.2建立模型
五、模型预测
六、实验总结
文末推荐与福利 一、实验背景 目前随着科技与经济的进步我国高校不断扩招使精英教育逐步转变为惠及每个普通公民的大众教育但另一方面这却导致了应届毕业生就业形势日渐严峻的问题。而毕业生就业日益困难的一个关键原因就在于就业预期偏高且主要表现在对于薪酬的预期过高。这是因为在二十一世纪教育水平、人们生活质量都不断进步和提高的过程当中学生对自我的期望和定位也越来越高然而这却与就业市场环境竞争越来越激烈、企业挑选人才更看重实力而非学历的现状形成强烈矛盾。学生认为的自我能力模型往往和企业招聘选拔标准之间存在偏差因此导致了应届生找工作扎堆在高薪企业而常常忽视自己更有可能应聘成功的普通企业的情况这就在一定程度上促成了就业难的社会现象。因而对毕业生的就业情况进行准确评估制定合理的薪酬预期就显得十分重要。为此人们提出了数据挖掘技术通过对已有毕业生的海量就业原始数据进行分析并发现其中重要的数据模式最终将原始数据转换成有用的信息和知识。常用的数据挖掘技术有很多而机器学习方法则是主要的数据挖掘技术之一。机器学习能够利用数据进行训练并总结学习经验最终根据训练结果得出数据的分析理解模型所以有效地利用机器学习技术可以帮助我们理解和分析数据进行建模训练来实现预测未知毕业生就业水平的目的以期达到帮助毕业生建立合理的就业预期提高就业率的最终目的。 数据挖掘是涉及到人工智能、机器学、统计学以及数据库系统的交叉领域的一种在大数据中发现潜在信息的计算过程因此它属于计算机科学的一个跨学科的子领域。数据挖掘过程的总体目标是从大量的数据集中提取信息并将其转化成可以理解的结构用于进一步使用。分类作为数据挖掘领域的一个重要分枝是模式识别的一个实例。分类是在分析包含各个类别的已知类别数据样本集的基础上识别未知类别数据样本所属分类的过程。分类算法作为一个主要的研究领域包含很多分枝其中常用的分类方法主要包括决策树方法、人工神经网络方法、支持向量机、向量空间模型、贝叶斯、K-近邻分类算法以及基于关联规则的分类算法。除此之外目前融合多种算法的集成学习算法也逐渐成为研究的热门领域例如Bagging和Boosting等。本实验主要运用决策树DecisionTrees方法进行预测模型研究。
二、实验内容及数据
2.1数据来源 项目数据来自前程无忧、拉勾网、51job等招聘网站的招聘信息涉及职位、公司名称、地区、公司类别、公司规模、行业类别、工作经验、学历、人数、职位描述、最低薪资、最高薪资。本数据集仅保留无缺省值的7093个数据和4个参数分别是学历、地区、工作经验、最高薪资原始数据部分如图 针对因学生对薪酬预期过高导致就业难的问题本实践首先对数据集中的薪资、工作经验进行可视化分析然后利用基于决策树的分类算法对数据分析师的就业数据进行预测建立了薪酬预测模型。
2.2变量描述 薪资水平不仅和个人的能力相关联也和企业甚至社会存在密切关系受到很多主客观因素的影响因此薪资预测是一个相当复杂的计算过程。而且由于此处是利用招聘信息来预测其可能的录取薪资因此还与招聘的信息完整度有关系因此提取特征的好坏对模型的影响至关重要。此处采用了手动选择的方式来提取特征特征信息可以分为以下几种类型
1.个人因素
招聘信息中属于个人因素的有年龄、性别、地区、联系电话以及Email。其中名字、联系电话以及Email属于唯一标识属性与薪资预测没有任何关联年龄和性别是个人的基本属性某些岗位可能对它们有一定的要求因此它们对于薪资预测有一定的隐性影响地区在一定程度上能够反映的一个人在某地可能停留的时间对于薪资预测具有重要影响。
2.学校因素
招聘信息中属于学校因素的有学历、专业。学历及专业能够反映一个人的学习能力和基本技能对薪资预测有重要影响是薪资预测模型中关键特征因素。
3.社会因素
招聘信息中属于社会因素的有工作经验、工作公司、工作岗位。其中工作经验能够反映个人的适应能力以及对技能的熟练度是薪资预测的关键特征因素因此也将其作为薪资预测模型的数据特征之一工作公司与工作岗位是一种随机因素与薪资预测无关。
综上所述薪资预测所用到的数据特征包括岗位、地区、学历、工作公司、工作经验等。由于从招聘网站中提取出来的信息一般都是字符型数据然而薪资预测模型必须采用数值型数据作为训练数据集因此还需要对这些数据特征进行一些数据预处理操作例如将其从字符型数据转换成数值型数据和对数值进行标准化和归一化操作等薪资预测模型的数据特征基本情况如表所示。其中在实际情况中的特征应该不止3种但是本实践所用到的薪资预测模型的实验数据仅从数据库的所有数据中抽取了其中3种岗位的相关数据。
表1变量说明 变量名 说明 Salary 薪资 WorkYear 工作经验 Education 学历 Area 地区
后三个为特征薪资为标签。在实际生活中薪资水平与很多因素相关包括了个人因素、公司因素和社会因素等薪资预测过程会相当复杂。但是由于此处是利用招聘的内容信息来实现薪资预测而且招聘信息存在着很多种不同的版本不同版本的招聘之间的内容和格式都有可能不尽相同因此为了简化训练模型结构和减少数据处理此处仅提取了招聘中通用的关键因素。
三、数据处理
3.1导入模块和数据
进行可视化分析程序编写前先导入我们所需要的模块。 首先将数据集导入读取文件以获得数据。 3.2数据清洗 数据的采集决定着原始数据的整洁程度而数据的质量对最终的建模起着关键性的作用所以需要对这些原始数据进行相关的预处理才能对数据进行建模如果直接对原始数据进行建模则可能会导致所建的模型不准确错误的模型得到分析结果就可能会有错误这样就会严重误导决策。一个完整的建模过程中60%的时间和精力是用来进行数据的抽样、数据的清洗与数据的转换等相关数据预处理工作。本实践在获取的招聘岗位数据中有许多脏数据的产生如各种乱入符号数据记录错误数值变量混有文本等所以对原始数据的清洗过程在机器学习过程中是至关重要的。数据清洗就是将重复、多余的异常数据进行筛选清除将缺失的异常数据进行补充完整将错误的数据进行纠正或者删除最后将数据整理成为我们可以进一步加工、使用的数据。对数据清洗的一般方法和步骤有分析数据、缺失值处理、异常值处理、去重处理、噪音数据处理等。
1.描述性统计 本实践首先对获取的网络招聘岗位数据进行了缺失值处理在清洗数据的过程中结合了python中的两个常用工具库pandas和numpy利用其封装的数据分析方法和计算能力对数进行清洗。首先进行了数据信息的统计通过对数据信息的统计包含有公司名称、公司类别、公司规模、行业类别、人数、岗位描述这样的信息这些变量中信息的缺失值较多由于这列变量中的数据对薪资的预测结果产生影响不是很重要因此采用了删除法对这列特征进行了删除。在其它文本特征变量的数据中对存在的少量缺失值可以利用填充法进行处理并且查看描述性统计确认是否存在异常值或者缺失值。 2.预处理 薪资的分布比较多总计有75种为了更好地进行分析我们要对薪资做一个预处理。根据其分布情况可以将它分成(5k以下、5k-10k、10k-20k、20k-30k、30k-40k、40k以上)为了更加方便我们分析取每个最低薪资范围的中位数并划分到我们指定的范围内。 3.可视化分析 通过对文本数据的处理为了能以更好的效果展示出数据分析师的薪酬分布本实践利用可视化图像对其进行分析。可视化是利用图像处理技术和计算机图形学将数据转变成人眼可感知的图像它是通过形状、色彩、位置、亮度等对数据属性进行描述以便用户可以快捷地获得最有效的信息。本实践利用python环境对薪资、地区、学历通过代码的形式把数据中出现频率以视觉化展示出来使浏览者一眼就可以看出数据信息。 从图可以看出数据分析师的薪资分布在5k-10k的比例最多多达40.58%5k以下占据比例也较多在35%以上在一线城市数据分析师的薪资也能达到10k-20k薪资水平超20%薪资达到20-30k的就较为少见只有2%左右30k-40k的薪资十分罕见仅占0.54%40k以上只占0.118%。 针对应届毕业生就业困难我们主要关注企业招聘数据分析师对于工作经验的需求是否强烈因此运用柱状图进行可视化分析工作经验。 由图中可以看出工作经验对于数据分析师来说没有工作经验的应届毕业生的需求较为可观对1-3年工作经验的需求减半四年以上工作经验的基本较少。 地区不同薪资水平也有所不同。所以可视化分析还可以针对性获得出不同地区对数据分析师的需求。在代码中只需更改“经验”为“地区”。 从图中也可以看出类似上海这一经济发达的地区对于数据分析师的需求量巨大薪资也十分丰厚北京、深圳等地区稍微落后但需求量也十分可观但类似陕西、河北、山西等经济不太发达的地区对于数据分析师的需求量不大。一线城市与数据相关岗位的工作机会多、工作需求量大、且薪资也较为丰厚。 在代码中更改“经验”为“学历”“WorkExperience”为“Education”,可以得到以下的图。 从图中可以看出数据分析师对于大专、本科生的需求量巨大数据分析师这一工作对于学历达到硕士、博士的毕业生基本不太需求。这一数据也可能的原因也许是因为本科生及以下就可以胜任数据分析的工作类似高学历人才可以去担任更为重要、关键、不可替代的工作岗位。
四、构建模型 在第三章中通过可视化分析技术对数据集里的的招聘信息进行了预处理和统计分析得到了各指标因素对岗位薪资关联的强弱在建立的岗位薪资预测模型中本章将通过对这些变量特征以最低薪资为因变量建立薪资预测模型。
4.1导入模块和数据
首先需要准备一个测试集因此新建text1.csv文件。
处理完成后将“薪资”单独提取出来当作训练集的label。 4.2变量转换 经过对数据的清洗与预处理及可视化分析并且与薪资水平相关特征之间的影响进行了分析。在建模之前需要对特征进行处理因为在这些特征salary是连续的数值型特征其余特征都是离散型的文本分类变量需要对这些属于离散型特征转换成可以量化的特征向量以便计算机识别。独热编码One-HotEncoding是对离散型的文本分类变量特征最常用的处理方法。One-Hot编码又称一位有效编码,它的功能主要是将分类变量特征转换成二进制向量表示。可以这样理解在数据中的每一个特征如果可能有N个值在通过One-Hot编码后就会转换成N个二元特征比如学历要求有“大专”,“本科”,“硕士”,“不限”则可以用字典表示成这样“大专”:0,“本科”:1,“硕士”:0,“不限”:0用向量表示为[0,1,0,0]。并且经过编码的特征都是互斥的每次只能激活一个。而且对于分类器不好处理的属性数据可以使用One-Hot编码解决这样也可以起到扩充特征的作用。但One-Hot编码的缺点就是会使得矩阵变得稀疏。本文对获取招聘数据中的地区、学历、岗位、经验等这些离散型的分类特征进行处理时利用python中包含One-Hot编码的开源工具首先从Scikit-learn模块中导入preprocessing包然后通过One-Hot编码将离散型的分类特征转化为二进制的向量表示。由于变量都不是numerical变量在训练的时候计算机没办法识别因此要对它们进行转换。当我们用numerical来表达categorical的时候要注意数字本身有大小的含义所以乱用数字会给之后的模型学习带来麻烦。于是我们可以用One-Hot的方法来表达category。pandas自带的get_dummies方法可以一键做到One-Hot。在此之前将测试集和训练集组合起来一起处理。 由于是对于薪资预测我们主要关注学历和经验这两个因素对于薪酬的影响。把每种学历都按经验分类为0年、1年、3年、5年、8年、10年等进行训练。
选择参数前需要把训练集和测试集分开。 4.2建立模型
1.交叉验证 通过特征选择的重要变量为地区、学历、经验由于自变量为分类型变量用机器学习方法进行回归建模是最好的选择。在机器学习里通常来说我们不能将全部用于数据训练模型否则我们将没有数据集对该模型进行验证从而评估我们的模型的预测效果。为了解决这一问题常用有交叉验证。 交叉验证(Cross-validation)主要用于建模应用中例如PCR、PLS回归建模中。在给定的建模样本中拿出大部分样本进行建模型留小部分样本用刚建立的模型进行预报并求这小部分样本的预报误差记录它们的平方加和。 用交叉验证的目的是为了得到可靠稳定的模型。在建立PCR或PLS模型时一个很重要的因素是取多少个主成分的问题。用crossvalidation校验每个主成分下的PRESS值选择PRESS值小的主成分数。或PRESS值不再变小时的主成分数。
2.参数选择
决策树DecisionTree是一种基本的分类与回归方法当决策树用于分类时称为分类树用于回归时称为回归树。决策树由结点和有向边组成。结点有两种类型内部结点和叶结点其中内部结点表示一个特征或属性叶结点表示一个类。一般的一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果其他每个结点则对应于一个属性测试。每个结点包含的样本集合根据属性测试的结果被划分到子结点中根结点包含样本全集从根结点到每个叶结点的路径对应了一个判定测试序列。在下图中圆和方框分别表示内部结点和叶结点。决策树学习的目的是为了产生一棵泛化能力强即处理未见示例能力强的决策树。 从图可见当max_features0.5时达到最大大概有0.4931。
本实验将采用sklearn的AdaBoostClassifieradaptiveboosting通过改变训练样本的权值学习多个分类器并将这些分类器进行线性组合提高泛化性能。 当estimators10的时候score最高大概有0.5虽然跟单个决策树的score的值相差不大但总体还是有所提升。
五、模型预测
通过模型在训练集上的训练得到模型的最优参数之后将参数代入薪资预测模型在验证集上预测岗位薪资代码如图所示 运行结果如下所示 从图中可以看出本文所建立的薪资预测模型具有较好的预测能力boosting集成学习得到的数据更为真实可信。大部分应届毕业生的预测薪资都在5-10k的区间内与真实薪资很接近随着工作经验的增长薪资也会随之增长。而数据分析师这一岗位技术性较强在学历方面的区分度并不明显由于高年限的工作经验岗位需求不高所以得到的数据与真实数据有一定偏差但不影响实验数据预测的可靠性。
六、实验总结
综合第三章数据处理、可视化分析及第四章模型建立的结果可以得出以下结论
目前大陆地区对数据分析师的需求主要集中在北京、上海、深圳地区相应提供的薪资水平也是这三个地区居于前面证实了经济较好的地区对该岗位的需求更好、待遇更好因而对于互联网等相关企业北上广深依旧是广大求职者的目标地区从数据统计情况来看针对数据分析师在学历方面的要求目前是学历越高薪资待遇越好但相反的是学历越高岗位需求并非越大而针对数据分析师在经验上的要求目前是经验在3年及以上的岗位缺口更大综合学历与经验两方面对于当下应届毕业生来说学历越高越有优势对于非应届生社会成员来说经验则是更大的优势这一结果也如同当下社会教育形势一般越来越多的人通过升学来获得更好的就业机会同时提高自己的能力以填补经验的不足等针对岗位所必备的要求和技能数据分析师不仅仅要具备基本数据处理以及分析能力更要具备将数据可视化、结合业务以及产品的能力从而推进企业更好的运营基于此如果需要求职该岗位则需要在本身专业范围内学习更多的技能加以傍身才是进入该行业的捷径。
针对本次实验的工作有如下问题待改正
数据清理部分缺失值处理时删除了大量全部字段都空缺的样本其余整体确实部分都在“薪资部分”当中并未利用缺失部分当作此次项目的待测集针对字段信息错位的作没有相应调整对自身详情数据缺失的部分不会单独作一类处理变量处理中对分类变量中单一分类较少的样本合并该变量并对地区特征进行分类最后整理好的多分类变量作哑变量处理可视化分析中没能清晰分类比较地区、岗位要求等对薪资的影响模型选择中只选择了两种回归模型对数据集进行训练及拟合最后选择boosting集成学习为最终预测模型在本次模型训练中模型效果并不太好可能原因有数据本身特征不充分比如未考虑到企业的规模企业的性质等等。 文末推荐与福利 《AI绘画实战Midjourney从新手到高手》和《从概念到现实ChatGPT和Midjourney的设计之旅》二选一免费包邮送出3本 《AI绘画实战Midjourney从新手到高手》内容简介 本书以目前AI领域中非常主流的绘画工具之一Midjourney为核心介绍了Midjourney绘画的各种使用方法与技巧。 全书共7章详细介绍了Midjourney的基础知识、指令、参数、进阶操作技巧以及大量实操案例从最基础的知识讲起详细介绍Midjourney生成作品的全流程能够为零基础的读者提供全面指 导帮助他们快速掌握AI绘画技能同时本书也适合具备一定绘画基础希望进一步探索和应用AI技术的读者阅读。帮助读者快速上手Midjourney掌握AI绘画的各种技能。 本书适合对AI绘画感兴趣的零基础读者以及有一定AI绘画基础的读者阅读。 购买链接 当当链接http://product.dangdang.com/29658182.html 京东链接https://item.jd.com/13953813.html 《从概念到现实ChatGPT和Midjourney的设计之旅》内容简介 本书详细介绍了ChatGPT与Midjourney的使用方法和应用场景并结合设计案例讲解了如何利用AIGC辅助不同行业的设计师提升工作效率和创造力共涉及8个应用领域近60个案例演示生动展示了各行各业中融入AIGC技术的设计成果为设计师提供了更开阔的设计思路。同时书中还有很多实用的技巧和建议可以帮助设计师更快地掌握相关技术。对于不熟悉AI技术的设计师来说这将是一本很有价值的指南书。通过阅读《从概念到现实ChatGPT和Midjourney的设计之旅》插画设计师、UI和UX设计师、游戏设计师、电商设计师、文创设计师、服装设计师、家居建筑设计师、工业设计师及相关设计人员可以更好地理解AI工具的工作原理并更加灵活地加以运用。 购买链接 当当链接http://product.dangdang.com/29628718.html 京东链接https://item.jd.com/13864763.html 抽奖方式评论区随机抽取3位小伙伴免费送出参与方式关注博主、点赞、收藏、评论区评论“人生苦短拒绝内卷”切记要点赞收藏否则抽奖无效每个人最多评论三次活动截止时间2023-12-29 20:00:00 名单公布时间2023-12-29 21:00:00 资料获取更多粉丝福利关注下方公众号获取