wordpress网站都有哪些,dw建设手机网站,湛江专业网站建设公司,好123设为主页官网网址大全文章目录 背景具体步骤1.环境搭建2.写个demo1.数据处理2.分割数据集3.用模型训练数据#xff0c;并得到预测结果4.绘制结果5.评估 背景
最近学习了一些关于机器学习的内容#xff0c;做个笔记。
具体步骤
1.环境搭建
需要用到的工具#xff1a;pycharm#xff0c;anaco… 文章目录 背景具体步骤1.环境搭建2.写个demo1.数据处理2.分割数据集3.用模型训练数据并得到预测结果4.绘制结果5.评估 背景
最近学习了一些关于机器学习的内容做个笔记。
具体步骤
1.环境搭建
需要用到的工具pycharmanaconda anaconda可以帮助我们创造虚拟的python环境并在环境当中安装各种所需要的包而且每个虚拟环境都是互相独立的非常方便。 我们可以单独创建一个sklearn的环境用于学习。 在命令行里面打开这个环境并安装所需要的工具
pip install -U scikit-learn
pip install numpy scipy matplotlib其中sklearn集成了常见的一些机器学习的算法可以让我们直接调用https://www.scikitlearn.com.cn/。 NumPy可以做一些科学计算https://www.numpy.org.cn/。 matplotlib是一个绘图工具可以将我们的计算结果绘制成图形https://matplotlib.org/。
anaconda环境搭建好了之后可以在pycharm里面选择使用我们搭建好的python环境 这样就可以开始愉快的玩耍了。
2.写个demo
这个demo是用线性回归模型预测波士顿的房价数据库是来源于sklearn框架。机器学习编程都有一定的套路具体分为以下几步
1.数据处理
原始的load_boston()获取数据库方法从1.2版本已经被移除需要使用链接获取。
其中data就是影响房价的因素如当地的犯罪率房屋年龄房屋间数和就业中心的距离等等target就是房价。
data_url http://lib.stat.cmu.edu/datasets/boston
raw_df pd.read_csv(data_url, sep\s, skiprows22, headerNone)
data np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target raw_df.values[1::2, 2] 2.分割数据集
我们需要将原始的数据集拆分成训练集和测试集这里是三七分当然拆分的比例我们可以自定义。
X data
y target
X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.3, random_state0)
3.用模型训练数据并得到预测结果
注意这里用训练集得到训练模型之后用测试集的输入得到测试集的预测输出。
LR LinearRegression()
LR.fit(X_train, y_train)
y_pred LR.predict(X_test) # 得到预测结果4.绘制结果
这里我们就可以将原始数据测试集的输出和预测输出做个对比并绘制成图形。
# x轴为真实的价格y轴为预测价格
plt.scatter(y_test, y_pred)
plt.xlabel(Real Price)
plt.ylabel(Predicted Price)
plt.title(Real Prices vs Predicted prices)
plt.grid()
# 对比线越接近yx这条线效果越好
x np.arange(0, 50)
y x
plt.plot(x, y, colorred, lw4)
plt.text(30, 40, predict line)
plt.show()图形如下其中红色表示yx的图形方便我们参考对比。 x轴是真实价格y轴是预测价格两个价格越接近表示我们模型训练得越好。
5.评估
我们还可以用方差来进行评估方差值越小表明效果越好
mse metrics.mean_squared_error(y_test, y_pred)
print(mse)我们得到方差值为27看来这个效果比较一般我们需要考虑使用其他的模型来预测房价。