陕西建设银行网站,查排名的软件有哪些,网络推广培训吧,怎么给网站设置关键字1.前言
K-mean 是无监督的聚类算法 算法分类#xff1a; 2.实现步骤
1.数据加工#xff1a;把数据转为全数字#xff08;比如性别男女#xff0c;转换为0 和 1#xff09;
2.模型训练 fit
3.预测
3.代码
原数据类似这样(source#xff1a;http:img-blog.csdnimg.cn… 1.前言
K-mean 是无监督的聚类算法 算法分类 2.实现步骤
1.数据加工把数据转为全数字比如性别男女转换为0 和 1
2.模型训练 fit
3.预测
3.代码
原数据类似这样(sourcehttp:img-blog.csdnimg.cn/20201212150816452.png 代码
from sklearn.cluster import KMeans
from sklearn import preprocessingskill_info_df.to_excel(C:/work/20230224待分类数据/test.xlsx)# fordrop the string people Chinese name
for_train_skill_info_df skill_info_df.iloc[:, 1:]# set k
k_model KMeans(n_clusters5)# 数据归一化
min_max_scaler preprocessing.MinMaxScaler()train_x min_max_scaler.fit_transform(for_train_skill_info_df)# 训练模型
k_model.fit(train_x)predict_y k_model.predict(train_x)print(predict_y)# add predict result to data
skill_info_df[class] predict_yskill_info_df.to_excel(C:/work/20230224预测结果/classified_info.xlsx)
4.常见问题
4.1 数据加工: 行列转换
python实现列转行--pivot_table函数-CSDN博客
pspivot 函数遇到为空情况填充NAN导入模型会报字符串非数字错误。 解决办法设置 fill_value 参数数据为空情况处理默认填充NAN值。可以修改如果原数据为空比如设为0 4.2 数据加工查找df行特定列的值
问题描述当使用 isin 函数 或者 判断时候返回的是Series 数据类型。不是单独的数值all_prod_df[all_prod_df[product_id].isin(sample_list)]
直接投到模型中训练会报错
pandas的iloc和loc行列定位-CSDN博客 4.3 修改df数据中的男女为 0 1
basic_info_df[性别][basic_info_df[性别] 男] 1
basic_info_df[性别][basic_info_df[性别] 女] 0 4.4 df中新增一列根据list新增
方法1直接指定df列名赋值为list即可
skill_info_df[age] age_list
ps:list的长度要和df对齐
方法二 df新增一列数据并指定列名-CSDN博客
4.5 根据df的几列创建新的df
直接 df1 df[[ 列名 ]]
python中dataframedf中挑选几列生成新df-CSDN博客