企业网站建设要,怎么做淘宝联盟网站推广,怎样做网站表白墙,开发公司绩效考核评分细则独热编码的两种实现形式#xff1a;
OneHotEncoder和DictVectorizer是两种常用的特征向量化方法#xff0c;用于将分类特征转换为数值特征。但还是有一定的区别不管是再输入格式还是在输出类型上都有一些不同。
区别#xff1a;
输入格式要求#xff1a; OneHotEncod…独热编码的两种实现形式
OneHotEncoder和DictVectorizer是两种常用的特征向量化方法用于将分类特征转换为数值特征。但还是有一定的区别不管是再输入格式还是在输出类型上都有一些不同。
区别
输入格式要求 OneHotEncoder接受二维数组或稀疏矩阵作为输入。需要先对分类特征进行编码为整数标签然后再使用OneHotEncoder进行转换。DictVectorizer接受字典列表或Pandas DataFrame作为输入。每个字典表示一个样本键表示特征名称值表示特征值。 输出类型 OneHotEncoder输出稀疏矩阵。对于大规模数据集和高维度特征可以节省内存空间。DictVectorizer输出稠密矩阵。对于小规模数据集和低维度特征输出的是一个数组。 处理缺失值 OneHotEncoder不直接处理缺失值需要在进行编码之前对缺失值进行处理。DictVectorizer可以通过设置sparseFalse参数将缺失值编码为0或使用其他指定的值。 特征名称的处理 OneHotEncoder不保留特征名称只生成数值编码后的特征。DictVectorizer保留特征名称可以通过get_feature_names()方法获取特征名称。
基础铺垫
X.to_dict()这将返回一个字典其中键是特征列的名称值是特征列对应的 Series 对象。
import pandas as pddata {age: [young, young, young, young, young],prescript: [myope, myope, myope, myope, hyper],astigmatic: [no, no, yes, yes, no],tearRate: [reduced, normal, reduced, normal, reduced]
}
df pd.DataFrame(data)
print(df)
print(df.to_dict())# 字典套字典
print(-----------------)
print(df.to_dict(orientrecords)) # 列表套字典X.to_dict():
{A: {0: 1, 1: 2, 2: 3},B: {0: 4, 1: 5, 2: 6}}X.to_dict(orientrecords):
[{A: 1, B: 4},{A: 2, B: 5},{A: 3, B: 6}] X.values.tolist()这将返回特征矩阵 X 的值作为一个二维列表。每一行代表一个样本每一列代表一个特征。这种方法将DataFrame转换为一个二维列表可以方便地在某些情况下使用例如一些需要输入列表形式的机器学习算法。
import pandas as pddata {age: [young, young, young, young, young],prescript: [myope, myope, myope, myope, hyper],astigmatic: [no, no, yes, yes, no],tearRate: [reduced, normal, reduced, normal, reduced]
}df pd.DataFrame(data)
print(df)
print(df.values.tolist())独热编码实现
方法一
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
data {age: [young, young, young, young, young],prescript: [myope, myope, myope, myope, hyper],astigmatic: [no, no, yes, yes, no],tearRate: [reduced, normal, reduced, normal, reduced]
}df pd.DataFrame(data)
print(df)
vectorizer DictVectorizer(sparseFalse)
# 注意需要将dataframe类型转化为键值对的形式
X_encoded vectorizer.fit_transform(df.to_dict(orientrecords))
print(X_encoded,type(X_encoded))方法二
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.tree import DecisionTreeClassifier
data {age: [young, young, young, young, young],prescript: [myope, myope, myope, myope, hyper],astigmatic: [no, no, yes, yes, no],tearRate: [reduced, normal, reduced, normal, reduced]
}df pd.DataFrame(data)
print(df)X_listdf.values.tolist()
enc OneHotEncoder()
# enc.fit_transform(X_list) 结果是csr_matrix稀疏矩阵类型
X_encodedenc.fit_transform(X_list).toarray()
print(X_encoded,type(X_encoded))总结
总的来说OneHotEncoder适用于处理整数标签编码的分类特征输出稀疏矩阵不处理缺失值并且需要显式拟合和转换数据。DictVectorizer适用于处理字典格式或DataFrame格式的分类特征输出稠密矩阵可以处理缺失值并且不需要显式拟合。选择哪种方法取决于数据的特点和使用的上下文。