一个新的网站怎么做SEO优化,中企动力企业邮箱登陆首页,测网站打开的速度的网址,手机网站开发c 教程一、任务
SMS垃圾短信集是一组为研究SMS垃圾短信而收集数据集合#xff0c;每条短信有两个信息#xff0c;分别是标签信息label#xff0c;其中spam为垃圾短信#xff0c;ham为正常短信。以及message信息为短信内容。现在有训练集#xff0c;训练集保存在E:\自然语言处理…一、任务
SMS垃圾短信集是一组为研究SMS垃圾短信而收集数据集合每条短信有两个信息分别是标签信息label其中spam为垃圾短信ham为正常短信。以及message信息为短信内容。现在有训练集训练集保存在E:\自然语言处理\train.csv和测试集测试集保存在E:\自然语言处理\test.csv。现在综合利用所学的文本预处理、特征提取、文本向量化等技术对其进行分析。建立机器学习模型计算测试集上的F1指标希望F1指标达到非常好的效果。
二、代码
使用SVC机器学习模型Tfidf特征处理。
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import f1_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelEncoder
import re
import string# 1. 数据加载与预处理
train_data pd.read_csv(E:\\自然语言处理\\train.csv)
test_data pd.read_csv(E:\\自然语言处理\\test.csv)# 定义文本预处理函数
def preprocess_text(text):# 将文本转换为小写text text.lower()# 去除标点符号text text.translate(str.maketrans(, , string.punctuation))# 去除数字text re.sub(r\d, , text)# 返回处理后的文本return text# 对训练集和测试集的文本进行预处理
train_data[message] train_data[message].apply(preprocess_text)
test_data[message] test_data[message].apply(preprocess_text)# 2. 特征提取与文本向量化
vectorizer TfidfVectorizer()
X_train vectorizer.fit_transform(train_data[message])
X_test vectorizer.transform(test_data[message])# 对标签进行编码
label_encoder LabelEncoder()
y_train label_encoder.fit_transform(train_data[label])
y_test label_encoder.transform(test_data[label])# 3. 建立机器学习模型
classifier SVC(kernellinear)# 4. 模型训练与评估
classifier.fit(X_train, y_train)
y_pred classifier.predict(X_test)# 计算F1指标
f1 f1_score(y_test, y_pred)print(F1 Score:, f1)三、结果
F1 Score: 0.9469214437367303
本代码仅是抛砖引玉希望诸君可以有其他更好的方法比如使用GridSearchCV等等。当然我后续会分享其他代码解决上述问题