青岛高品质网站制作,优化快速排名教程,海南千筑建设工程有限公司网站,网页设计素材螺蛳粉图基于论文摘要的文本分类与关键词抽取挑战赛2023 iFLYTEK A.I.开发者大赛-讯飞开放平台 环境需求#xff1a;Anaconda-JupyterNotebook#xff0c;或者百度AIStudio 赛题解析#xff1a;
【文本二分类任务】根据论文摘要等信息理解#xff0c;将论文划分为0-1两…
基于论文摘要的文本分类与关键词抽取挑战赛2023 iFLYTEK A.I.开发者大赛-讯飞开放平台 环境需求Anaconda-JupyterNotebook或者百度AIStudio 赛题解析
【文本二分类任务】根据论文摘要等信息理解将论文划分为0-1两类别之一。 【文本关键词识别任务】从给定的论文中识别和提取出与论文内容相关的关键词。 数据样例title、author、Abstract、Keywords、[label] 0-1
一键运行的时候先把csv删了是运行结果 安装nltk【更换镜像源避免安装出错】
!pip install nltk -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
# 导入pandas用于读取表格数据
import pandas as pd# 导入BOW词袋模型
from sklearn.feature_extraction.text import CountVectorizer
#可以替换为TfidfVectorizerTF-IDF词频-逆文档频率
#注意上下文要同时修改亲测后者效果更佳# 导入LogisticRegression回归模型
from sklearn.linear_model import LogisticRegression# 过滤警告消息
from warnings import simplefilter
from sklearn.exceptions import ConvergenceWarning
simplefilter(ignore, categoryConvergenceWarning)# 读取数据集
train pd.read_csv(/home/aistudio/data/data231041/train.csv)
train[title] train[title].fillna()
train[abstract] train[abstract].fillna()test pd.read_csv(/home/aistudio/data/data231041/testB.csv)
test[title] test[title].fillna()
test[abstract] test[abstract].fillna()# 提取文本特征生成训练集与测试集
train[text] train[title].fillna() train[author].fillna() train[abstract].fillna() train[Keywords].fillna()
test[text] test[title].fillna() test[author].fillna() test[abstract].fillna()vector CountVectorizer().fit(train[text])
train_vector vector.transform(train[text])
test_vector vector.transform(test[text])# 引入模型
model LogisticRegression()# 开始训练这里可以考虑修改默认的batch_size与epoch来取得更好的效果
model.fit(train_vector, train[label])# 利用模型对测试集label标签进行预测
test[label] model.predict(test_vector)
test[Keywords] test[title].fillna()
test[[uuid,Keywords,label]].to_csv(submit_task1.csv, indexNone) ndarray.finall()方法填充空值
pandas数据处理常用命令_ndarray fillna_hellosc01的博客-CSDN博客 Basedline的方法BOW词袋提取特征-LR逻辑回归-进行预测
改进方法TF-IDFSVMepoches
# TfidfVectorizerTF-IDF词频-逆文档频率
from sklearn.feature_extraction.text import TfidfVectorizer
# 导入支持向量机分类器
from sklearn.svm import SVC#创建SVM训练模型
model SVC(kernellinear, C1)# 利用模型对测试集label标签进行预测
test[label] model.predict(test_vector)
test[Keywords] test[title].fillna()
test[[uuid,Keywords,label]].to_csv(submit_task2.csv, indexNone)
by ライト