企业网站开发要多少钱,免费发seo外链平台,天津网站建站,网站建设攵金手指专业本文介绍了一种基于Python的中文文本分析方法#xff0c;用于从年报文件中提取含有关键词的语句。方法使用jieba分词库进行中文分词#xff0c;通过自定义词典提高分词准确性。程序首先读取并预处理文本#xff08;统一标点符号、去除换行符#xff09;#xff0c;然后按句…本文介绍了一种基于Python的中文文本分析方法用于从年报文件中提取含有关键词的语句。方法使用jieba分词库进行中文分词通过自定义词典提高分词准确性。程序首先读取并预处理文本统一标点符号、去除换行符然后按句分割文本并进行分词处理筛选出包含关键词的语句最后将结果股票代码、年份、关键词、语句长度及内容保存至Excel。该方法适用于批量处理上市公司文本数据为后续分析提供结构化数据支持。
import os
import pandas as pd
import jieba
import jieba.analyseitem0 #保存到excel上的行号
fileListos.listdir(finaltxt)#已提取完毕的txt年报文件目录
fileList.sort()#对年报按文件名进行排序
dfpd.DataFrame(columns[code,year,sign,keyword,length,sentences],indexrange(1,50000))#预先设置列名包括股票代码、年报年份、标记、提取出该句子所依据的关键词、文本字符长度、句子创建50000行的空表行数可自行估计设定
Dict[,,]#自行录入关键词词典注意是英文符号for i in Dict:jieba.add_word(i)# 向jieba内加入这些词语防止被拆分
for index,i in enumerate(fileList): namei[:-4].split(_)#根据txt文件名称进行切分例如文件名为873833_2023-12-31.txtname[0]为873833,name[1]为2023-12-31with open(finaltxt\\i,r,encodingutf-8) as f: textf.read()texttext.replace(\n,)#删除换行符texttext.replace(,。)#将分号统一换成句号textListtext.split(。) #按句号分割#遍历每一句话进行分词和语句提取for i in textList:wordsjieba.lcut(i)for word in words:if word in Dict:#如果识别到有分词结果在关键词词典里就录入信息#向df里录入信息df[code][item]name[0]df[year][item]name[1][:4]df[keyword][item]worddf[length][item]len(i)df[sentences][item]iitem1breakelse:continuef.close() print(str(index)完成)
df.to_excel(result.xlsx)