当前位置: 首页 > news >正文

江苏省建设厅工会网站七牛云cdn配置wordpress

江苏省建设厅工会网站,七牛云cdn配置wordpress,嘉兴新站seo外包,外贸soho目录 准备工作spaCyNLTK 文本分词spaCyNLTK 词形还原spaCyNLTK 词干提取PorterSnowball stemmers 在自然语言处理#xff08;NLP#xff09;中#xff0c;文本分词是将文本拆分为单词或词组的过程#xff0c;这是理解文本含义和结构的基础。Python中两个流行库——spaCy和N… 目录 准备工作spaCyNLTK 文本分词spaCyNLTK 词形还原spaCyNLTK 词干提取PorterSnowball stemmers 在自然语言处理NLP中文本分词是将文本拆分为单词或词组的过程这是理解文本含义和结构的基础。Python中两个流行库——spaCy和NLTKNatural Language Toolkit都提供了分词功能。下面将详细介绍如何使用这两个库进行文本分词等操作。 准备工作 spaCy 如果没有安装 spaCy 库请安装 # 安装spaCy库 pip install spacy安装好 spaCy 库后下载语言模型 # 安装语言模型数据包案例为下载英文包 python -m spacy download en_core_web_sm常用的语言模型还包含中文模型zh_core_web_sm 更多语言模型请见https://spacy.io/models 完成库的安装以及英文包的下载。 NLTK 首先安装 NLTK 库 # 安装 NTLK 库 pip install nltk下载语言模型 import nltknltk.download(stopwords) nltk.download(averaged_perceptron_tagger) nltk.download(punkt)完成 NLTK 库的安装以及包的下载。 文本分词 spaCy 首先展示使用库 spaCy 进行分词 import spacy# 加载英文语料库 nlp spacy.load(en_core_web_sm) text Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence # 进行分词操作 doc nlp(text)result [] for token in doc:result.append(token)print(result)NLTK 展示使用库 NLTK 进行分词 from nltk.tokenize import word_tokenizetext Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence # 进行分词操作 tokens word_tokenize(text)result [] for token in tokens:result.append(token)print(result)词形还原 词形还原是一项重要的文本预处理技术旨在去除词形变化返回单词的基本形式。这有助于统一词汇在不同语境中的表现形式使得后续的语言分析更加准确。同样我们将尝试使用 spaCy 以及 NLTK 库实现词形还原操作。 spaCy 首先展示通过 spaCy 的 doc[0].lemma_ 进行词形还原 import spacynlp spacy.load(en_core_web_sm)# 获取词形还原结果 def get_lemmatization(word_list):lemmatized_list []for word in word_list:doc nlp(word)lemmatized_word doc[0].lemma_lemmatized_list.append(lemmatized_word)return lemmatized_listif __name__ __main__:test_word_list [men, computers, ate, running, fancier]result_word_list get_lemmatization(test_word_list)print(result_word_list)NLTK 然后展示通过 NLTK 库的 WordNetLemmatizer 函数进行词形还原 import nltk from nltk.stem import WordNetLemmatizer# nltk.download(wordnet) # nltk.download(averaged_perceptron_tagger)lemmatizer WordNetLemmatizer()test_word_list [men, computers, ate, running, fancier] result [lemmatizer.lemmatize(word) for word in test_word_list]print(result)对比使用 spaCy 的分词结果以及使用 NLTK 词形还原结果为 # spaCy: [man, computer, eat, run, fancy] # NLTK: [men, computer, ate, running, fancier]对比来看明显 spaCy 的词形还原效果更好一些 当然除了 spaCy 以及 NLTK 可以进行词形还原外还有另外一些方法比如 Porter 和 Snowball stemmers 的词干提取法请见下个部分。 词干提取 词干提取是一种简单形式的词形还原。它涉及使用手工制作的规则来剥去单词的词尾将其简化成一种叫做词干的常见形式。 Porter Porter Stemmer 是一个简单的词干提取算法它通过一系列规则来减少单词到其词干形式。这个算法包括以下几个步骤 删除单词末尾的辅音字母序列直到剩下至少两个字符。如果单词以元音字母结尾删除这个元音字母。如果单词长度大于2且以元音字母开头则将第一个辅音字母移到词干的开头。 Porter stemmer 示例代码如下 from nltk.stem import PorterStemmer# 创建 PorterStemmer 实例 stemmer PorterStemmer()test_word_list [running, jumped, eating, playing] stemmed_words [stemmer.stem(word) for word in test_word_list]print(stemmed_words)Snowball stemmers Snowball Stemmer 是一个更复杂的词干提取算法它是 Porter Stemmer 的改进版本支持多种语言。Snowball Stemmer 采用了 Porter Stemmer 的基本思想并添加了更多的规则和改进以提高提取的准确性。 Snowball stemmers 示例代码如下 from nltk.stem import SnowballStemmer# 选择语言创建实例 stemmer SnowballStemmer(english)test_word_list [running, jumped, eating, playing] stemmed_words [stemmer.stem(word) for word in test_word_list]print(stemmed_words)在选择词干提取或词形还原的方法时需要根据具体需求来决定。词干提取通常用于简化单词而词形还原则是更加注重保持单词的意义。 建议如果主要目标是简化单词以减少词汇量或提高文本分析的效率词干提取更加适合而如果主要目标是更精确的词义分析那么词形还原可能是更好的选择。 发布2024/2/2 版本第一版 如有任何疑问请联系我谢谢
http://www.zqtcl.cn/news/660045/

相关文章:

  • 做国外网站什么好网站快速优化排名排名
  • 如东做网站专注高密网站建设
  • dw网页设计作品简单宁波seo排名方案
  • 网站做微信接口吗小说网站首页模板
  • 网站正在建设中html个人站长做网站需要多少钱
  • 做推广便宜的网站有哪些数据网站建设哪家好
  • 中介网站制度建设wordpress genesis
  • 广东贸易网站开发用数据库做学校网站论文
  • 关于省钱的网站名字东莞哪些网络公司做网站比较好
  • net网站建设多少前MAC怎么做网站
  • 创建网站流程图国内高清图片素材网站推荐
  • 淄博住房和城乡建设局网站建设外贸网站哪家好
  • dede网站地图路径密云区免费网站建设
  • 男女做那事是什 网站软文网
  • 安徽建海建设工程有限公司网站活动推广宣传方案
  • 镇江市建设审图网站关键词优化过程
  • 广州个人网站备案要多久手机软件界面设计
  • 网站建设成都公司哪家好wordpress悬浮代码
  • 制作网站服务公司wordpress文章添加关注公众号
  • 陶瓷企业 瓷砖地板公司网站建设视频解析wordpress
  • 城乡建设厅网站首页wordpress模板汉化教程视频
  • 网站建设怎么设置渐变色手机网站开发服务商
  • 网站备案用座机租用南宁网站建设优化排名
  • 网页制作与网站建设实战大全读后感霞浦建站公司
  • 网站运营与网络推广方案搜索引擎关键字排名优化
  • 前端角度实现网站首页加载慢优化王业美三个字组成的子
  • 阜阳网站是用idea做html网站
  • 商业网站可以选择.org域名吗seo是东莞企业网站排seo
  • 做百度手机网站关键词排名哪个通讯公司的网络好
  • 网站后期维修问题qq网站建设