网站推广郑州,巩义机械厂网站建设,广东省有多少个市,山东济铁工程建设集团有限公司网站文章目录 前言NLP 历史回顾NLP任务语料的标注AI语料标注师岗位职责 TransformersHugging Face模型中文文本分类使用 NLTK 进行文本分类 参考链接开源NLP 前言
学习NLP#xff0c;解决两个问题#xff1a;
如何使用别人训练好的模型#xff1f;如何基于别人的模型#xff… 文章目录 前言NLP 历史回顾NLP任务语料的标注AI语料标注师岗位职责 TransformersHugging Face模型中文文本分类使用 NLTK 进行文本分类 参考链接开源NLP 前言
学习NLP解决两个问题
如何使用别人训练好的模型如何基于别人的模型加入自己的数据训练得到自己的模型
NLP 历史回顾
文法规则-统计语言学-神经网络方法 2017年谷歌提出了Transformer架构模型2018年底基于Transformer架构谷歌推出了bert模型bert模型一诞生便在各大11项NLP基础任务中展现出了卓越的性能一个排名榜单现在很多模型都是基于或参考Bert模型进行改造。 Transformer 架构是自然语言处理领域最近几乎所有主要发展的核心。这种 Transformer 架构的性能优于 RNN 和 CNN卷积神经网络。而且训练模型所需的计算资源也大为减少。
BERT (Bidirectional Encoder Representations)双向编码器表示是第一个无监督、深度双向的自然语言处理模型预训练系统。它只使用纯文本语料库进行训练。
NLP任务
目前NLP可以处理的任务主要包含以下几个大类问答系统文档摘要机器翻译语音识别文档分类等。
语料的标注
标注工具的选择市面上有多种标注工具可供选择例如MAE CallistoBrandeis Annotation ToolProdigy收费等。
AI语料标注师岗位职责
1.负责语料库的收集、整理和分类工作 2.根据需求完成数据预处理任务 3.使用自然语言处理技术对语料进行解析和分析并产生文本数据 4.通过分析数据和算法实现自动化文本分类模型训练 5.持续优化模型性能和精度提升效果 6.编写相关文档资料等协助其他人员使用语料库 7.维护语料库并进行定期更新和维护
Transformers
Transformers 是由 Hugging Face 开发的一个 NLP 包支持加载目前绝大部分的预训练模型。随着 BERT、GPT 等大规模语言模型的兴起越来越多的公司和研究者采用 Transformers 库来构建 NLP 应用。
Hugging Face
Hugging Face Hub 平台为自然语言处理社区提供了一个中心化的地方使人们可以共享和发现各种自然语言处理模型和数据集。该公司主要是提供nlp服务同时它提供了一个很的开源社区这里可以找到大部分开源model。其对外提供了一个库 TransformersTransformers 提供了数以千计的预训练模型支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成并且Transformers 与 PyTorch、 TensorFlow 无缝整合。 功能包括
模型数据集模型验证模型部署等 使开发人员可以更轻松地管理和使用自然语言处理模型任何人都可以利用机器学习进行探索、实验、合作和构建技术。
模型
中文文本分类
中文文本分类TextCNNTextRNNFastTextTextRCNNBiLSTM_Attention, DPCNN, Transformer, 基于pytorch开箱即用。
使用 NLTK 进行文本分类
使用朴素贝叶斯分类器训练
from nltk.classify import NaiveBayesClassifiertrain_texts [# ...
]
train_labels [# ...
]train_features [extract_feature(text) for text in train_texts]
train_samples list(zip(train_features, train_labels))
classifier NaiveBayesClassifier.train(train_samples)评估:
from nltk.classify import accuracytest_texts [# ...
]
test_labels [# ...
]test_features [extract_feature(text) for text in test_texts]
test_samples list(zip(test_features, test_labels))
acc accuracy(classifier, test_samples)参考链接
https://transformers.run/huggingface githubHugging Face 汉语自然语言处理汉语自然语言处理-BERT的解读语言模型预训练前端工程师如何快速使用一个NLP模型A Survey of Large Language Models预训练模型下载从零开始训练GPT知乎看山杯第一名解决方案用深度学习CNN RNN Attention解决大规模文本分类问题 - 综述和实践知乎“看山杯” 夺冠记
开源NLP
PaddleNLPHanLP