当前位置：首页 > news >正文

怎么样建立学校网站海淘网站开发

news 2025/11/15 6:08:11

怎么样建立学校网站,海淘网站开发,seo实战密码在线阅读,seo快速排名软件首页贝叶斯原理贝叶斯原理#xff08;Bayes theorem#xff09;是一种用于计算条件概率的数学公式。它是以18世纪英国数学家托马斯贝叶斯#xff08;Thomas Bayes#xff09;的名字命名的。贝叶斯原理表达了在已知某个事件发生的情况下#xff0c;另一个事件发生的概率。具体…贝叶斯原理贝叶斯原理Bayes theorem是一种用于计算条件概率的数学公式。它是以18世纪英国数学家托马斯·贝叶斯Thomas Bayes的名字命名的。贝叶斯原理表达了在已知某个事件发生的情况下另一个事件发生的概率。具体而言它可以用来计算某个假设的后验概率即在已知一些先验概率的情况下根据新的证据来更新这些概率。贝叶斯原理的数学表达式为 P(A|B) P(B|A) * P(A) / P(B) 其中P(A|B)表示在B发生的条件下A发生的概率也称为后验概率P(B|A)表示在A发生的条件下B发生的概率也称为似然度P(A)和P(B)分别表示A和B的先验概率即在考虑任何证据之前A和B分别发生的概率。上面的解释比较难以理解下面通过一个实际的例子来看看。假设一个地区的晴天和雨天出现的频率分别为70%和30%雨天时候出现爆雷的概率是80%在晴天出现爆雷的概率是20%。其中该地区晴天和雨天的概率是先验概率雨天出现爆雷或者晴天出现爆雷的概率是条件概率现在要计算后验概率在爆雷情况下是雨天的概率。根据贝叶斯公式计算规则如下所示 P(雨天爆雷) P(爆雷雨天)*P(雨天)/P(爆雷) 在爆雷情况下出现雨天的概率在雨天情况下发生爆雷的概率*雨天的概率再除以发生爆雷的概率。 P(爆雷) P爆雷雨天* P雨天 P爆雷晴天*P晴天出现爆雷的概率雨天情况下出现爆雷的概率*雨天概率晴天概率下出现爆雷的概率* 晴天概率P(爆雷)称为归一化常数下面这个公式成为全概率公式 P(B) Σ P(B|A_i) * P(A_i) 所以最终的计算是 P(雨天爆雷) P(爆雷雨天)*P(雨天)/P(爆雷) P(雨天爆雷) 0.8 * 0.3/0.8*0.3 0.2*0.7约等于0.46 朴素贝叶斯算法进行文本分类朴素贝叶斯Naive Bayes是一种基于贝叶斯定理的分类算法。朴素贝叶斯算法的原理是基于特征条件独立假设即假设每个特征在分类中是相互独立的。在朴素贝叶斯算法中给定一个样本及其特征首先需要计算每个类别的概率。然后根据贝叶斯定理计算每个特征在给定类别下的条件概率。最后将每个特征的条件概率相乘并乘以该类别的概率得到该样本属于该类别的后验概率。将后验概率最大的类别作为该样本的分类结果。由于朴素贝叶斯算法假设特征之间相互独立因此它的计算速度非常快。同时它也不需要大量的训练数据来构建分类模型。因此朴素贝叶斯算法在处理高维度数据时具有优势并且常常被用于文本分类、垃圾邮件过滤、情感分析等领域。 Scikit-learn是一个基于Python编程语言的开源机器学习库它为各种机器学习任务提供了简单而高效的工具。Scikit-learn提供了多种算法和模型例如分类、回归、聚类、降维等。它也提供了一些实用工具如模型选择、数据预处理、特征工程等方便用户进行机器学习模型的构建和评估。Scikit-learn提供了3个朴素贝叶斯分类算法分别是高斯朴素贝叶斯GaussianNB、多项式朴素贝叶斯MultinomialNB和伯努利朴素贝叶斯BernoulliNB。这三种算法适合应用在不同的场景下我们应该根据特征变量的不同选择不同的算法高斯朴素贝叶斯特征变量是连续变量符合高斯分布比如说人的身高物体的长度。多项式朴素贝叶斯特征变量是离散变量符合多项分布在文档分类中特征变量体现在一个单词出现的次数或者是单词的TF-IDF值等。伯努利朴素贝叶斯特征变量是布尔变量符合0/1分布在文档分类中特征是单词是否出现。上面介绍了朴素贝叶斯原理那么如何使用朴素贝叶斯进行文档分类任务呢下面是使用多项式朴素贝叶斯进行文本分类的demo例子。 # 中文文本分类 import os import jieba import warnings from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn import metricswarnings.filterwarnings(ignore)def cut_words(file_path):对文本进行切词:param file_path: txt文本路径:return: 用空格分词的字符串text_with_spaces textopen(file_path, r, encodinggb18030).read()textcut jieba.cut(text)for word in textcut:text_with_spaces word return text_with_spacesdef loadfile(file_dir, label):将路径下的所有文件加载:param file_dir: 保存txt文件目录:param label: 文档标签:return: 分词后的文档列表和标签file_list os.listdir(file_dir)words_list []labels_list []for file in file_list:file_path file_dir / filewords_list.append(cut_words(file_path))labels_list.append(label) return words_list, labels_list# 训练数据 train_words_list1, train_labels1 loadfile(text classification/train/女性, 女性) train_words_list2, train_labels2 loadfile(text classification/train/体育, 体育) train_words_list3, train_labels3 loadfile(text classification/train/文学, 文学) train_words_list4, train_labels4 loadfile(text classification/train/校园, 校园)train_words_list train_words_list1 train_words_list2 train_words_list3 train_words_list4 train_labels train_labels1 train_labels2 train_labels3 train_labels4# 测试数据 test_words_list1, test_labels1 loadfile(text classification/test/女性, 女性) test_words_list2, test_labels2 loadfile(text classification/test/体育, 体育) test_words_list3, test_labels3 loadfile(text classification/test/文学, 文学) test_words_list4, test_labels4 loadfile(text classification/test/校园, 校园)test_words_list test_words_list1 test_words_list2 test_words_list3 test_words_list4 test_labels test_labels1 test_labels2 test_labels3 test_labels4stop_words open(text classification/stop/stopword.txt, r, encodingutf-8).read() stop_words stop_words.encode(utf-8).decode(utf-8-sig) # 列表头部\ufeff处理 stop_words stop_words.split(\n) # 根据分隔符分隔# 计算单词权重 tf TfidfVectorizer(stop_wordsstop_words, max_df0.5)train_features tf.fit_transform(train_words_list) # 上面fit过了这里transform test_features tf.transform(test_words_list) # 多项式贝叶斯分类器 from sklearn.naive_bayes import MultinomialNB clf MultinomialNB(alpha0.001).fit(train_features, train_labels) predicted_labelsclf.predict(test_features)# 计算准确率 print(准确率为, metrics.accuracy_score(test_labels, predicted_labels)) 上面的例子中用到了TfidVectorizer来提取特征向量TfidfVectorizer是Scikit-learn中的一个文本特征提取函数用于将文本转换为数值特征向量。它的作用是将原始的文本数据集转换为TF-IDF特征向量集。TF-IDFTerm Frequency-Inverse Document Frequency是一种用于衡量一个词语在文档中的重要性的指标。词频TF计算了一个单词在文档中出现的次数它认为一个单词的重要性和它在文档中出现的次数呈正比。逆向文档频率IDF是指一个单词在文档中的区分度。它认为一个单词出现在的文档数越少就越能通过这个单词把该文档和其他文档区分开。IDF越大就代表该单词的区分度越大。所以TF-IDF实际上是词频TF和逆向文档频率IDF的乘积。这样我们倾向于找到TF和IDF取值都高的单词作为区分即这个单词在一个文档中出现的次数多同时又很少出现在其他文档中。这样的单词适合用于分类。TF-IDF的具体计算公式如下 TF-IDF TF(t,d) * IDF(t)。其中t表示词语d表示文档TF(t,d)表示词语t在文档d中出现的频率IDF(t)表示逆文档频率可以通过以下公式计算 IDF(t) log(N / df(t))。其中N表示文档总数df(t)表示包含词语t的文档数。 TfidfVectorizer函数的主要参数如下 stop_words停用词列表可以是english表示使用Scikit-learn自带的英文停用词列表也可以是一个自定义停用词列表tokenizer用于分词的函数如果不指定则默认使用Scikit-learn的内置分词器ngram_range用于控制特征中词语的个数可以是单个词语unigram两个词语bigram三个词语trigram等max_features用于控制特征向量的最大维度norm用于归一化特征向量的方式可以是l1或l2use_idf是否使用IDF权重smooth_idf是否对IDF权重加1平滑处理sublinear_tf是否使用对数函数对TF进行缩放。下面是使用TfidfVectorizer将一段文本转换成特征向量的例子。 from sklearn.feature_extraction.text import TfidfVectorizervectorizer TfidfVectorizer(stop_wordsenglish) documents [This is the first document.,This is the second document.,And this is the third one., ] X vectorizer.fit_transform(documents) print(X.toarray()) print(X.shape) 下面是打印的特征向量结果使用了X.toarray()方法将稀疏矩阵转换为密集矩阵。第一个结果是没有传入stop_words的结果生成的特征向量是一个3行9列的数据第二个结果是加入stop_words的结果第二次是一个3行2列的数据。每一行代表一个文档每一列代表一个特征。可以看到这些特征是根据词频和逆文档频率计算得到的。再回看前面的对文档分类的 Demo例子实际使用朴素贝叶斯算法对文档进行分类的任务可以划分成下面6个子任务。

查看全文

http://www.zqtcl.cn/news/111044/