当前位置: 首页 > news >正文

网站建设哪家有买个网站多少钱

网站建设哪家有,买个网站多少钱,丹阳网站建设咨询,沧州推广建站我们已经收集了一些词/词条#xff0c;对这些词进行计数#xff0c;并将它们归并成词干或者词元#xff0c;接下来就可以做更多的事情。分析词对一些简单的任务有用#xff0c;例如得到词用法的一些统计信息#xff0c;或者进行关键词检索。但如果我们想知道哪些词对于某篇…我们已经收集了一些词/词条对这些词进行计数并将它们归并成词干或者词元接下来就可以做更多的事情。分析词对一些简单的任务有用例如得到词用法的一些统计信息或者进行关键词检索。但如果我们想知道哪些词对于某篇文档和整个语料库更重要。于是我们可以利用这个“重要度”值基于文档内的关键词重要度在语料库中寻找相关文档。 这样做的话会使我们的应用更不可能受限于单个或少数几个特殊的词。也因为有较大范围的词都带有不同程度的得分或变迁因为我们可以度量一条文档的某个类别的程度。如果知道一些词在某个文档相对于剩余文档的频率就可以利用这个信息来进一步修正文档的正向程度。 当我们构建了文本的向量空间模型。我们使用了每个词的独热向量然后将所有这些向量用二进制OR运算或者截断和组合以创建文本的向量表示。如果被加载到一个诸如Pandas DataFrame的数据结构中这种二值的词袋向量也可以为文档检索提供一个很棒的索引。 加下来考虑一个更有用的向量表示方法它计算词在给定文本中的出现次数和频率。这里引入第一个近似假设假设一个词在文档中出现的次数越多那么该词对文档的意义的贡献就越大。相比于多次提到“cats”和“gravity”的文档一篇多次提到“wings”和“rudder”的文档可能会与涉及喷气式飞机或者航空旅行的主题更相关。或者我们给出了很多表达正向情感的词比如good、best、joy等一篇文档包含的这类词越多就认为它越可能包含了正向情感。但是可以想象一个只依赖这些简单规则的算法可能会出错或者误导用户。 下面给出了一个统计次出现次数很有用的例子 from nltk.tokenize import TreebankWordTokenizer from collections import Countersentence The faster Harry got to the store, the faster Harry, the faster, would get home.tokenizerTreebankWordTokenizer() tokenstokenizer.tokenize(sentence.lower()) print(tokens) bag_of_wordsCounter(tokens) print(bag_of_words) 上述代码中通过引入list将文档中得到独立的词及其出现的次数。Python的字典可以很好的实现这一目标由于同时要对词计数因此可以使用Counter。 使用Python中任意一种较好的字典实现键的词序都会发生变换。新的词序针对存储、更新和检索做了优化而不是为了保持显示的一致性包含在原始语句词序中的信息内容被忽略。 像上面这样的短文档无需的词袋仍然包含了句子的原本意图中的很多信息。这些词袋中的信息对于有些任务已经足够强大这些任务包括垃圾邮件检测、情感倾向性、满意度等计算甚至一些微妙意图如讽刺检测的检测。虽然只是一个词袋但是它装满了意义和信息。因此下面我们将这些词按照某种方式进行排序以便能够对此有所了解。 Counter对象有一个很方便的方法可以实现上述目标 print(bag_of_words.most_common(4)) 这里给出了从高到低频率的前4个词条。 具体来说某个词在给定文档中出现的次数称为词项频率简写为TF。在某些例子中可以将某个词的出现频率除以文档中的词项总数从而得到归一化的词项频率结果。 在上面的例子中排名最靠前的4个词/词条分别是“the”、“,”、“harry”、“faster”但是“the”、“,”这两个对于文档的意图而言信息量不大并且这些信息量不大的词条可能会在我们的快速探索之旅中多次出现。我们要在排名靠前的词项频率向量词袋中留下“harry”和“faster”这两个词条。 下面是在Counter对象中计算“harry”的词频 times_harry_appearsbag_of_words[harry] num_unique_wordslen(bag_of_words) tftimes_harry_appears/num_unique_words print(round(tf,4)) 归一化词项频率是经过文档长度“调和”后的词频比如在两篇文档中cat出现的频率 TF(cat,dac_a)3/300.1TF(cat,dac_b)100/200000.005 可以看到虽然文档B中“cat”出现次数多但文档更长所以频率低相比来说“cat”对于文档A更重要。 因此我们不使用原始的词频来描述语料库中的文档而使用归一化词项频率。类似地我们可以计算每个词对文档的相对重要程度。我们已经做了很多工作奖文本转换成数值而且超越了仅表示特特定词出现与否的范围。 下面考虑一个更长的文本片段 from collections import Counter from nltk.tokenize import TreebankWordTokenizer tokenizerTreebankWordTokenizer() kite_txt A kite is traditionally a tethered heavier-than-air craft with wing surfaces that react against the air to create lift and drag. A kite consists of wings, tethers, and anchors. Kites often have a bridle to guide the face of the kite at the correct angle so the wind can lift it. A kite’s wing also may be so designed so a bridle is not needed; when kiting a sailplane for launch, the tether meets the wing at a single point. A kite may have fixed or moving anchors. Untraditionally in technical kiting, a kite consists of tether-set-coupled wing sets; even in technical kiting, though, a wing in the system is still often called the kite. The lift that sustains the kite in flight is generated when air flows around the kite’s surface, producing low pressure above and high pressure below the wings. The interaction with the wind also generates horizontal drag along the direction of the wind. The resultant force vector from the lift and drag force components is opposed by the tension of one or more of the lines or tethers to which the kite is attached. The anchor point of the kite line may be static or moving (such as the towing of a kite by a running person, boat, free-falling anchors as in paragliders and fugitive parakites or vehicle). The same principles of fluid flow apply in liquids and kites are also used under water. A hybrid tethered craft comprising both a lighter-than-air balloon as well as a kite lifting surface is called a kytoon. Kites have a long and varied history and many different types are flown individually and at festivals worldwide. Kites may be flown for recreation, art or other practical uses. Sport kites can be flown in aerial ballet, sometimes as part of a competition. Power kites are multi-line steerable kites designed to generate large forces which can be used to power activities such as kite surfing, kite landboarding, kite fishing, kite buggying and a new trend snow kiting. Even Man-lifting kites have been made.tokenstokenizer.tokenize(kite_txt.lower()) token_countsCounter(tokens) print(token_counts) 上述例子里里面有很多停用词这篇文章不太可能会与“the”、“a”等词相关。下面把这些词去掉 import nltk nltk.download(stopwords,quietTrue) stop_wordsnltk.corpus.stopwords.words(english) tokens[x for x in tokens if x not in stop_words] kite_countsCounter(tokens) print(kite_counts) 单纯凭借浏览词在文档中出现的次数我们就可以学到一些东西。比如词项kite、wing、lift都很重要。
http://www.zqtcl.cn/news/410417/

相关文章:

  • 凡科网做网站怎么样专业团队电影
  • 有什么有趣的网站移动网站排名怎么做
  • 深圳网站建设专家wordpress 4.5下载地址
  • 网站建设公司公司我我提供一个平台wordpress如何去版权信息
  • seo怎么给网站做外链受欢迎的网站建设教程
  • 网站建设使用多语言河南电商网站设计
  • 网站搭建有免费的吗网站地图生成代码
  • 建设公司网站要注意什么投资小利润高的小生意
  • 网站建设需要做哪些工作做胃镜需那好天津津门网站A
  • 做网站申请域名的流程辽宁省工程造价网
  • 网站系统维护一般多长时间金华高端网站设计
  • 做网站公司销售开场白企业网站规划与开发
  • 兰州新区建站不锈钢网站建设
  • 淘宝小网站怎么做的电商网站有哪些
  • 哪些网站可以做画赚钱wordpress go跳转页
  • 怎么做新网站上线通稿深圳罗湖区网站建设公司
  • php 企业网站做网站可以赚钱吗
  • 局域网视频网站建设点播系统长沙3合1网站建设价格
  • 静态网站 服务器合肥做个网站什么价格
  • 宁阳网站设计家电网站设计方案
  • 网站备案icp秦皇岛黄金海岸
  • dedecms 金融类网站模板wordpress dux5.3
  • 学校网站源码wordpress向网站上传文件怎么做
  • 电子商务网站建设说课稿济南网站建设方案报价
  • 谈谈设计和建设网站体会wordpress header在哪
  • 360免费建站怎么进不去域名托管
  • 做网站视频存储网站建设有云端吗
  • 建网站如何上传南通 网站优化
  • 青海学会网站建设公司果汁网站模板
  • 10_10_网站建站怎么做网站链接支付