当前位置: 首页 > news >正文

网站集约化平台天津设计师网站大全

网站集约化平台,天津设计师网站大全,wordpress列表页怎么加关键词,新乐市做网站写在前面 假设我们的数据集中有 800000 篇文章#xff0c;每篇文章有 200 词条#xff0c;每个词条有6个字符#xff0c;倒排记录数目是 1 亿。那么如果我们倒排索引表中单单记录文档id#xff0c;不记录文档内的频率和偏移信息。 那么 文档id 的长度就必须是 l o g 2 8…写在前面 假设我们的数据集中有 800000 篇文章每篇文章有 200 词条每个词条有6个字符倒排记录数目是 1 亿。那么如果我们倒排索引表中单单记录文档id不记录文档内的频率和偏移信息。 那么 文档id 的长度就必须是 l o g 2 800000 20 b i t log_280000020 bit log2​80000020bit 文档可能每篇文章都存在所以是以最长的长度要求所以我们整个未压缩的倒排索引表的大小大概有倒排记录数 * 文档id大小 100,000,000 * 20/8 250 MB 为了设计出一个更高效的倒排文件的表示方式可以考虑每篇文档采用少雨20位的表示方法观察中发现。高频词出现的文档id的序列相差不大。比如高频词 “大学”我们去找一篇包含 大学 的文档可能我们找了一个之后不久又找到一个这些文档id之间的gap(间距)不大因此可以考虑用比20位端很多的位数来表示它。为了对这种间距分布的情况进行空间压缩需要使用一种变长编码方法这种方法可以对短间距采用更短的位数来表示 1. 可变字节码 VB(variable byte,可变字节) 编码利用整数个字节来对间距编码。字节的后7位是间距的有效编码区而第一位是延续位。如果该位为1则表明本字节是某个间距编码的最后一个字节否则不是。要对一个可变字节编码进行解码可以读入一段字节序列其中前面的字节的延续位都为0而最后一个字节的延续位为1。根据上述标识可以把每个字节的7位部分抽取出来并链接在一起形成编码。 go语言实现vb的编码VBEncodeNumber 将整数编码为VB编码的字符串 func VBEncodeNumber(n uint32) string {var bytes []uint32for {bytes append(bytes, n%128128)if n 128 {break}n n / 128}var by []stringfor i : len(bytes) - 1; i 0; i-- {if i len(bytes)-1 {by append(by, strconv.FormatUint(uint64(bytes[i]), 2)[1:] )} else {by append(by, strconv.FormatUint(uint64(bytes[i]), 2))}}return strings.Join(by, ) }通过vb编解码我们可以实现50%的压缩
http://www.zqtcl.cn/news/238797/

相关文章:

  • 广州网站营销推广设计孝义网站开发
  • 新站网站如何做Seo那个网站点击率高
  • 个体做外贸的网站罗浮视窗网站建设
  • 产品企业网站上海关键词排名优化公司
  • 网站APP推广东莞人才招聘网58
  • 惠州网站建设哪家好建筑网站建设方案
  • 淄博网站制作营销wordpress 轮播图自适应
  • 响应式网站切图网站入口首页
  • 静态网站开发考虑什么网上推广引流的有用吗?
  • 网站建设包括哪些东西工业设计最好的公司
  • 网站建设方案书 模板网站地址做图标
  • 财务公司网站模板wordpress域名文件夹
  • 网站标题写什么作用是什么网络推广学校培训
  • 看室内设计效果图网站网站建设需要条件
  • html教程网站做网站用哪个服务器
  • 济南网站建设 推搜点江阴响应式网站建设
  • 网站建设在windos的设置crm平台
  • 企业如何建设网站高端商城网站建设
  • 怎么制作app网站以下什么是网页制作软件
  • 网站定制一般价格多少石家庄做网站wsjz
  • 如何建立外卖网站网站可以做的活动推广
  • 手机号注册网站cms影视源码采集
  • 网站建设网页设计培训班连云港seo优化
  • 成都网站建设公司招聘定制衣服
  • 做访问量高的网站如何建立公司网站推广
  • 做公司的网站有哪些简述企业网站建设的流程
  • 网站免费获取验证码怎么做软件开发的工作
  • 萌宝宝投票网站怎么做正规网站建设多少费用
  • 产权交易网站建设方案耐克网站建设的历程
  • 网站建设投入及费用wordpress 收录插件