当前位置: 首页 > news >正文

大港网站建设产品推广案例

大港网站建设,产品推广案例,科技类网站,建立网站多少钱作者#xff1a;BENJAMIN TRENT 什么是标量量化以及它是如何工作的#xff1f; 大多数嵌入模型输出 float32 向量值。 虽然这提供了最高的保真度#xff0c;但考虑到向量中实际重要的信息#xff0c;这是浪费的。 在给定的数据集中#xff0c;嵌入永远不需要每个单独维度…作者BENJAMIN TRENT 什么是标量量化以及它是如何工作的 大多数嵌入模型输出 float32 向量值。 虽然这提供了最高的保真度但考虑到向量中实际重要的信息这是浪费的。 在给定的数据集中嵌入永远不需要每个单独维度的所有 20 亿个选项。 对于高维向量例如 386 维及更高维尤其如此。 量化允许以有损方式对向量进行编码从而稍微降低保真度并节省大量空间。 桶里的乐趣 标量量化采用每个向量维度并将它们分成一些较小的数据类型。 对于博客的其余部分我们将假设将 float32 值量化为 int8。 要准确地对值进行分桶并不像将浮点值四舍五入到最接近的整数那么简单。 许多模型输出的向量的维度连续在 [−1.0,1.0] 范围内。 因此两个不同的向量值 0.123 和 0.321 都可以向下舍入为 0。最终向量将仅使用 int8 中 255 个可用存储桶中的 2 个丢失太多信息。 图 1量化目标的图示将从 -1.0 到 1.0 的连续值分桶为离散的 int8 值。 数值转换背后的数学并不太复杂。 由于我们可以计算浮点范围的最小值和最大值因此我们可以线性移动这些值然后对中间的值进行存储。 图 2int8 和 float32 之间转换的方程式。 请注意这些是有损变换并且不精确。 在下面的示例中我们仅使用 int8 内的正值。 这与 Lucene 实现一致。 桶里的乐趣 分位数 (quantile) 是包含一定百分比值的分布切片。 所以举例来说我们的浮点值可能有 99% 都在 [−0.75, 0.86] 之间而不是真正的最小值和最大值 [−1.0,1.0] 之间。 任何小于 -0.75 和大于 0.86 的值都被视为异常值。 如果你在尝试量化结果时包含异常值则最常见值的可用存储桶将会减少。 更少的存储桶意味着更低的准确性从而导致更大的信息损失。 图 399% 置信区间和各个分位数值的图示。 所有值的 99% 都落在 [−0.75,0.86] 范围内。 这一切都很好但是既然我们知道如何量化值那么我们如何实际计算两个量化向量之间的距离呢 它和普通的点积 (dot_product) 一样简单吗 是时候记住你的代数了 我们仍然缺少一个重要的部分即如何计算两个量化向量之间的距离。 虽然我们在这个博客中还没有回避数学但我们即将做更多的事情。 是时候拿出你的铅笔来尝试记住多项式和基本代数了。 dot_product 和 cosine 相似度的基本要求是能够将浮点值相乘并将它们的结果相加。 我们已经知道如何在 float32 和 int8 值之间进行转换那么我们的转换中的乘法是什么样的呢 然后我们可以展开这个乘法为了简化我们将用 α 代替 (max-min)/127 更有趣的是这个方程只有一部分需要同时使用两个值。 然而dot_product 不仅仅是两个浮点数相乘而是向量每个维度的所有浮点数相乘。 有了向量维度计数 dim以下所有内容都可以在查询时和存储时预先计算。 并且可以存储为单个浮点值。 可以预先计算并存储为单个浮点值或在查询时计算一次。 可以预先计算并存储为单个浮点值。 所有这一切 dot_product 所需的唯一计算就是 dotProduct(int8,int8′) 以及一些预先计算的值与结果相结合。 但是这如何准确呢 那么这到底有多准确呢 我们不会因为量化而丢失信息吗 是的我们是但是量化利用了我们不需要所有信息的事实。 对于学习嵌入模型各个维度的分布通常不存在肥尾 (fat-tails)。 这意味着它们是本地化的并且相当一致。 此外通过量化每个维度引入的误差是独立的。 这意味着对于我们典型的向量运算如 dot_product来说错误被抵消了。 结论 哇这真是太多了。 但现在你已经很好地掌握了量化的技术优势、其背后的数学原理以及如何在考虑线性变换的同时计算向量之间的距离。 接下来看看我们如何在 Lucene 中实现这一点以及其中的一些独特的挑战和优势。
http://www.zqtcl.cn/news/603301/

相关文章:

  • 郑州企业建站详情网站开发和网页开发有什么区别
  • 山西古建筑网站个人网站可以做自媒体吗
  • 腾讯云服务器可以做网站wordpress中文正式版
  • 做相亲网站赚钱吗vultr部署wordpress
  • 网站被挂马原因做网站较好的框架
  • 网站开发毕业设计参考文献自考大型网站开发工具
  • p2p网站建设方案策划书黄山旅游攻略冬季
  • 最世网络建设网站可以吗小说网站制作开源
  • 广州网站建设知名 乐云践新网页界面制作
  • 沈阳网站哪家公司做的好招标信息发布
  • 兰州企业网站h5页面用什么软件
  • 东莞自助建站软件ppt怎么做 pc下载网站
  • 兴化网站建设价格怎样用自己的电脑,做网站
  • 东莞网站建设企慕网站名称 注册
  • 佛山网站建设服务商百度推广客户端手机版下载
  • 做网站找个人还是找公司wordpress jiathis
  • 淘宝客推广网站建设百度云wordpress转服务器
  • 网站构建代码模板怎么在云服务器上建设网站
  • 国内产品网站建设游戏创造器
  • 北京南站到北京站怎么走南宁美丽南方官方网站建设意见
  • 网站建设捌金手指专业5电商运营怎么推广一个新品
  • 医院网站建设企业走廊文化建设图片网站
  • 学网站建设培训机构公司网站建立费用
  • 阜宁网站制作服务商自学网站开发设计
  • 湖南建设监理工程网站设计类招聘网站
  • 门户网站建设的平台搭建长春专业网站建设推广
  • 网站建设宗旨怎么写网站建设公司外链怎么做
  • 绍兴市交通建设检测中心网站seo专业培训网络班
  • 设计国外网站有哪些玉环在哪里做网站
  • 设计网站思路如何写wordpress 修改登录