未来 网站开发 知乎,网站建设的费用预算,软装设计合同模板,wordpress签到积分主题来源#xff1a;AI科技评论作者#xff1a;Hamish Ogilvy编译#xff1a;冉启行校对#xff1a;青暮人工智能是建立在向量算法的基础上的#xff0c;但最新的进展表明#xff0c;对于某些 AI 应用程序而言#xff0c;它们可以使用其他二进制来表示#xff08;例如神经哈… 来源AI科技评论作者Hamish Ogilvy编译冉启行校对青暮人工智能是建立在向量算法的基础上的但最新的进展表明对于某些 AI 应用程序而言它们可以使用其他二进制来表示例如神经哈希以提供更小的内存占用和更快的反馈速度。事实上人工智能的许多领域都可以从向量变为基于哈希的结构带来飞跃的提升。本文将简要介绍哈希背后的应用逻辑以及它为什么可能会成为 AI 的未来。1哈希哈希函数(Hash function)一个哈希函数H(x)可用于将任意大小的数据 x 映射成固定大小通常选256bit的值。返回值(映射后的值)又称为哈希值hash values、摘要digests或哈希simply hashes。哈希在数据的准确性识别、数据存储大小、性能、检索速度等方面具有突出的优势。更重要的是它们本质上是概率性的因此多个输入项可以共享相同的哈希值。在向量表示中浮点数往往是首选的数据表示形式尽管它们在本质上比哈希更绝对但它们却并不精确。2浮点数要了解 AI首先需要了解计算机是如何表示非整数数字的。对于微小的数值变化(关于向量计算)二进制表示也可以有很大的不同这些数值变化对模型预测几乎没有影响。例如取 0.65 vs 0.66 在 float6464 位浮点二进制中可以分别用这两个二进制数表示1111111110010011001100110011001100110011001100110011001100110111111111100101000111101011100001010001111010111000010100011111从这里可以非常清楚看到虽然从 0.65 到 0.66 仅仅只有 1% 的大小变化但是转化为二进制后在 64 位数字中就有 25 位是不同的差别巨大。对于神经元来说这听起来像是一件愚蠢的事情人类的大脑肯定不会这样工作它们显然不会使用浮点二进制表示来存储数字除非有人可以记住圆周率小数点后六万多位。事实上我们的大脑神经网络是非常形象的在处理复杂的小数和分数方面非常擅长。但是当我们算到一半或四分之一时就会立即想象出一些东西比如半杯水、四分之一杯水或者披萨等其他东西可能根本没有想到尾数和指数。一个常用的提高浮点运算速度和使用更少空间的方法是将分辨率降低到 float1616位甚至是float8 8位它们的计算速度非常快但缺点是它会造成分辨率的明显下降。由于浮点数运算很慢所以它真的没有一点优势吗答案是否定的。芯片硬件和它们的指令集被设计来提高效率并使更多的计算并行处理而 GPU 和 TPU 现在正在被广泛使用因为它们处理基于浮点的矢量算法更快。3神经哈希事实证明二进制的计算速度比基于浮点数的算术快得多。那么如果可以在局域敏感的二进制哈希空间中表示 0.65 和 0.66这能使模型在推理方面更快吗?研究表明有一系列哈希算法的确可以做到这一点它被称为局部敏感哈希LSH。原始项越接近其哈希中的位也越接近相同。不过这个概念并不是什么新鲜事只是最新的技术发现了更多的优势。从历史上来看LSH 使用了诸如随机投影、量化等技术但它们的缺点是需要较大的哈希空间来保持精度因此其优点在某种程度上被抵消了。对于单个浮点数来说这是微不足道的但是具有高维数多个浮点数的向量呢因此神经哈希的新技巧是用神经网络创建的哈希替换现有的 LSH 技术以此得到的哈希值可以使用非常快速的 Hammin 距离计算来估计它们的相似度。这听起来虽然很复杂但实际上并不太难。总体来看神经网络就是优化了一个哈希函数具体表现如下与原始向量相比几乎完美地保留了所有的信息生成比原始向量尺寸小得多的哈希计算速度明显更快也就是说以一种较小的二进制表示它不仅可用于非常快速的逻辑计算并且信息分辨率也是几乎不变的是一个两全其美的解决方案。一般研究用于密集信息检索近似最近邻 ANN时往往可以使用向量表示来搜索信息这样可以帮助用户找到概念上相似的一些东西。但是哈希中的局部敏感性却拥有更加强大的优势。4密集信息检索互联网时代数据库是不可计数的但搜索索引却寥寥无几而且大多数索引都是基于相同的老技术这主要是因为历史上语言是一个基于规则的问题。标记、同义词、词干提取、词形还原等问题占据了许多天才的整个职业生涯但仍未完全解决。谷歌创始人拉里佩奇Larry Page曾说过在我们的有生之年“搜索”并不能得到解决。想想看这一代如此绝顶聪明的人投资数十亿美元为何还得不到解决很明显搜索技术落后于数据库主要是由于语言问题我们在过去几年中看到了语言处理方面的革命而且还在加速。并且从技术角度来看我们还将看到基于神经的哈希消除搜索和数据库技术的障碍。参考来源https://medium.com/hamishogilvy/vectors-are-over-hashes-are-the-future-of-ai-98c4dc33d8ee未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”