域名转出过程网站能打开吗,网站建设好后能直接打开吗,央企 网站建设 公司,网站建设:上海珍岛大家好啊#xff0c;我是董董灿。
几年前在一次工作中#xff0c;第一次接触到自然语言处理模型 BERT。
当时在评估这个模型的性能时#xff0c;领导说这个模型的性能需要达到了 200 token 每秒#xff0c;虽然知道这是一个性能指标#xff0c;但是对 token 这个概念却不…大家好啊我是董董灿。
几年前在一次工作中第一次接触到自然语言处理模型 BERT。
当时在评估这个模型的性能时领导说这个模型的性能需要达到了 200 token 每秒虽然知道这是一个性能指标但是对 token 这个概念却不是很清晰。
因为当时接触视觉模型多一些在视觉模型的性能评估中有一个关键指标叫做 fps通俗理解就是一秒钟可以处理的图片数。
fps 数值越大说明模型吞吐性能越好。那么 token 每秒又是什么呢要搞清楚这个就得先来了解一下什么是 token。 1、什么是token
在计算机领域中token 通常是指一串字符或符号比如微信公众平台的密钥就被称作一个 token其实就是一长串的字符。 而在人工智能领域尤其是自然语言处理(Natural Language Processing, NLP)中 token 指的是处理文本的最小单元或基本元素。
它可以是一个单词、一个词组、一个标点符号、一个子词或者一个字符。
目前很多大模型无论展示能力还是收费定价都是以 token 为单位如 OpenAI 的收费标准为GPT-41k 个 token 收费 0.01刀。 那么如何理解 token 呢
假设要让一个 AI 模型识别下面的一句话I love natural language processing! 。
模型并不是直接认识这句话是什么意思而是需要先将这句话拆解成一个个的 token 序列。
比如这个句子可以分解成以下的 tokens I love natural language processing !
最后的标点符号同样是一个 token这样模型看到的就是基本的 token 单元这样有助于 AI 模型理解这个句子的结构和含义。 2、如何拆分 token 呢
在 NLP 任务中处理文本之前需要先将文本进行 tokenization也就是将文本 token 化然后再对这些 tokens 进行操作。
目前有很多算法可以完成这个 tokenization 的过程这里先不展开。
看到这里你可能会问一个 token不就是一个单词吗
其实不是这样的就像我们上面说的一个 token 可以是一个单词也可以是一个词组或者一些子词。
比如在 tokenization 阶段可能会把 New York City 这三个单词当做一个 token因为这三个单词合在一起具有特定的意思叫做纽约市。
还可能把 “debug” 这个单词看作两个 token分别为de 和 bug这样模型可能知道 “de” 前缀代表“减少”的意思。
如果再遇到诸如 “devalue ”时就会把它直接分为两个token分别是 “de”和 “value”并且可以知道 devalue 代表减少价值的意思。
这样的 token 就属于单词中的子词这样做有很多好处其中一个好处便是模型不需要记住太多的词。 否则模型可能需要记住bug、debugvaluedevalue四个token.
而一旦将词分成子词模型只需要记住bug、value 和 de 这三个 token 即可而且还可以扩展识别出 decrease 的意思。
看到这理解了吧一个 token 可能会代表是一个单词也可能会是一个词组或者字符和标点符号。 3、一个有趣的测试
其实有个很简单的方法可以测试一下模型在处理文本时是否是按照 token 为最小单位来处理的。
我们利用一个大模型比如 chatGPT 3.5让他来对一小段文本进行反转操作。 可以看到句子中的“一个”反转之后仍然是“一个”而不是个一。
这可能就是因为在模型处理时“一个” 被当做了一个 token 来对待而这又是一个基本单元无法再进一步拆分完成反转。
而如果使用 GPT-4 来进行同样的实验可以看到它已经把这个问题修复了这是因为 GPT-4 中大幅更新了逻辑推理能力在更复杂的场景下它甚至会自己边写代码来完成复杂的逻辑的推理。 如果你有chatGPT 的使用环境可以测试一下看看它是否可以将句子反转过来。
总的来说token 可以理解为自然语言模型处理文本的最小单位。
它不一定是一个单词可能是一个词组也可能是一些前缀如“de”也可能是一些标点(比如感叹号可能代表更加强烈的感情)等。
知道了 token 是什么那么 token / s 的意思就很简单了这个单位就代表了模型一秒钟可以处理的 token 的个数。
这个数字越大说明模型处理文本的速度更快无论是识别文本还是输出文本用户用起来也就更加流畅。 写算法文章很久了不少同学看了我的文章后加我一起探讨如何快速学习算法于是我最近开发一个从零入门计算机视觉的专栏可以查看这里了解详情计算机视觉从入门到调优。
目前已有将近 120 人加入一起学习啦大家一起在探讨如何更加快速有效的入门学习如果你感兴趣欢迎一起加入呀。
写文不易点个赞呗~