当前位置: 首页 > news >正文

阿里云快速建站教程学做糕点的网站

阿里云快速建站教程,学做糕点的网站,网页制作专业软件,网站做导航设计的作用是什么意思Q1#xff1a;SFT时#xff0c;计算LOSS ​ LLM是自回归生成模型#xff0c;每次只会生成一个 token#xff0c;难道 SFT 时#xff0c;对于一个 (L, D) 的数据#xff0c;要调用 L 次LLM去计算loss#xff1f; A1#xff1a; ​ 在每个前向传播过程#xff0c;模型…Q1SFT时计算LOSS ​ LLM是自回归生成模型每次只会生成一个 token难道 SFT 时对于一个 (L, D) 的数据要调用 L 次LLM去计算loss A1 ​ 在每个前向传播过程模型一次性生成整个序列的概率分布而不是逐个生成令牌。对于一个(L, D)的输入那么Attention后我们还是会得到一个(L, D)输出。只不过(i, D)这个向量中存着1~i中间所有的信息那么用它就可以生成第 i 1 个位置的内容。这也是为什么generate函数中每次会取 logits[:, -1] 去生成新的内容。 Q2: SFT时数据为什么promptinputoutput ​ LLM是自回归生成模型在训练时候为什么不是用 prompt input 作为输入然后得到 output 再去与真实的 label 计算 loss 更新参数呢 A2: ​ 首先如果要是像问题中这种策略去训练一来每次要调用 l e n g t h o u t p u t length_{output} lengthoutput​ 次模型二来模型生成的内容和 label 长度不一定一样计算 loss 会出问题。其中这主要是因为我们在计算loss时pytorch中要求loss_function(input, label)中的 input, label 的shape要一致。然后为了加速收敛这里其实是一种teacher force 的策略就在第i个位置我们会得到一个hidden_state然后第i1个位置的token应该由这个hidden_state去生成但是我们强制让第i1个位置的token和label中这个位置的token一样也就是在相对正确的环境下再去生成生成第i1个位置的hidden_state。 Q3SFT时构造lable ​ SFT时构造的lable为什么要把promptinput部分mask掉。 A3 ​ 像Q1中那样我们生成的时候是一次性把整个序列的概率分布拿到。然后我们其实不想模型去学会对齐promptinput这部分的能力(因为没用)所以把promptinput mask 掉只计算output部分的loss。
http://www.zqtcl.cn/news/660783/

相关文章:

  • 2网站建设城乡住房建设网站
  • 游戏网站建设公司建设银行网站登陆二星是什么意思
  • 长春网站排名优化泉州网站建设方案服务
  • 教育培训机构加盟十大排名搜索引擎优化宝典
  • 全景精灵网站建设网站建设长尾关键词
  • 老城网站建设注册网站不需要手机验证的
  • 可以赚钱做任务的网站有哪些莘县做网站
  • 可信网站 认证规则山东网站建设代理
  • 网站怎么谈设计常用的软件开发文档有哪些
  • 该怎么给做网站的提页面需求焦作做网站公司
  • 自己做的网站找不到了制作网站问题和解决方法
  • 5118站长平台cento安装wordpress
  • 政务大厅网站建设管理制度wordpress商城移动端
  • 提供中小企业网站建设北京企业网站建设公司哪家好
  • 做海报找图片的网站黑群晖按照wordpress
  • 网站建设与运营市场开拓方案网站首页策划
  • 做国外网站什么好网站快速优化排名排名
  • 如东做网站专注高密网站建设
  • dw网页设计作品简单宁波seo排名方案
  • 网站做微信接口吗小说网站首页模板
  • 网站正在建设中html个人站长做网站需要多少钱
  • 做推广便宜的网站有哪些数据网站建设哪家好
  • 中介网站制度建设wordpress genesis
  • 广东贸易网站开发用数据库做学校网站论文
  • 关于省钱的网站名字东莞哪些网络公司做网站比较好
  • net网站建设多少前MAC怎么做网站
  • 创建网站流程图国内高清图片素材网站推荐
  • 淄博住房和城乡建设局网站建设外贸网站哪家好
  • dede网站地图路径密云区免费网站建设
  • 男女做那事是什 网站软文网