.net电子商城网站开发设计,wordpress字体插件,百度一下照片识别,微信数据统计小程序文章目录 前言一、大模型的发展趋势二、KNN LM总结 前言
大模型大资料 大模型的顿悟时刻 一、大模型的发展趋势 随数据量增加#xff0c;模型可以从量变达到质变#xff0c;从某一刻开始突然学会东西。 当成为大模型时#xff0c;分数会从0,0突然变成100#xff0c;完成“… 文章目录 前言一、大模型的发展趋势二、KNN LM总结 前言
大模型大资料 大模型的顿悟时刻 一、大模型的发展趋势 随数据量增加模型可以从量变达到质变从某一刻开始突然学会东西。 当成为大模型时分数会从0,0突然变成100完成“顿悟”. 横轴表示分布中产生答案的概率信心分数纵轴表示答案正确的概率。可以发现小模型的信心分数跟答案正确的概率关系不大而对于大模型信心分数越高答案正确的概率越大。当模型够大时才具有calibration的能力。
现在大模型的发展趋势是不一定要更大的模型再算力没有跟上之前也许需要的是更多的训练资料。 经过微调的小模型是有可能比大模型的效果好的。一个小模型做人类老师的supervised learning在做更多reinforce learning是可以比大模型好的。如果小模型可以做人类老师给的回馈和reinforce learning是可以比大模型相当的。 Gpt相较于其他大模型成功的原因可能是这个线上的api人类不断去玩这个模型这样openAI知道人类面对一个大型语言模型时会问什么问题。
二、KNN LM
一般的语言模型实际上就是做一个分类的问题把下一个字预测出来。 经过transformer输出一个向量h根据h做一个分类问题得到一个概率分布根据这个分布sample出答案。 KNN LM训练时先把所有训练资料的前半句都输入模型这样会得到一堆representation还有这些representations应该对应的正确的词汇是什么。计算这两者的相似度距离选出距离比较小的k个向量将这k个向量对应的字找出来把这几个字转换成一个概率分布将相同的字合并概率得出最终的一个概率分布。 单用KNN LM可能是不够的还是要用一般的语言模型得到的概率和KNN LM得到的概率做加权平均得到最终的结果。
这样做的好处时如果模型碰到一些生僻的词汇它不会把那些生僻词汇当做一个类别。另一个好处是训练资料可以比一般的语言模型的资料更为巨大因为放在training contexts里面的资料不一定只是你的训练资料可以把所有能找到的资料都放进去。 总结
学习视频来源 1. https://www.bilibili.com/video/BV1TD4y137mP?p29vd_source3a369b537e1d34ff9ba8f8ab23afedec 2. https://www.bilibili.com/video/BV1TD4y137mP?p30vd_source3a369b537e1d34ff9ba8f8ab23afedec 3. https://www.bilibili.com/video/BV1TD4y137mP?p31vd_source3a369b537e1d34ff9ba8f8ab23afedec