安溪网站建设,纵横seo,皮肤科在线医生免费咨询,手机网站商场建设1. 背景
关于Prefix LM和Causal LM的区别#xff0c;本qiang在网上逛了一翻#xff0c;发现多数客官只给出了结论#xff0c;但对于懵懵的本qiang#xff0c;结果仍是懵懵...
因此#xff0c;消遣了多半天#xff0c;从原理及出处#xff0c;交出了Prefix LM和Causal …1. 背景
关于Prefix LM和Causal LM的区别本qiang在网上逛了一翻发现多数客官只给出了结论但对于懵懵的本qiang结果仍是懵懵...
因此消遣了多半天从原理及出处交出了Prefix LM和Causal LM两者区别的更为清楚的说明。
2. Prefix LM
Prefix LM即前缀语言模型该结构是Google的T5模型论文起的名字望文知义来说这个模型的”前缀”有些内容但继续向前追溯的话微软的UniLM已经提及到了。
Prefix LM其实是Encoder-Decoder模型的变体为什么这样说解释如下
(1) 在标准的Encoder-Decoder模型中Encoder和Decoder各自使用一个独立的Transformer
( 2) 而在Prefix LMEncoder和Decoder则共享了同一个Transformer结构在Transformer内部通过Attention Mask机制来实现。
继续展开下Attention Mask机制马上主题就有解了
与标准Encoder-Decoder类似Prefix LM在Encoder部分采用Auto Encoding (AE-自编码)模式即前缀序列中任意两个token都相互可见而Decoder部分采用Auto Regressive (AR-自回归)模式即待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token但不能看未来尚未产生的token。
下面的图很形象地解释了Prefix LM的Attention Mask机制(左)及流转过程(右)。 Prefix LM的代表模型有UniLM、T5、GLM(清华滴~)
3. Causal LM
了解了Prefix LM后再来看Causal LM就简单的多了~
Causal LM是因果语言模型目前流行地大多数模型都是这种结构别无他因因为GPT系列模型内部结构就是它还有开源界的LLaMa也是。
Causal LM只涉及到Encoder-Decoder中的Decoder部分采用Auto Regressive模式直白地说就是根据历史的token来预测下一个token也是在Attention Mask这里做的手脚。
参照着Prefix LM可以看下Causal LM的Attention Mask机制(左)及流转过程(右)。 Ps(图真是个好东西一图胜万字呀)
4. 如何选取
两种结构均能生成文本应该如何选择呢只能说仁智见仁智。本qiang也搜寻了一番有一篇google的论文从理论上推导了Causal LM在情境学习(In-Context Learning)中比不上Prefix LM感兴趣地客官可以看看论文。
5. 总结
一句话足矣~
前缀语言模型可以根据给定的前缀生成后续的文本而因果语言模型只能根据之前的文本生成后续的文本。
6. 参考
(1) google T5: https://arxiv.org/pdf/1910.10683v4.pdf
(2) 微软UniLM: https://arxiv.org/pdf/1905.03197.pdf
(3) google理论评估PLM与CLM: https://arxiv.org/pdf/2308.06912.pdf