searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

LLM相关基础知识概念

2024-12-10 09:40:16
2
0

1. MOE(混合专家模型,Mixture of Experts):

背景/前提:如果有一个包括了多个领域知识的复杂问题,我们该使用什么样的方法来解决呢?最简单的办法就是把各个领域的专家集合到一起来攻克这个任务,当然我们事先要把不同的任务先分离出来,这样才便于分发给不同领域的专家,让他们来帮忙处理,最后再汇总结论。

基于此:MOE由多个专业化的子模型(即“专家”)组合而成,每一个“专家”都在其擅长的领域内做出贡献。而决定哪个“专家”参与解答特定问题的,是一个称为“门控网络”的机制。

2. SwiGLU激活函数:

SwiGLU的目的在于提供一种更有效的激活方式,它可以帮助模型更好地学习数据中的复杂模式和关系。Swish激活函数因其平滑性和非零的梯度对于负值的处理,已被证明在多种任务中优于传统的ReLU函数。将Swish与GLU结合,SwiGLU通过门控机制进一步增强了模型的选择性信息传递能力,这有助于提高模型在特定任务,如自然语言处理和图像识别中的表现。

GLU是一种类似LSTM带有门机制的网络结构,同时它类似Transformer一样具有可堆叠性和残差连接,它的作用是完成对输入文本的表征,通过门机制控制信息通过的比例,来让模型自适应地选择哪些单词和特征对预测下一个词有帮助,通过堆叠来挖掘高阶语义,通过残差连接来缓解堆叠的梯度消失和爆炸。

3. 对齐(Alignment):LLM与人类意图的一致性,即让LLM生成的结果更加符合人类的预期,包括遵循人类的指令、理解人类的意图,进而能产生有帮助的回答等。

0条评论
作者已关闭评论
李****戈
6文章数
0粉丝数
李****戈
6 文章 | 0 粉丝
原创

LLM相关基础知识概念

2024-12-10 09:40:16
2
0

1. MOE(混合专家模型,Mixture of Experts):

背景/前提:如果有一个包括了多个领域知识的复杂问题,我们该使用什么样的方法来解决呢?最简单的办法就是把各个领域的专家集合到一起来攻克这个任务,当然我们事先要把不同的任务先分离出来,这样才便于分发给不同领域的专家,让他们来帮忙处理,最后再汇总结论。

基于此:MOE由多个专业化的子模型(即“专家”)组合而成,每一个“专家”都在其擅长的领域内做出贡献。而决定哪个“专家”参与解答特定问题的,是一个称为“门控网络”的机制。

2. SwiGLU激活函数:

SwiGLU的目的在于提供一种更有效的激活方式,它可以帮助模型更好地学习数据中的复杂模式和关系。Swish激活函数因其平滑性和非零的梯度对于负值的处理,已被证明在多种任务中优于传统的ReLU函数。将Swish与GLU结合,SwiGLU通过门控机制进一步增强了模型的选择性信息传递能力,这有助于提高模型在特定任务,如自然语言处理和图像识别中的表现。

GLU是一种类似LSTM带有门机制的网络结构,同时它类似Transformer一样具有可堆叠性和残差连接,它的作用是完成对输入文本的表征,通过门机制控制信息通过的比例,来让模型自适应地选择哪些单词和特征对预测下一个词有帮助,通过堆叠来挖掘高阶语义,通过残差连接来缓解堆叠的梯度消失和爆炸。

3. 对齐(Alignment):LLM与人类意图的一致性,即让LLM生成的结果更加符合人类的预期,包括遵循人类的指令、理解人类的意图,进而能产生有帮助的回答等。

文章来自个人专栏
文章 | 订阅
0条评论
作者已关闭评论
作者已关闭评论
0
0