您现在的位置是:知识 >>正文
Transformer速查宝典:模子、架构、磨炼措施的论文都在这里了
知识9人已围观
简介选自kipply's blog作者:kipply机械之心编译编纂:梓文、张倩论文大合集,一篇文章就搞定。AI 睁开快捷,这对于适才入门或者是正想跟上「潮水」的内行们来说并不友好。假如有一份详细 ...
选自kipply's blog
作者:kipply
机械之心编译
编纂:梓文、查宝措施张倩
论文大合集,典模的论一篇文章就搞定。架构
AI 睁开快捷,磨炼这对于适才入门或者是文都正想跟上「潮水」的内行们来说并不友好。假如有一份详细周全的查宝措施知识列表可能会辅助他们更快走上「正途」。
明天给巨匠带来一篇 Transformer 的典模的论综述文章 ,供巨匠清晰 Transformer 的架构下场服从及相关技术 。

本篇综述涵盖了 21 种模子 、磨炼11 种架构变更 、文都7 种预磨炼后处置技术以及 3 种磨炼技术(尚有 5 种不属于以上技术的查宝措施工具) 。模子搜罗 GPT-三、典模的论GPT-四、架构Gopher 、磨炼AlphaCode 、文都RETRO、GPT-3.五 、Chinchilla 、Flamingo 等 。一些紧张的架构变更搜罗多查问留意力 、浓密留意力、混合专家等。同时还介绍了 RLHF 、CAI、Minerva 等预磨炼后处置技术以及超参 。所有内容均凭证紧张性以及配合性妨碍排序 ,并将链接附不才方 。
如下为机械之心不修正原义对于文章妨碍编译的内容。
一 、模子
如下模子的属性若未清晰剖析 ,要末未果真 ,要末简陋凭证尺度 GPT 配置装备部署。
1.GPT-3

属性 :175B 参数 ,96 层 ,12288 嵌入维度