当前位置:当前位置: 首页 >
为什么我还是无法理解transformer?
文章出处:网络 人气:发表时间:2025-06-25 07:55:11
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
同类文章排行
- 大厂后端开发需要掌握docker和k8s吗?
- 美国很多地方废弃,为啥很多人宁可在街上流浪,也没有人去开荒种地呢?
- 现在个人博客不能备案了吗?
- 国产厂商为什么都不用三星屏幕了?
- 为什么很多时候对女儿最狠的却是母亲?
- 前端,后端,全栈哪个好找工作?
- 汤姆·克鲁斯在国外算几线?
- 入职第一天有什么瞬间让你马上想离职的?
- 为什么 m1 ***用大小核设计却没有 intel 的问题?
- 怎么才能有尤雨溪一半强,该怎么学习?
最新资讯文章
- 广西可以摆烂吗?
- 自己拥有一台服务器可以做哪些很酷的事情?
- 不住酒店可以去哪过夜?
- 如何评价阿里等大厂笔试现已经禁用本地IDE?
- 如何评价赵本山的演技?
- 为什么中国很少有人使用linux?
- 用PHP写了个小框架,怎么才能得到大佬们的指点?
- 小区楼下的自动售水机的水干净吗?
- 微软宣布 5 月 28 日开始下架「Microsoft 远程桌面」应用,背后原因有哪些?
- windows用什么写2d渲染?
- 男朋友说我穿衣服太开放,难道好身材不应该显示出来吗?
- 酒店为什么会有三小时钟点房?
- 你见过哪些智障的反人类的设计?
- 如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架?
- 你会从mac转向Windows吗?






关注公众微信号
移动端,扫扫更精彩