当前位置:当前位置: 首页 >
为什么我还是无法理解transformer?
文章出处:网络 人气:发表时间:2025-06-25 13:40:13
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
同类文章排行
- 目前最具性价比的全栈路线是啥?
- “飞机是最安全的交通工具”这种说法,是否是谬论?
- 老板说我设计了一周的海报还是不行,我到底该怎么学啊?
- 普通人用得着4k分辨率的显示器吗?
- 为什么电信运营商们肯拼命加下行带宽,却对上行严防死守?
- 只用321原则备份家用Nas 数据而不组建raid阵列的人,不怕哪天备份全部同时损坏导致无法恢复吗?
- 儿子抑郁四年左右了,他的未来该怎么办?
- 目前最流行的 rust web 框架是什么?
- 有哪些观赏鱼是迄今为止确定最容易养最不容易死的?
- 请问照片里这个人是谁呀?
最新资讯文章
- 为什么山姆这么受欢迎?
- 为什么伊朗的防空系统失效了?
- 2025年现在开发php项目选择lar***el框架好还是thinkphp框架好?
- 吴柳芳的真实水平如何?
- 长期使用的大佬来说说,MacOS 真的比 Windows 稳定吗?
- 宁波东方理工大学学费每人每学年 9.6 万,为什么会这么贵?
- Golang与Rust哪个语言会是今后的主流?
- 苹果***首次支持国补,最高补贴不超 2000 元,适用范围有哪些?***补贴后价格有优势吗?
- 当你在迪士尼辛苦排队时,看见有优先权的人去游玩,你是什么感觉呢?
- 当初中俄为什么不摧毁朝鲜的核设施,让朝鲜拥有了自己的核武器?
- NextJS的全栈能力现在如何了?
- 为什么很多人 get 不到林青霞的美?
- 怎么评价国内AI企业人肉背15块80TB硬盘,飞去马来西亚用英伟达训练数据,以规避美国禁令?
- Golang中有必要实现Async/Await吗?
- obsidian用一两年后会有多大?全文搜索还快吗?






关注公众微信号
移动端,扫扫更精彩