异动
登录注册
小朋友大朋友
2024-05-10 13:08:21
谢谢分享!MLA确实是核心机制
@睡不着的鱼: 一、背景昨晚英伟达美股跌2个点,其中很大一个原因,就是DeepSeek v2采用了多头注意力机制(Multi-Head Latent Attention下面简称MLA幻方大模型),DeepSeek v2在能力逼近第一梯队闭源模型的前提下,推理成本降到了1块钱per million token,什么概
43 赞同-59 评论
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
工分
0.02
转发
收藏
投诉
复制链接
分享到微信
有用 0
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据