Home
  • 首页
  • 归档
  • 分类
  • 标签
  • 日记
  • 关于

MoE 压缩(一)Pruning

MoE 压缩(一)Pruning NAEE Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models(ACL’24) Method 枚举式剪枝 给定保留专家的数量 rrr , 枚举剪枝集合 CCC,计算剪枝前的MoE层 F\math
2026-03-19

enable_input_require_grads

model.enable_input_require_grads() 问题 在进行大模型微调时,如果同时满足以下两个条件: 使用 PEFT(如 LoRA):仅训练少量增量参数,冻结了底座模型(Embedding 层及大部分层)。 开启 Gradient Checkpointing:为了节省显存,不保存中间激活值。 会发生报错: RuntimeError: element 0 of tens
2026-02-26

Hello World

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quic
2026-02-11

搜索

Hexo Fluid