HybriMoE 我非常喜欢, 有insight.

汇报的时候, 怎么温和的提出来, expertflow benchmark 比较老?

同一个问题, 有不同的表示方法。 ktransformers 论文的优化思路和 shi 的优化思路有哪些不一样的地方。 表述都是符合逻辑, 做出来是真的才是真的

有tradeoff的地方就有提升的可能性

“施老师, 这里我理解的比较模糊,您看是这样理解的吗?” “beam_width 是同一条 sequence 输入算多次” ”batch-size 本来就是不同的sequence 同时计算” “在decode阶段, 一个layer处理的token数量 = beam_width * batch-size” “每一层处理的token数量跟top-k 没有关系,因为top-k是在decode每层结束过后进行的”