3.11-c

HybriMoE 我非常喜欢，有insight.

汇报的时候，怎么温和的提出来， expertflow benchmark 比较老？

同一个问题，有不同的表示方法。 ktransformers 论文的优化思路和 shi 的优化思路有哪些不一样的地方。表述都是符合逻辑，做出来是真的才是真的

有tradeoff的地方就有提升的可能性

“施老师，这里我理解的比较模糊，您看是这样理解的吗？” “beam_width 是同一条 sequence 输入算多次” ”batch-size 本来就是不同的sequence 同时计算” “在decode阶段，一个layer处理的token数量 = beam_width * batch-size” “每一层处理的token数量跟top-k 没有关系，因为top-k是在decode每层结束过后进行的”