关于学生模型 #144

TinaChen95 · 2023-11-02T00:43:34Z

请问学生模型为啥只重用了教师模型的 enc_q 和 flow，而不重用文本编码器呢？
学生模型的tuning是更适合用同一个数据集的教师模型做transfer，还是更适合用其他学生模型做transfer呢？
训练学生模型一般多久收敛呀？

MaxMax2016 · 2023-11-02T05:58:12Z

请问学生模型为啥只重用了教师模型的 enc_q 和 flow，而不重用文本编码器呢？

如果只需要减小decoder的参数，可以的啊

学生模型的tuning是更适合用同一个数据集的教师模型做transfer，还是更适合用其他学生模型做transfer呢？

这是以同一数据为前提进行的，可能叫法不准确，目的就是用同一数据上训练的大参数模型来训练小参数模型

训练学生模型一般多久收敛呀？

至少需要训练500 epochs吧

Isshang · 2024-01-25T12:13:58Z

请问学生模型为啥只重用了教师模型的 enc_q 和 flow，而不重用文本编码器呢？

如果只需要减小decoder的参数，可以的啊

学生模型的tuning是更适合用同一个数据集的教师模型做transfer，还是更适合用其他学生模型做transfer呢？

这是以同一数据为前提进行的，可能叫法不准确，目的就是用同一数据上训练的大参数模型来训练小参数模型

训练学生模型一般多久收敛呀？

至少需要训练500 epochs吧
作者你好，知识蒸馏用的什么方法呀？有参考文献或者项目吗？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于学生模型 #144

关于学生模型 #144

TinaChen95 commented Nov 2, 2023

MaxMax2016 commented Nov 2, 2023

Isshang commented Jan 25, 2024

关于学生模型 #144

关于学生模型 #144

Comments

TinaChen95 commented Nov 2, 2023

MaxMax2016 commented Nov 2, 2023

Isshang commented Jan 25, 2024