We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请问学生模型为啥只重用了教师模型的 enc_q 和 flow,而不重用文本编码器呢? 学生模型的tuning是更适合用同一个数据集的教师模型做transfer,还是更适合用其他学生模型做transfer呢? 训练学生模型一般多久收敛呀?
The text was updated successfully, but these errors were encountered:
请问学生模型为啥只重用了教师模型的 enc_q 和 flow,而不重用文本编码器呢?
如果只需要减小decoder的参数,可以的啊
学生模型的tuning是更适合用同一个数据集的教师模型做transfer,还是更适合用其他学生模型做transfer呢?
这是以同一数据为前提进行的,可能叫法不准确,目的就是用同一数据上训练的大参数模型来训练小参数模型
训练学生模型一般多久收敛呀?
至少需要训练500 epochs吧
Sorry, something went wrong.
请问学生模型为啥只重用了教师模型的 enc_q 和 flow,而不重用文本编码器呢? 如果只需要减小decoder的参数,可以的啊 学生模型的tuning是更适合用同一个数据集的教师模型做transfer,还是更适合用其他学生模型做transfer呢? 这是以同一数据为前提进行的,可能叫法不准确,目的就是用同一数据上训练的大参数模型来训练小参数模型 训练学生模型一般多久收敛呀? 至少需要训练500 epochs吧 作者你好,知识蒸馏用的什么方法呀?有参考文献或者项目吗?
至少需要训练500 epochs吧 作者你好,知识蒸馏用的什么方法呀?有参考文献或者项目吗?
No branches or pull requests
请问学生模型为啥只重用了教师模型的 enc_q 和 flow,而不重用文本编码器呢?
学生模型的tuning是更适合用同一个数据集的教师模型做transfer,还是更适合用其他学生模型做transfer呢?
训练学生模型一般多久收敛呀?
The text was updated successfully, but these errors were encountered: