标签:RNN

基于模型架构的经验法:一般来说,基于 Transformer 的模型需要较低的温度设定,而基于 RNN 的模型则需要较高的温度设定。(基于模型架构的设计)

基于模型架构的蒸馏是指根据学生模型的架构来选择温度设定,一般来说,基于Transformer的模型需要较低的温度设定,而基于RNN的模型则需要较高的温度设定,基...