斗龙战士4

%准确率赶超登顶！谷歌发布自动评估模型

新智元报道编辑：乔杨耳朵【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列，FLAMe-RM-24B模型在RewardBench上表现卓越，以87.8%准确率领先GPT-4o。大语言模型都卷起来了，模型越做越大，token越来越多，输出越来越长。那么问题来了，如何有效地评估大语言模型的长篇大论呢？要是输出长度长了但胡言乱语输出质量差，又臭又长，岂不是白搭?首先能想到的方法就是人工评估。人工评估虽然对于评价模型性能至关重要，但受到主观性、评估者之间的差异性以及广泛评估的高成本的限制。考虑到这些因素...

科技资讯 2024-08-09 777 0 斗龙战士4

1