郝彦飞 eleuther:语言模型的小样本评估框架 This project provides a unified framework to test generative language models on a large number of different evaluation tasks. 该项目提供了一个统一的框架来测试大量不同评估任务的生成语言模型。 Features: 特征: Over 60 standard academic b... MIT开源 大模型评估