-
【AI快讯分析】北大与通研院推出严苛标准LooGLE,聚焦长文解析与创作能力评估
【原文大意】来源:网上搜集北京大学联合北京通用人工智能研究院提出了一种新的基准数据集LooGLE,用于评估大型语言模型(LLMs)对长文本的理解能力。该数据集包含近800个超长文档,平均长度近2万字,旨在测试模型对长文本的处理、检索以及对文本长程依赖的建模和理解能力。评估结果显示,即使是商业模型如Claude3-200k和GP...
【原文大意】来源:网上搜集北京大学联合北京通用人工智能研究院提出了一种新的基准数据集LooGLE,用于评估大型语言模型(LLMs)对长文本的理解能力。该数据集包含近800个超长文档,平均长度近2万字,旨在测试模型对长文本的处理、检索以及对文本长程依赖的建模和理解能力。评估结果显示,即使是商业模型如Claude3-200k和GP...