-
【AI快讯分析】智能模型困惑测试升级:Strawberry字母'r'计数难题,尖端Llama3.1版本亦感疑惑
【原文大意】来源:网上搜集文章主要讨论了大型语言模型在处理简单问题时出现的“集体失智”现象,特别是在数单词“Strawberry”中的“r”字母数量上的错误。这种现象不仅限于一个模型,而是多个模型如GPT-4、Claude 3.5 Sonnet等都出现了错误,甚至有的模型在尝试改正时反而越改越错。文章中提到了多种尝试解决这一问题的方...
-
【快讯分析】大规模模型普遍“迷失”:9.11 与 9.9 大小辨认,几乎全线崩溃
【原文大意】来源:网上搜集文章主要讨论了多个主流大模型在处理一个看似简单的问题“9.11 和 9.9 哪个大”时出现的一致错误。即使是强大的模型如GPT-4o和谷歌的Gemini Advanced,也错误地认为9.11更大。文章指出,这种错误可能源于模型处理数字的方式,特别是当数字被分解为token时,模型可能会错误地比较小数点后的部分。...