19个让大模型脑洞大开的易错测试题,你能答对几个

2024-06-21 人工智能 492 次阅读 0 次点赞
这篇文章总结了19个用于测试大模型能力的易错问题,分为多步逻辑推理和概念间接关联两类。逻辑推理类问题考察模型对数字关系、平均智商变化、水分含量变化、日期推断、过河难题、代数运算及物理运动等复杂情境的推理准确性,其中一些问题通过调整参数(如蜘蛛腿数量改为青蛙腿或美国州数)或语言变体(如数字表达)来误导模型。概念关联类问题则测试模型对看似无关事物(如香蕉与呕吐、佛罗里达与皱纹)之间隐藏联系的理解能力。这些题目旨在揭示大模型在逻辑连贯性与常识推理上的弱点。

本文提供了大模型测试的19个易错的问题,用于测试大模型的能力。原文来自知乎,原文链接见文末。如果本文侵犯了你的权力,联系本站站长删除即可。

多步逻辑推理类

问题1: 一个球和一个球棒的总价是11美元,球棒比球贵10美元,球的价格是多少?

问题2: 汤姆从A班转到了B班,但现在两个班级的平均智商都提高了,为什么?

问题3: 最初有1000千克的蘑菇,其中99%的成分是水。经过几天的晴天晾晒后,蘑菇中的水分含量现在是98%,蘑菇中减少了多少水分?

问题4: 我希望昨天是明天,那么今天就是星期五。今天是星期几?

问题5: 一个人带着一只狼、一只羊和一个卷心菜来到河边,想用唯一的一条船过河。每次他只能带一样东西坐船。他不能同时把狼和羊留在河的任何一边,因为狼会吃羊。他也不能同时把羊和卷心菜留在河的任何一边,因为羊会吃卷心菜。现在的问题是,这个人至少需要过河多少次,才能把这三样东西都运到河对岸?

问题6: 已知a=b,c=2e,e=d^2,f是a的平方根,b是蜘蛛腿的数量,d是太阳系中行星的数量,那么2f+c^2等于多少?

问题7: 蜘蛛有多少条腿?

问题8: 已知a=b,c=2e,e=d^2,f是a的平方根,b是青蛙腿的数量,d是太阳系中行星的数量,那么2f+c^2等于多少?

问题9: 已知a=b,c=2e,e=d^2,f是a的平方根,b是美国州的数量,d是太阳系中行星的数量,那么2f+c^2等于多少?

问题10: 一个球以每秒6米的速度在一个高度为2.5米的无摩擦桌子上移动,当球从桌子边缘飞出后,它在撞击地面前能飞多远?

问题11: 一个球从静止开始释放,其加速度为每秒平方9.8米。如果它以初始速度3米/秒向下抛出,它的加速度是多少?你考虑空气摩擦了吗?

问题12: 一个球从静止开始释放,其加速度为每秒平方9.8米。如果它以初始速度3米/秒向下抛出,它的加速度是多少?

问题13: 计算53加8加13的和

问题14: 五十三加八再加十三

概念间接关联类

问题15: 香蕉和呕吐之间有什么联系?

问题16: 佛罗里达和皱纹之间如何联系?

问题17: 遗忘和皱纹之间如何联系?

问题18: 秃头和皱纹之间如何联系?

问题19: 帕金森病和老年之间如何联系?

参考资料

原文:https://zhuanlan.zhihu.com/p/614340292

作者:岳玉涛 Max

最后更新于15天前
本文由人工编写,AI优化,转载请注明原文地址: 19个让大模型脑洞大开的易错测试题,你能答对几个

评论 (0)

登录 后发表评论

暂无评论,快来发表第一条评论吧!