AI参加高考能得几分?看看ChatGPT4和文心一言两位考生的成绩

转载
513 天前
2283
AI梦工厂

文章转载来源:AI梦工厂

原文来源:硬核看板

图片来源:由无界 AI ‌生成

还记得前不久被AI高考作文刷爆的热搜吗?

有人觉得AI的写作水平已经超越了大多数人,也有人说AI上场只能考0分

高考成绩开始放榜,我们也查到了AI的分数......

本次出征的两位AI选手,是来自微软的ChatGPT-4和来自百度的文心一言

它们分别作答了全国甲卷的作文题之后,三位来自不同地区的教学一线的老师模拟高考阅卷进行了打分。

从作答速度上看,文心一言更胜一筹,29秒写了1103个字;而Chat GPT-4,1分42秒只写了846个字。

从行文上看,文心一言的作文全文引用了大量名言,举了不少例子,并给出了三个“让时光为我所用”的方法;

Chat GPT-4先是肯定了技术带来的便利生活,又说了技术如何让人变成了奴隶,最后提出要有选择地使用技术,理智地安排时间。

你觉得哪个得分会更高呢?

满分60分,老师们给Chat GPT打出的平均分是36分。

|  可以说是一篇不太令人满意的文章,这篇文章它过于凸显出了一种思维定式上的缺陷;

|  虽然比较切题,但整篇文章缺乏一个有效可信的论据;

 用过多的无效的篇幅去对材料本身的现象进行扩写,而没有在创造。大多的都是正确的废话,真正的建设性的、操作性的、能够打到痛点上的太少。

再看文心一言的这篇,平均得分42分,阅卷老师们是这样说的:

|  它是最有文采、论据也最为详实的一篇,但是我们要知道,引用过多其实也不是特别好;

|  虽然里面用了大量的这些引用、诗句,还有好多例子,其中还有很多是确实很多考生喜欢用的例子,例如像我在故宫修文物这种;

|  例子举得很好,但它没有说清楚、阐释出人和时间的关系;

|  明显是想到哪儿写到哪儿,逻辑性不强、分数不会高,因为他的结构过于陈旧,整篇文章基本是论据导向在往前推进,而不是逻辑导向。

根据高考阅卷标准,一篇优秀的高考作文(一类文),得分一般在50分及以上。

虽然三位来自不同地区的老师,在打分上可能会存在整体偏高或偏低的变量,但综合下来的平均结果依然显示:

两位写作速度飞快的AI考生,只能算是中等水平。

文章按照算法去完成,会将我们之前高考作文当中的很多积重难返的弊病,一脉继承下来,很多大家看着好像还不错的文章,都已经慢慢的不再符合我们高考现在的需要了。

借这个机会,我们也悄悄进行了一次“图灵测试”

除了两篇AI作文之外,一篇出自真人之手的作文也被交给到了阅卷老师手中,看看老师们能不能看出区别。

真人作文的开篇论点是“如果一味依赖于科技,成为时间的奴隶,那么科技的发展就毫无意义”;

整体上写了不能沉溺于科技坐享其成、不能逆科技发展之势一味抵制,要用“中庸”的思想借助科技,学会自控。

老师们在不知道这是真人作文的情况下,打出了43分的平均分,险胜AI,理由是:

  • 是我唯一能够看得进去的一篇,但是这篇文章的问题在于放错了重点啊,他的整个对于题目本身的审题的理解有点偏了,所以它是其实是带有一个偏题的分儿的。
  • 君子善假于物,仅仅只是讲人要善于学习、要善于借助外物学习;
  • 整个文章的结构,他在提出问题、分析问题的过程中更加关注了人和科技这样一组关系,弱化了时间要素;
  • 真正的可操作的论点,提出太过滞后了。

而在“分辨真人作文”这个环节里,Chat GPT-4作文里显著的英译中痕迹暴露了它的真实身份,首先被老师们排除在外。

文心一言的作品就比较具有迷惑性,三位老师都纠结过这篇到底是不是出自真人。原因是他们在教学中也遇到过很多想通过引经据典、堆砌辞藻来拿高分的学生。

经此一役,想必大家都看出来了——紧扣题意写作的AI很难出彩;发散思维更强的人类,深入思考时也难免落入“想太多”的陷阱。目前的AI,依旧只是为人类思维锦上添花的东西;而高考作为人才选拔的一个重要环节,其标准也在不断演化,比起辞藻华丽的套路写作,突破思维定式的创新思考才更胜一筹。