文章转载来源:AI梦工厂
原文来源:硬核看板
图片来源:由无界 AI 生成
还记得前不久被AI高考作文刷爆的热搜吗?
有人觉得AI的写作水平已经超越了大多数人,也有人说AI上场只能考0分
高考成绩开始放榜,我们也查到了AI的分数......
本次出征的两位AI选手,是来自微软的ChatGPT-4和来自百度的文心一言。
它们分别作答了全国甲卷的作文题之后,三位来自不同地区的教学一线的老师模拟高考阅卷进行了打分。
从作答速度上看,文心一言更胜一筹,29秒写了1103个字;而Chat GPT-4,1分42秒只写了846个字。
从行文上看,文心一言的作文全文引用了大量名言,举了不少例子,并给出了三个“让时光为我所用”的方法;
Chat GPT-4先是肯定了技术带来的便利生活,又说了技术如何让人变成了奴隶,最后提出要有选择地使用技术,理智地安排时间。
你觉得哪个得分会更高呢?
满分60分,老师们给Chat GPT打出的平均分是36分。
| 可以说是一篇不太令人满意的文章,这篇文章它过于凸显出了一种思维定式上的缺陷;
| 虽然比较切题,但整篇文章缺乏一个有效可信的论据;
| 用过多的无效的篇幅去对材料本身的现象进行扩写,而没有在创造。大多的都是正确的废话,真正的建设性的、操作性的、能够打到痛点上的太少。
再看文心一言的这篇,平均得分42分,阅卷老师们是这样说的:
| 它是最有文采、论据也最为详实的一篇,但是我们要知道,引用过多其实也不是特别好;
| 虽然里面用了大量的这些引用、诗句,还有好多例子,其中还有很多是确实很多考生喜欢用的例子,例如像我在故宫修文物这种;
| 例子举得很好,但它没有说清楚、阐释出人和时间的关系;
| 明显是想到哪儿写到哪儿,逻辑性不强、分数不会高,因为他的结构过于陈旧,整篇文章基本是论据导向在往前推进,而不是逻辑导向。
根据高考阅卷标准,一篇优秀的高考作文(一类文),得分一般在50分及以上。
虽然三位来自不同地区的老师,在打分上可能会存在整体偏高或偏低的变量,但综合下来的平均结果依然显示:
两位写作速度飞快的AI考生,只能算是中等水平。
文章按照算法去完成,会将我们之前高考作文当中的很多积重难返的弊病,一脉继承下来,很多大家看着好像还不错的文章,都已经慢慢的不再符合我们高考现在的需要了。
借这个机会,我们也悄悄进行了一次“图灵测试”。
除了两篇AI作文之外,一篇出自真人之手的作文也被交给到了阅卷老师手中,看看老师们能不能看出区别。
真人作文的开篇论点是“如果一味依赖于科技,成为时间的奴隶,那么科技的发展就毫无意义”;
整体上写了不能沉溺于科技坐享其成、不能逆科技发展之势一味抵制,要用“中庸”的思想借助科技,学会自控。
老师们在不知道这是真人作文的情况下,打出了43分的平均分,险胜AI,理由是:
而在“分辨真人作文”这个环节里,Chat GPT-4作文里显著的英译中痕迹暴露了它的真实身份,首先被老师们排除在外。
文心一言的作品就比较具有迷惑性,三位老师都纠结过这篇到底是不是出自真人。原因是他们在教学中也遇到过很多想通过引经据典、堆砌辞藻来拿高分的学生。
经此一役,想必大家都看出来了——紧扣题意写作的AI很难出彩;发散思维更强的人类,深入思考时也难免落入“想太多”的陷阱。目前的AI,依旧只是为人类思维锦上添花的东西;而高考作为人才选拔的一个重要环节,其标准也在不断演化,比起辞藻华丽的套路写作,突破思维定式的创新思考才更胜一筹。
来源:AI梦工厂
发布人:暖色
声明:该文观点仅代表作者本人,不代表火讯财经立场。火讯财经系信息发布平台,仅提供信息存储空间服务。
如文章涉及侵权, 请及时致函告之,本站将第⼀时间删除⽂章。邮箱:840034348@qq.com