人工智能成为得力的“旅游搭子”?可能还需多方面提升

转载
452 天前
2915
AI之势

文章转载来源:AI之势

来源:人民数据微信公众号 ,作者:人民数据研究院研究员 马绮霞、王简


图片来源:由无界 AI工具生成

八月时值旅游高峰期,人们通常会通过多种渠道了解旅游攻略,并在旅行过程中寻求景点知识讲解服务。人工智能生成内容(简称:AIGC)作为一种新兴技术,能否让旅游规划和服务更加便捷智能化,值得我们关注。

人民数据研究院围绕文心一言、讯飞星火、ChatGPT和360智脑[1]四个通用AIGC平台,从目标选择、行程规划、讲解服务三大维度评估大语言模型在旅游领域的答题质量,发现游客利用AIGC平台解决出行难题、便捷获取服务的能力和改进的可能。

测评发现

·四个平台整体表现良好,文心一言综合能力在四者中最优。

·国内大模型的事实性回答能力优于国外模型。

·随着限定条件的增加,行程规划表现更好。

·国产大模型在旅游讲解服务中完成度更好。


AIGC助力旅游目标选择,各平台表现参差不齐


表:AIGC平台在旅游目标选择方面的表现结果

旅行中,我们常常面临着许多选择,每一次选择都能为旅行增添不同的乐趣和体验。测评基于事实性回答和开放性回答综合考察了各AIGC平台对于地点、景点、美食、住宿和文创的推荐能力。整体来看,文心一言表现最优,对于给定条件的事实性问答和开放性问答均可以准确理解题意做出合理的目标推荐;其次是讯飞星火和ChatGPT,讯飞星火在事实问题上回答准确率较高,ChatGPT则更擅长回答较为开放性的问题;360智脑在各方面还有一定的提升空间。

图:四平台在不同目标选择下的表现情况

从地点推荐看,各平台均能根据限定条件推荐旅行目的地。ChatGPT和讯飞星火推荐的地点更受大众欢迎;文心一言综合分析给定的复合条件提供了合理的推荐建议;360智脑可以做出回答,但在解释说明上有待丰富。

从景点推荐看,部分平台的事实性问题回答能力凸显,展现了它们对国内的情况了解程度相对更高。关于“北京5A级景区”“北京小西藏”等事实性问题回答,文心一言和科大讯飞提供了准确的答案并拓展介绍;ChatGPT和360智脑关于“北京小西藏”不能准确回答;此外,360智脑关于“北京5A景区”的作答不够完整。

从美食推荐看,各平台基本能提出相对令人满意的建议。文心一言和ChatGPT不仅能推荐美食,还从原材料、做法、口感等方面补充说明;科大讯飞和360智脑可根据题意做出解答,但回答的完整度和拓展能力与另外两个平台有一定差距。

从住宿推荐看,酒店基础信息及配套设施更新略有滞后。文心一言可以明确列出酒店的名称、地址、价格等信息,但部分酒店在头部旅行APP中未能找到,考虑是AIGC平台提供的信息滞后;ChatGPT在开放性回答中未提供明确的酒店信息,且在给定具体酒店名称询问配套设施时,表示其知识截止日期是2021年9月,无法反馈最新的设施信息;科大讯飞未理解酒店“限定价格”的条件,360智脑则出现编造酒店内容的现象。

从文创推荐看,特色产品推荐能力稍弱,回答全面性有待提升。在回答“北京国风文创”时,文心一言和ChatGPT推荐的内容较为笼统,从“国风文具”“传统剪纸”“国画作品”等不具有地域特色的方面作答。讯飞星火和360智脑在提供特色产品能力上优于上述两个平台,推荐了例如故宫、颐和园等具有代表性的文创产品,但不够全面。


AIGC表现两极分化,限制条件越多规划质量越高


表:AIGC平台在旅游行程规划方面的表现结果

旅游行业垂直媒体劲旅网撰文表示,“统计数据显示,他们每一次旅游决策,需要翻看数十篇旅行攻略和数百款旅游产品,平均消耗11天9小时37分钟,这还不包括超过60%的旅行者大费周章后无功而返。”[2]旅游过程中,耗时且更为核心的是对具体行程的规划和拆解活动。AIGC平台具备对互联网海量文本资讯内容的学习理解能力,其对目的地旅游信息和相关费用的拆解整合是行程规划的测试重点。测评结果显示,文心一言和ChatGPT表现优异,基本能提出可行性较强且综合考虑各种限制条件的结果;讯飞星火和360智脑则略逊一筹,无法完全准确理解规划行程中的限制条件。

一般来说,旅行是在特定时间范围、费用预算、期待地点等限制条件下进行的一项规划活动,其中限制条件越多,规划难度也相应越大。本次测评选择“假期3天”“预算1000元”和“故宫和北京野生动物园是必须要去的景点”这三个限制条件,规定行程为河北石家庄到北京,需要明确列出每日的交通费、住宿费、景点票价等费用分解情况。

图:4平台在不同限制条件数量下表现情况

结果发现,随着限定条件的增加,行程规划表现更好。分析其中原因,可能是语言模型在处理连续相似问题时,学习能力逐步提高。平台一般默认对同一问题的多次询问,代表对之前回答结果的不满意,所以就行程规划而言,逐次增加限制条件可激发平台更多回答能力。

文心一言所体现出的规划能力是最强的,能在正确理解限制条件之外,给出景点介绍、旅行提示、费用项目拆解的全套答案;ChatGPT在做到基本理解限制条件时,无法纳入返程车票和住宿费到费用总和;360智脑和讯飞星火或多或少无法理解限制条件,并在每日费用拆解上有所欠缺。


AIGC讲解助力研学体验,国产大模型应用适配度高


表:AIGC平台在旅游讲解服务方面的表现结果

2016年教育部等11部门联合印发的《关于推进中小学生研学旅行的意见》指出,“各中小学要结合当地实际,把研学旅行纳入学校教育教学计划,与综合实践活动课程统筹考虑”。时值暑期,各地学生将旅游与研学自发结合,报名参与以研学为主题的旅行项目。AIGC平台的出现,丰富了小游客们前往景点学习知识的参与形式和整体体验,本次测评从内容介绍和知识问答两类问题入手,分析评判各语言模型处理开放性问题和检索准确信息的能力。

综合来说,国产大模型在旅游讲解服务完成度更好,尤其是文心一言和讯飞星火,在开放性问题和准确信息两层都表现良好,360智脑则在生成内容数量、引用资料方面有较大的提升空间。而使用外语作为训练语料的ChatGPT则在回答开放性问题时表现稳定,但对于知识性问题则存在“顾左右而言他”的现象,也就是无法准确理解问题或无法给出准确答案。


出行服务信息繁杂,AIGC助力旅游行业升级


7月17日,携程发布首个旅游行业垂直大模型“携程问道”,消息一出引起社会各界的关注。目前该模型还处于内测阶段,它能否打造旅游业的“可靠答案库”,还需要拭目以待。对于通用的AIGC平台在垂直领域的能力,大家也充满期待。就此,人民数据研究院提出以下建议:

1. 保证AIGC信息及时更新,提升作答可靠性

AIGC平台一定程度上为游客提供了便捷的出行解决方案,但仍需及时更新数据和信息,包括酒店的经营状况、设施条件、景点门票信息、是否开放等,避免提供“过期信息”,为游客提供更为可靠的出行规划和更好的服务体验。

2. 强化AIGC知识问答能力,提升作答准确度

本次测评中发现大模型关于事实问答表现较为良好,但准确度不甚满意。在研学活动中,提供准确和可靠的知识内容至关重要,直接关系到小游客的研学质量和体验,各模型还需使用可靠、权威的数据源来训练模型,确保提供可信答案。

[1]版本号:ChatGPT-3.5 版本:July 20;文心一言版本:V2.2.0;讯飞星火版本:V1.5;360智脑版本:4.0

[2]《从旅游垂直行业首个大模型,看AIGC如何影响旅游消费决策》,劲旅网

http://www.btiii.com/html/2023-07-21/13776425.html#PPN=tournews