艾巴生活网

您现在的位置是:主页>生活 >内容

生活

在会计方面ChatGPT仍然无法与人类匹敌

2023-04-21 09:04:09生活传统的飞鸟
上个月,OpenAI 推出了其最新的人工智能聊天机器人产品 GPT-4。据 OpenAI 的人员称,这个使用机器学习生成自然语言文本的机器人以 90%

上个月,OpenAI 推出了其最新的人工智能聊天机器人产品 GPT-4。据 OpenAI 的人员称,这个使用机器学习生成自然语言文本的机器人以 90% 的分数通过了律师考试,通过了 15 门 AP 考试中的 13 门,并在 GRE 语言考试中获得了近乎完美的 分数.

在会计方面ChatGPT仍然无法与人类匹敌

BYU 和其他 186 所大学的好奇心想知道 OpenAI 的技术在会计考试中的表现如何。因此,他们对原始版本 ChatGPT 进行了测试。研究人员表示,虽然它在会计领域仍有工作要做,但它是一个游戏规则改变者,将改变每个人的教学和学习方式——变得更好。

“这项技术刚问世时,每个人都担心学生现在可以用它来作弊,”该研究的主要作者、杨百翰大学会计学教授大卫伍德说。“但作弊的机会一直存在。所以对我们来说,我们正努力专注于我们现在可以用这项技术做些什么,而我们以前无法做到这一点,以改善教师的教学过程和学生的学习过程。对其进行测试令人大开眼界。”

自 2022 年 11 月首次亮相以来,ChatGPT 已成为有史以来增长最快的技术平台,在不到两个月的时间内就达到了 1 亿用户。为了回应关于像 ChatGPT 这样的模型应该如何融入教育的激烈争论,Wood 决定招募尽可能多的教授,以了解 AI 与真正的大学会计专业学生的对比情况。

他的合著者在社交媒体上的招募宣传火爆:来自 14 个国家/地区的 186 家教育机构的 327 名合著者参与了这项研究,贡献了 25,181 道课堂会计试题。他们还招募了 BYU 的本科生(包括 Wood 的女儿 Jessica),向 ChatGPT 提供另外 2,268 道教科书试题。问题涵盖会计信息系统(AIS)、审计、财务会计、管理会计和税务,难度和类型(判断题、选择题、简答题等)各不相同。

虽然 ChatGPT 的表现令人印象深刻,但学生们的表现更好。学生的总体平均得分为 76.7%,而 ChatGPT 的得分为 47.4%。在 11.3% 的问题上,ChatGPT 得分高于学生平均水平,在 AIS 和审计方面表现尤为出色。但人工智能机器人在税务、财务和管理评估方面表现更差,这可能是因为 ChatGPT 难以处理后一种类型所需的数学过程。

在问题类型方面,ChatGPT 在判断题(68.7% 正确)和多项选择题(59.5%)上表现更好,但在简答题(28.7% 到 39.1% 之间)上表现不佳。一般来说,ChatGPT 更难回答高阶问题。事实上,有时 ChatGPT 会为错误的答案提供权威的书面描述,或者以不同的方式回答同一个问题。

“它并不完美;你不会将它用于所有事情,”目前是杨百翰大学新生的杰西卡伍德说。“试图仅通过使用 ChatGPT 来学习是徒劳的。”

研究人员还通过研究发现了其他一些有趣的趋势,包括:

ChatGPT 在进行数学计算时并不总能识别出来,并且会犯一些无意义的错误,例如在减法问题中将两个数字相加,或者错误地除以数字。

ChatGPT 通常会为其答案提供解释,即使它们是错误的。其他时候,ChatGPT 的描述是准确的,但它会继续选择错误的多项选择答案。

ChatGPT 有时会编造事实。例如,在提供参考时,它会生成一个完全虚构的真实参考。作品,有时甚至连作者都不存在。

也就是说,作者完全希望 GPT-4 在他们研究中提出的会计问题以及上述问题上呈指数级改善。他们发现最有前途的是聊天机器人如何帮助改善教学和学习,包括设计和测试作业的能力,或者可能用于起草项目的部分内容。

“这是一个反思我们是否在教授增值信息的机会,”该研究的合著者兼 BYU 会计学教授 Melissa Larson 说。“这是一种破坏,我们需要评估我们从这里走向何方。当然,我仍然会有 TA,但这将迫使我们以不同的方式使用它们。”