新研究表明,GPT-4实际上并没有在律师考试中获得前10%的奖项。
Openai是大型语言模型(LLM)背后的公司,该公司为聊天机器人聊天提供了动力 提出了索赔 去年3月,宣布发出 网络周围的冲击波 和法律职业。
现在,一项新的研究表明,大肆宣传的90级人物实际上偏向重复的考试者,他们已经一次或多次失败了考试。一个比通常参加考试的人得分要低得多。研究人员于3月30日在《杂志》上发表了他的发现 人工智能与法律。
“与实际律师相比,与实际律师相比,您认为百分位数应该反映GPT-4的表现的程度;那么最准确的比较是与考试的人相比。
有关的: AI可以“伪造”同理心,但也鼓励纳粹主义,令人不安的研究表明
为了提出其主张,OpenAI使用了一项2023年的研究,其中研究人员从统一律师考试(UBE)中提出了GPT-4答案问题。AI模型的结果令人印象深刻:在400杆中,它得分为298,这使它成为了考试的最高分。
但是事实证明,与重复测试者相比,人工智能(AI)模型仅在前10%中得分。当Martínez更加一般地对比模型的表现时,LLM在所有测试者的第69个百分点中以及第一次参加测试的人中的第48个百分位数得分。
马丁内斯(Martínez)的研究还表明,在测试的论文写作部分中,该模型的结果范围从中等水平到低于平均水平。它列入了所有测试者的第48个百分点,在第一次参加测试的人中,它占据了第15个百分点。
为了进一步研究结果,Martínez使GPT-4根据原始研究的作者设定的参数再次重复测试。UBE通常由三个组成部分组成:多项选择多态律师律师考试(MBE);使考生执行各种律师任务的多层绩效测试(MPT);以及书面的多阶段论文考试(MEE)。
Martínez能够复制GPT-4的多项选择MBE得分,但在考试的MPT和MEE部分的评分中发现了“几个方法论问题”。他指出,最初的研究没有使用律师律师考试的全国律师会议设定的论文毕业指南。取而代之的是,研究人员只是将答案与马里兰州的答案进行了比较。
这很重要。马丁内斯说,论文撰写部分是律师考试中最接近的律师律师执行任务的最接近的代理人,这是AI考试的部分。
“尽管GPT-3.5的飞跃无疑是令人印象深刻的,而且非常值得关注,但与执业律师相比,GPT-4在论文写作上特别挣扎的事实表明,至少在自己的任务上,大型语言模型在每天都与律师所做的更紧密相似的任务。”Martínez说。
最低传球得分因州到260至272之间而异,因此GPT-4的论文得分必须灾难性的,才能使整体考试失败。但是,根据研究,其论文得分的下降只能将其得分拖到MBE接管者的最底层,并在获得许可律师的第五百分点之下。
马丁内斯说,他的发现表明,尽管毫无疑问仍然令人印象深刻,但应在法律环境中“以无意中的有害或灾难性的方式”在法律环境中进行仔细评估。
警告似乎是及时的。尽管他们倾向于产生幻觉和mdash;制造事实或连接不存在的事实或联系;正在考虑用于法律世界中多个应用程序的AI系统。例如,5月29日,联邦上诉法院法官建议AI计划可以帮助解释法律文本的内容。
为了回应有关该研究的电子邮件的电子邮件,OpenAI发言人将Live Science转介给GPT-4技术报告的“附录A第24页”。那里的相关行写道:“统一的律师考试是由我们的合作者在Casetext和Stanford Codex进行的。”