苹果研究人员发表了一篇关于新人工智能模型的论文。据该公司称,ReALM是一种可以理解并成功处理不同类型上下文的语言模型。这样,用户可以在屏幕上询问某些内容或在后台运行,并且语言模型仍然可以理解上下文并给出正确的答案。
这是苹果在过去几个月发表的第三篇有关人工智能的论文。这些研究仅预告了iOS18、macOS15和苹果最新操作系统即将推出的人工智能功能。苹果研究人员在论文中表示:“参考解析是一个重要问题,对于理解和成功处理不同类型的上下文至关重要。(……)本文
通过展示如何将引用解析转换为语言建模问题,展示了如何使用法学硕士来创建一个极其有效的系统来解析各种类型的引用,尽管涉及到屏幕上传统上不存在的实体形式有利于减少到纯文本模式。”
一个例子是用户询问他们附近的药店。列出列表后,Siri可以执行一些操作,用户可以询问“呼叫彩虹路上的那个”、“呼叫底部的一个”或“呼叫这个号码(屏幕上显示的)”。Siri无法执行第二部分,但借助ReALM,该语言模型可以通过分析设备上的数据并完成查询来理解上下文。
因此,Apple研究人员希望通过ReALM使用AI来完成以下任务:
屏幕实体:这些是当前显示在用户屏幕上的实体
会话实体:这些是与会话相关的实体。这些实体可能
来自用户的上一轮(例如,当用户说“给妈妈打电话”时,
妈妈的联系人将是相关实体)或来自虚拟助理(例如
,当代理提供用户可以选择地点或警报列表)。
后台实体:这些是来自后台进程的相关实体,它们可能
不一定是用户在屏幕上看到的内容或与
虚拟代理交互的直接部分;例如,开始响起的闹钟或在
后台播放的音乐
也就是说,苹果认为其最新的人工智能模型比ChatGPT的GPT4更好:“在仅接受文本的GPT-3.5中,我们的输入仅包含提示;然而,对于GPT-4(也可以在图像上进行上下文关联),我们为系统提供屏幕参考分辨率任务的屏幕截图,我们发现这有助于大幅提高性能。请注意,据我们所知,我们的ChatGPT提示和提示+图像表述本身是新颖的。虽然我们相信可以进一步改进结果,例如,通过对语义相似的话语进行采样,直到达到提示长度,但这种更复杂的方法值得进一步、专门的探索,我们将其留给未来的工作。”