谷歌和加州大学洛杉矶分校如何促使人工智能选择下一步行动以获得更好的答案

谷歌和加州大学洛杉矶分校合作改进人工智能的决策能力

Google的AVIS程序可以动态选择一系列步骤,比如在图片中识别一个对象,然后查找关于该对象的信息。

人工智能程序以其无论查询何种问题都能产生答案的方式,给公众留下了深刻的印象。然而,答案的质量往往不够理想,因为ChatGPT等程序只是对文本输入进行回应,没有特定的主题知识基础,并且可能会产生直接的虚假信息。

加利福尼亚大学和谷歌最近的研究项目,改变了这种情况,使得Chat-GPT等大型语言模型可以选择特定的工具,例如网络搜索或光学字符识别,然后从其他来源中通过多个步骤寻找答案。

此外:研究人员表示,ChatGPT对科学结果撒谎,需要开源替代方案

结果是一种原始形式的“计划”和“推理”,即程序能够每一刻决定如何处理一个问题,并在解决问题后判断解决方案是否令人满意。

这项名为“AVIS(具有大型语言模型的自主视觉信息检索)”的工作来自加州大学洛杉矶分校的Ziniu Hu及其同事,以及谷歌研究部门的合作作者,并已发布在arXiv预印本服务器上。

AVIS是基于谷歌的Pathways语言模型(PaLM)构建的,它是一个大型语言模型,产生了多个适应各种生成AI方法和实验的版本。

AVIS是近期研究的传统延续,旨在将机器学习程序转化为更广泛行动的“代理人”,而不仅仅是产生下一个词的预测。这些研究包括今年推出的“AI驱动任务管理系统”BabyAGI,以及谷歌研究人员今年推出的能够指导机器人在物理空间中执行一系列动作的PaLM*E。

AVIS程序的重大突破在于,与BabyAGI和PaLM*E不同,它不遵循预先设定的行动路线。相反,它使用一种称为“规划器”的算法,在每个情境中选择行动方式。这些选择是由语言模型评估提示的文本而生成的,将其分解为子问题,然后将这些子问题与一组可能的行动相关联。

即使在行动选择方面,这种方法也是一种新颖的方法。

此外:谷歌更新Vector AI,使企业能够在自己的数据上训练GenAI

Hu和他的团队对10名参与者进行了调查,要求他们回答相同类型的问题,例如展示一张图片并询问“这种昆虫的名字是什么?”他们记录了他们选择的工具,例如谷歌图片搜索。

然后,作者将这些人类选择的示例放入所谓的“过渡图”中,这是一个模拟人类在每个时刻选择工具的模型。

然后,规划器使用该图在“相关的上下文示例中进行选择[…],这些示例是根据先前由人类作出的决策组装而成的”。这是一种通过将过去的示例作为语言模型的输入,让程序模拟人类选择的方法。

此外:多视角AI浪潮即将来临,它将非常强大

为了对其选择进行检查,AVIS程序还有第二个算法,即“推理器”,它在语言模型尝试后评估每个工具的实用性,然后决定是否输出对原始问题的答案。如果特定的工具选择没有帮助,推理器将使规划器重新开始规划。

AVIS工作流程包括设计问题、选择工具,然后使用推理器检查工具是否产生了满意的答案。

Hu和团队在一些标准的自动化基准视觉问题回答测试上对AVIS进行了测试,例如由卡内基梅隆大学的研究人员于2019年推出的OK-VQA。他们报告称,在该测试中,AVIS实现了“60.2%的准确率,高于为该数据集量身定制的大多数现有方法”。换句话说,这里的一般方法似乎超过了被精心设计以适应特定任务的方法,这是机器学习人工智能的普遍性增强的一个例子。

此外:生成式人工智能成为2023年Gartner排名前25的新兴技术之首

在总结中,胡和他的团队指出他们希望在未来的工作中不仅仅局限于图像问题。他们写道:“我们的目标是将我们基于LLM的动态决策框架扩展到其他推理任务。”