AI的多视角浪潮正在来临,而且它将是强大无比的

多元视角智能正在兴起,将迎来无比强大的浪潮!

多个苹果

所谓的多视角是通过考虑两个不同信号之间的共同信息来连接这些信号,尽管它们存在差异。多视角可能为机器提供更丰富的世界结构感,或许有助于机器“推理”和“规划”的目标。

目前最成功的人工智能形式,比如ChatGPT或DeepMind的AlphaFold,预测蛋白质,却陷入了一个明显狭窄的维度:AI只能从一个方面看事物,作为一个词,作为一张图片,作为空间中的一个坐标,或任何一种数据类型,但一次只能看一个。

神经网络很快将以各种数据形式的融合方式大幅扩展,从多个角度看待生活。这是一个重要的发展,因为它可能使神经网络在世界的连接方式上更具根基,事物之间的联系方式,这可能是实现有望“推理”和“规划”的程序的重要阶段。

此外:Meta发布“无缝”语音翻译器

即将到来的多方数据浪潮根植于机器学习科学家多年的研究,并普遍被称为“多视角”或数据融合。甚至有一本专门讨论该主题的学术期刊,由学术出版巨头Elsevier出版。

数据融合的深刻思想在于,世界上任何一个试图研究的事物都有多个方面同时存在。例如,一个网页既有肉眼可见的文本,还有链接到该页面的锚文本,甚至第三方,即作为页面结构的底层HTML和CSS代码。

一个人的图片既可以有人名标签,也可以有图像的像素。一个视频有一个视频帧,还有随之的音频片段。

今天的AI程序将这些不同的数据视为有关世界的单独信息,它们之间几乎没有联系。即使神经网络处理多种数据类型,如文本和音频,它们所做的最多只是同时处理这些数据集,而没有明确将多种数据类型链接起来,以理解它们是同一对象的不同视角。

例如,Facebook、Instagram和WhatsApp的所有者Meta Properties于周二发布了其机器翻译领域的最新成果,一个在使用多种数据模态方面的绝妙表现。该程序名为SeamlessM4T,同时以语音数据和文本数据进行训练,可以为任何任务生成文本和音频。

但SeamlessM4T并没有将每一个信号单元视为同一对象的一个方面。

此外:Meta的AI图像生成器称语言可能是你所需要的

这种断裂的事物观正在开始改变。纽约大学助理教授和教职研究员Ravid Shwartz-Ziv以及Meta的首席AI科学家Yann LeCun最近发表的一篇论文中,讨论了使用多视角来丰富深度学习神经网络的目标,通过多个视角来代表多个维度的对象。

映射中的苹果

在今天的深度神经网络中,对象被分解成不相关的信号。即将到来的多模态浪潮结合了图像、声音、文本、点云、图网络等多种信号,可能开始构建更丰富的事物结构模型。

在这篇高度技术性且相当理论性的论文中,由Shwartz-Ziv和LeCun在4月份发表在arXiv预印网站上,他们写道:“深度学习在各种应用领域的成功引发了对深度多视图方法的日益关注,这种方法显示出了有希望的结果。”

多视图正朝着一个命运的时刻迈进,随着诸如SeamlessM4T之类的越来越大的神经网络涉及到越来越多的模态,即被称为“多模态”的人工智能。

此外:2023年最佳AI聊天机器人:ChatGPT和其他替代品

所谓生成AI(如ChatGPT和Stable Diffusion等程序)的未来将把多种模态结合到一个单独的程序中,其中不仅包括文本、图像和视频,还包括点云、知识图谱,甚至是生物信息学数据等对某个场景或对象的多个视图。

许多不同的模态可能提供成千上万个关于事物的“视图”,这些视图可能包含互通信息,这可能是一种非常丰富的理解世界的方法。但这也带来了挑战。

深度神经网络中多视图的关键在于一个被Shwartz-Ziv和其他人所假设的概念,被称为“信息瓶颈”。随着模态数量的增加,信息瓶颈变得棘手起来。

通过瓶子看苹果

信息瓶颈是机器学习中的一个关键概念。据说在深度网络的隐藏层中,网络的输入被减少到对输出输入的重建最为重要的元素,这是一种压缩和解压缩的形式。

在信息瓶颈中,多个输入被组合成一个“表示”,该表示提取出这些输入作为同一对象的不同视图所共享的显著细节。在第二阶段中,该表示被精简为一个仅包含预测与该对象相对应所必需的输入要素的压缩形式。这个收集互通信息并剥离或压缩除了基本要素之外的过程,就是信息的瓶颈。

对于大型多模态网络中的多视图而言,挑战在于如何知道来自所有不同视图的信息对于巨大的神经网络执行所有这些不同模态的任务来说是必不可少的。

此外:您可以使用拖放工具构建自己的AI聊天机器人

举个简单例子,一个执行基于文本的任务(如ChatGPT)生成文本句子的神经网络,在必须同时生成图像的情况下,如果与后者任务相关的细节在压缩阶段中被丢弃,网络可能会出现问题。

正如Shwartz-Ziv和LeCun所写的:“将信息分离为相关和不相关的组成部分变得非常具有挑战性,往往导致次优性能。”

学者们表示,这个问题尚无明确答案。它需要进一步的研究,尤其需要重新定义多视图,使其不仅包含两个不同的对象视图,而可能包含许多视图。

他们写道:“为了确保这一目标的最优性,我们必须将多视图假设扩展到多于两个视图。”他们补充说,传统的多视图方法假设“所有不同的视图和任务之间共享相关信息,这可能过于限制性。”可能是在某些情况下,视图只共享部分信息。

此外:这就是生成AI如何改善零工经济

他们总结道:“因此,定义和分析这个朴素解决方案的更精细版本是至关重要的。”

毫无疑问,多模态的崛起将推动多视图科学提出新的解决方案。多模态的爆发将引发AI领域的新的理论突破。