你的iPhone很快就能够运行人工智能任务了吗?联发科说是的

联发科表示iPhone即将支持人工智能任务

生成式人工智能是当前最热门的增长技术之一,OpenAI的ChatGPT和Google的Bard用于聊天,而稳定扩散和DALL-E等图像生成系统也采用了该技术。然而,这些工具需要使用云数据中心的数百个GPU来执行每个查询所需的计算过程,因此存在一定的限制。

但有一天,您可以直接在移动设备上运行生成式人工智能任务。或者您的连接车上。或者在您的客厅、卧室和厨房中的智能扬声器上,例如Amazon Echo、Google Home或Apple HomePod。

此外:即使在飞行模式下,您的下一部手机也可以运行生成式人工智能工具

联发科技相信这个未来比我们想象的更近。这家总部位于台湾的半导体公司今天宣布,正在与Meta合作,将该社交巨头的Lllama 2 LLM与该公司最新一代APU和NeuroPilot软件开发平台结合起来,在设备上运行生成式人工智能任务而无需依赖外部处理。

当然,这并不意味着完全消除了数据中心。由于LLM数据集的大小(包含的参数数量)和所需的存储系统性能,您仍然需要一个数据中心,尽管规模要小得多。

例如,Llama 2的“小”数据集包含70亿个参数,约为13GB,非常适合一些基本的生成式人工智能功能。然而,一个更大的版本,包含720亿个参数,需要更多的存储空间,即使使用先进的数据压缩技术,也超出了今天智能手机的实际能力范围。在未来几年中,正在开发中的LLM的规模将轻松达到Llama 2或GPT-4的10到100倍,并且存储要求将达到数百GB甚至更高。

这对于智能手机来说很难存储,并且无法提供足够的IOPS来实现数据库性能,但对于具有快速闪存存储和TB级RAM的专门设计的缓存设备来说却不是问题。因此,对于Llama 2来说,今天已经可以在一个机架单元中托管一个为为移动设备提供优化服务的设备,而无需进行繁重的计算。它不是一部手机,但仍然相当令人印象深刻!

此外:2023年最佳的AI聊天机器人:ChatGPT和其他选择

联发科技预计基于Llama 2的AI应用程序将于年底前推出搭载其下一代旗舰SoC的智能手机上。

要使设备上的生成式人工智能能够访问这些数据集,移动运营商需要依赖低延迟的边缘网络,即与5G基站快速连接的小型数据中心/设备间隔。这些数据中心将直接位于运营商的网络上,因此在智能手机上运行的LLMs在访问参数数据之前不需要经过多次网络“跳转”。

除了使用联发科技等专用处理器在设备上运行AI工作负载外,领域特定的LLMs可以通过与这些缓存设备在微型数据中心内混合运行的方式,将其移动到应用工作负载更近的位置,即“受限设备边缘”场景。

此外:这是我最喜欢的5个AI工具

那么,在设备上使用生成式人工智能有哪些好处呢?

  • 降低延迟:因为数据在设备上进行处理,所以响应时间大大缩短,特别是如果经常访问的参数数据集使用本地缓存方法。
  • 提高数据隐私:通过将数据保留在设备上,用户的数据(例如聊天对话或用户提交的训练)不会通过数据中心传输;只有模型数据被传输。
  • 提高带宽效率:今天,生成式人工智能任务需要将所有用户对话数据来回传输到数据中心。而使用本地处理,其中大量的数据在设备上进行处理。
  • 提高操作可靠性:通过设备上的生成,即使网络中断,系统也可以继续运行,特别是如果设备具有足够大的参数缓存。
  • 能源效率:不需要数据中心的大量计算资源,也不需要将数据从设备传输到数据中心的大量能源。

然而,实现这些好处可能涉及将工作负载分拆和使用其他负载平衡技术来减轻集中式数据中心的计算成本和网络开销。

除了对快速连接的边缘数据中心的持续需求(尽管计算和能源要求大大降低),还有另一个问题:在今天的硬件上真正可以运行多强大的LLM?虽然不太担心设备上的数据在网络上被截获,但还存在着敏感数据在本地设备上受到侵入的安全风险,如果不正确管理的话,还存在着在大量分布式边缘缓存设备上更新模型数据和维护数据一致性的挑战。

另外:边缘到云端如何推动数字化转型的下一个阶段

最后,还有成本问题:谁将为所有这些小型边缘数据中心买单?边缘网络今天由边缘服务提供商(如Equinix)所采用,这是Netflix和苹果iTunes等服务所需的,传统上不是由AT&T、T-Mobile或Verizon等移动网络运营商所提供的。生成式AI服务提供商,如OpenAI/Microsoft、Google和Meta,需要制定类似的安排。

在设备上的生成式AI有很多考虑因素,但很明显科技公司正在思考这个问题。在五年内,你的设备上的智能助手可能会自己思考。准备好将AI放在口袋里了吗?它即将到来,而且比大多数人预期的要快得多。