开源 vs. 闭源:释放人工智能之战

研究人员发现,Llama 2 在医学考试中仅比随机猜测稍微好一点,而 GPT-4 则几乎达到及格分数

开源生成型AI模型仍落后于GPT-4

图片来源: MixImages – tech

在生成型人工智能(AI)领域,开源与闭源模型之间的长期竞争是最热门的争论之一。两种方法都有支持者和批评者,但哪种方法最有希望提供有价值的AI解决方案呢?让我们来探索充满刺激和激烈竞争的AI世界,看看结果如何!

泰坦之争:开源与闭源语言模型

在开源阵营中,有许多大型语言模型(LLMs)不断被充满活力的社区贡献者创造出来。这个阵营的领头羊是令人印象深刻的Llama 2,它是一个开源模型,引起了广泛关注。

代表闭源阵营的,则是强大的竞争对手:OpenAI的GPT-4和由风险投资支持的创业公司Anthropic的语言模型,称为Claude 2。

🔗 相关链接:Walmart 在 CES 展示了生成型AI技术

胜利的关键:在特定领域的性能

为了确定哪种方法更为卓越,让我们对它们在特定领域的性能进行详细研究。以肾脏科学为例,这个复杂的领域是肾脏的科学研究。最近,由佩珀代因大学、加州大学洛杉矶分校和加州大学河滨分校的科学家们共同进行的一项研究(发表在NEJM AI上)显示,开源模型在这个领域中犯了错误,而GPT-4展示出了自己的能力。

🔗 相关链接:企业需要AI治理

该研究的主要作者Sean Wu及其同事们写道:“与GPT-4和Claude 2相比,开源模型在总体正确答案的数量和解释质量方面表现不佳。”

🔗 相关链接:最佳AI聊天机器人

GPT-4真正脱颖而出,在多项选择肾脏科学问题的人类及格分数接近的情况下,取得了73.3%的得分。

战斗结果:开源模型难以跟上

不幸的是,包括Llama 2在内的开源模型在提供准确答案时遇到了困难。它们的得分与随机猜测无异。然而,Llama 2在开源领域的对手中稍微表现出色,得分达到30.6%。

🔗 相关链接:使用AI的五种负责任的方式

根本因素:专有医疗数据占据中心舞台

许多原因导致开源模型表现不佳。特别是,Anthropic和OpenAI已经将专有医疗数据整合到它们的训练过程中,这给它们带来了明显的优势。

🔗 相关链接:MedPerf 旨在提高医疗AI速度,同时保护数据隐私

主要作者Sean Wu及其团队指出:“在医学领域为LLMs提供高质量的训练数据通常存在非公开资料中。”这些数据包括像教科书和文章这样经过精心筛选和同行评审的来源,对开源社区来说是无法获得的。将来获得这样独家的医疗训练数据将可能成为决定开源模型改进的重要因素。

🔗 相关链接:更新:Google Pixel 手机

仍有改进空间:还有很长的路要走

尽管GPT-4的表现值得称赞,但重要的是要记住,它甚至没有达到人类及格的水平。所有的语言模型,无论其开放性如何,都还有很长的路要走。但不要担心,有一些即将到来的倡议可能会弥合这个差距。

联邦训练:更智能的未来

一个蓬勃发展的革命性努力是联邦训练,在此过程中,语言模型在私人数据上进行训练,然后将它们的知识贡献给公共云中的一个综合努力。这种方法旨在弥合机密医疗数据和加强开源模型的集体推动之间的差距。在这一领域,一个值得注意的努力是由ML Commons行业联盟发起的MedPerf项目。

🔗 相关链接:苹果在人工智能领域的巨大努力

释放协作的力量

另一个有前景的途径是将商业模型提炼为开源程序。这些开源程序通过继承其父模型的特定医疗能力,可以提供增强的输出。MedPaLM是Google DeepMind的LLM,专门回答医疗问题的一个显著例子。

🔗 相关链接:Udemy上的AI图像课程

当世界碰撞:增强输出以获得最大影响力

即使没有经过专门的医学培训,语言模型也可以通过“检索增强生成”实现改进的结果。这种方法使LLM能够在形成输出时寻求外部输入,从而放大神经网络的能力。

开放优势:协作创造力

最终,像Llama 2这样的开源模型的开放性为各种利益相关者提供了无限的机会来贡献和改进。与GPT-4和Claude 2等闭源模型不同,开源模型的命运仍然是真正民主的。

准备好迎接AI的王者之战吧,创新、创造力和协作将铺平道路,打造卓越的语言模型!

🎉 让我们继续讨论吧!在下方评论中分享你对开源与闭源辩论的看法。不要忘记通过社交媒体分享本文章,传播这个信息! 📢

参考资料:

  1. Walmart在CES展示生成型AI
  2. 企业对人工智能治理的需求
  3. 最佳人工智能聊天机器人
  4. 使用人工智能的五种负责任方式
  5. MedPerf加速医学AI发展同时保护数据隐私
  6. 更新:谷歌Pixel手机
  7. 苹果在人工智能领域的巨大努力
  8. Udemy上的AI图像课程