新的研究计划旨在为东南亚建设大型语言 AI 模型

东南亚将建设大型的语言AI模型,实现全新的研究计划

东南亚地球仪

正在进行一项新的研究计划,以建立一个更好地适应东南亚国家人口结构的大型语言模型(LLM)。

这个名为国家多模式LLM计划的举措由新加坡领导,旨在开发一种支持该地区多元文化和语言的人工智能大型语言模型。

此外:生成型人工智能的伦理:我们如何利用这一强大的技术

新加坡信息通信媒体发展管理局(IMDA)、新加坡人工智能(AISG)和新加坡科学、技术与研究局(A*STAR)这三个政府机构合作启动了这项研究计划,国家研究基金提供了7000万新加坡元(5248万美元)的资金支持。

这些机构在一份联合声明中表示:“随着技术的快速发展,发展LLMs的主权能力已成为战略需要。新加坡和该地区的本地和区域文化、价值观和规范与大多数大型语言模型源自西方国家的情况不同。”

他们强调,为东南亚,包括新加坡,发展多模式和本地化的LLMs非常重要,这些LLMs可以理解与该地区多元文化和语言相关的上下文和价值观。这些多样性可以包括新加坡多语种人口之间的语言切换。

此外:一个棘手的问题:AI生成的代码、图片和故事归谁所有?

这项研究计划将利用新加坡国家超级计算中心(https://www.kjcj.cn/lenovo-slim-pro-9i-14-a-bright-spot-among-competitors.html)的高性能计算资源,并着眼于发展该国在多模式LLMs方面的研究和工程能力。

IMDA的企业技术集团助理首席执行官王振辉(Ong Chen Hui)表示:“这项国家努力表明新加坡致力于成为全球人工智能枢纽。语言是协作的重要工具。通过投资人才和投资区域语言的大型语言AI模型,我们希望促进跨国界的产业合作,并推动东南亚的下一波人工智能创新。”

该计划将在AISG的东南亚一体化语言(https://www.kjcj.cn/lenovo-slim-pro-9i-14-a-bright-spot-among-competitors.html)项目的基础上展开,该项目是一个开源的LLM,据该政府机构称,与市场上的LLMs相比,该项目设计得更小、更灵活、更快速。SEA-LION目前运行两个基本模型:一个30亿参数模型和一个70亿参数模型。

AISG对开源模型的重要性进行了详细说明,称:“现有的LLMs在文化价值观、政治信仰和社会态度方面显示出较大的偏见。这是由于训练数据,特别是从互联网上获取的数据,在其来自WEIRD国家的起源上往往具有不成比例的大量。WEIRD指的是西方、受教育、工业化、富裕、民主社会。非WEIRD来源的人不太可能有读写能力、使用互联网或使其输出容易被访问。”

此外:7个高级ChatGPT提示撰写技巧你需要了解

SEA-LION旨在建立更好地代表“非WEIRD”人口的LLMs。它的训练数据包括9810亿语言令牌,AISG将其定义为在标记化过程中从文本中拆分出来的单词片段。这些片段包括6230亿英语令牌、1280亿东南亚令牌和910亿中文令牌。

建立本地化LLMs的努力是新加坡最新AI战略的一部分,该战略旨在到2030年将新加坡打造成全球AI解决方案发展中心。这些努力包括计划在未来三到五年内将该国的AI专业人员数量增加到15,000人,并提供一个支持治理测试和基准测试以及AI伦理和安全准则的生态系统。

新加坡副总理黄循财在国家AI战略发布会上表示,鉴于AI领域的最新发展,世界正走向未知的领域。他说:“到目前为止,AI主要是关于模式识别。但是在未来,我们将拥有具有机构和交易能力的AI系统。我们将拥有具有类似人类认知能力、自我意识和独立决策能力的机器。”

黄循财表示,由于AI具有改变人类生活和影响社会的潜力,应更加谨慎地引导AI的负责任发展和采用