[TOC]

1. AI发展缓慢原因

第一,AI研发的人力成本太高,且大量依赖算力研究者。人工智能是知识密集型产业,聘用算法研究人员和算法工程师的成本通常在 5 万~ 8 万元/月,在AI产业中的企业,人力资源的支出占比非常高; 第二,训练数据的成本太高。在传统AI项目里,60 %-80 %的时间和成本花在了数据上。通常,在算法研发项目中,购买数据所需的成本大约占整个项目的 60 %,而 80 %的时间被数据准备相关的工作占据,如采集,清洗和标注等。因为在不同的场景下,数据标注的标准并不一致,因此即使是同样的数据标注任务,也需要针对新的场景标注新的数据集; 第三,AI训练需要的算力资源成本颇高。如果从零开始训练一个模型,计算资源的消耗将会非常高,特别是大于 100 亿参数规模的模型,训练所需算力的成本会超过 100 万人民币。

2. AI开发范式

  1. 基础大模型+指令提示(prompt)

近年大模型的迅速发展带来了第三种 AI 开发范式。由实力强劲的 AI 头部企业将巨量数据(数以千亿级、万亿级的文字 token,或者上亿级的图片、文章或者图文对),通过数百到上千张 GPU 加速卡来训练百亿以上参数规模的大模型。该大模型诞生之后,不需针对各种应用场景分别进行微调训练,只需应用企业通过带提示的指令进行 API 调用即可。

3. AI由理解到生成的挑战

3.1超大参数量

当 AI 面临产业落地问题,就需要考虑,多大参数量的基础模型才能够满足应用需求。Google 去年有文章分析语言基础大模型,在 Few-shot 情况下,训练计算量基本都在 1022 FLOPs 以上,才能出现对不同任务的涌现能力,这至少对应着百亿参数以上的模型规模。不同难度的任务,其涌现能力出现的模型规模拐点不尽相同。对于其它视觉、跨模态基础大模型,还有待总结。

3.2超大的训练数据量

到底要多大的训练数据才足够?Meta AI 最新公布了模型 LLaMA,它是以 1 万亿 token 的数据量训练 130 亿参数的模型,超过了使用 4000 亿 token 训练的 1750 亿参数的 GPT-3。过往实验也呈现过类似的情况,通过使用更多数据、把大模型的参数量控制在一定范围,将更加适合产业的广泛落地。

3.3大模型的评测

当模型越来越巨大时,下游行业企业已经不再自己训练模型,而是选择基础大模型,大模型的评测变得尤其重要。那么产业该如何对一个训练好的大模型进行评测?以当前的语言大模型为例,可以从三个层级的能力——理解能力、生成能力、认知能力入手。现有的语言模型评测体系,包括之前的 GLUE 和最新的 HELM 等,都以评测理解能力居多;对于模型的生成能力,目前大量依赖人的主观评测;对于认知能力,由于边界难以确定,更加缺乏统一的评测方法。因此当模型的模态从单一走向多样,对评测提出了新的挑战。

3.4持续学习和定点纠错

当模型庞大,如何让其拥有持续学习以及定点纠错的能力?如果你在训练数据中存在了一个错误的知识点,该怎样从庞大的已经训练好的模型里把错误修正? 还有如何提升训练效率和推理效率等问题,以上都是未来十年产业落地中很重要的挑战。

3.5生成式人工智能面临的挑战

生成式人工智能的应用范围非常广泛,但它也面临着一些挑战: 数据不足:生成式人工智能需要大量的数据才能学习到数据的模式和规律,但在某些领域中,如医疗、金融等,数据的获取和共享可能受到限制,因此可能会面临数据不足的问题。 模型不稳定:生成式人工智能模型通常比传统的分类或回归模型更加复杂,因此可能会面临模型不稳定的问题,即同样的输入数据可能会生成不同的输出数据。 难以控制生成结果:生成式人工智能生成的数据通常是自动生成的,因此难以对其进行控制,无法保证生成结果的准确性和可靠性。 生成结果可能不符合伦理和道德标准:生成式人工智能可能生成具有敏感性和争议性的内容,如虚假新闻、歧视性评论等,这可能会对社会和公众产生负面影响。 难以评估和验证:生成式人工智能生成的数据通常没有明确的标准和指标来评估其质量和准确性,因此难以进行验证和评估。 针对这些挑战,研究人员正在开发新的方法和技术来解决这些问题,如使用更加稳定的模型结构、引入更多的约束和先验知识来控制生成结果等。同时,加强伦理和道德标准的监管和规范也是必要的。