系统筹划破解大模型发展瓶颈
当前,人工智能技术的创新迭代为数字经济发展带来更加强大的驱动引擎,相关产业已经成为国家现代化治理的重点领域。如何推动人工智能大模型不断与各领域交叉融合,逐步成为产业创新的关键抓手和驱动新质生产力的关键引擎,值得探讨。
众所周知,ChatGPT、Sora等生成式人工智能产品刷新了人们对人工智能技术创新的认知水平。近乎人类的表达方式、真假难辨的文生视频等功能颠覆了过去人们对于人工智能尚处于探索初期的观念。这些产品反映了当下人工智能产业的一个基本趋势,即以大模型为基础,实现人工智能技术的产业化落地应用。
通俗一点说,大模型是指体量庞大、运行技术参数众多、具备强大计算能力的机器学习模型,使得人工智能产品能够获得类似人类思考的能力。大模型之所以能够成为人工智能产业发展的主要技术趋势,是因为能够带来更强大的智能化水平。在过去,人工智能客服虽以“人工智能”冠名,但能完成的工作任务不过是根据用户输入的关键词触发相应的对话机制。时至今日,以大模型为基础的人工智能产品能够对用户输入指令分析和识别,进而提供针对性、个性化的回复内容。
人工智能产业也面临着相同的技术创新困境。比如,基于大模型的人工智能产品需要海量的训练数据用以支撑算法模型的持续迭代和优化。这种训练数据的需求量不仅表现为千亿级别的数据资源,还表现为训练数据应当囊括各个行业、各个领域,且数据所反映的信息内容本身具有完整性、准确性等特征。但是,这种训练数据需求的满足并不能简单通过抓取网络公开数据,它可能涉及对个人信息权益或者其他企业数据财产权益造成侵害。
又如,海量的训练数据需求意味着需要计算机具备高效准确处理这些数据的计算能力。这种计算能力与芯片等硬件设备密切相关,人工智能产业所需要的算力芯片不是指个人电脑中的CPU芯片,而是更适合该产业的GPU芯片。然而,算力资源的扩张和发展并不是仅仅通过频繁建设算力基础设施即可实现,因为同频率计算会对电力资源造成巨大消耗,进而导致现阶段可用算力资源较为紧张。
为解决这些发展瓶颈,有关部门先后颁布了多项地方性人工智能产业发展保障政策文件。不过,当前更需要在国家层面明确更为体系化、系统性的产业发展指引,促使人工智能大模型更好地服务千行百业。
在训练数据供给方面,应当探索适用于人工智能领域的公共数据训练平台,加快探索和真正落地公共数据开放利用机制。将人工智能产业训练数据需求的解决与数据要素市场化配置基础制度建设协同进行,在理清理顺数据权益归属的基础上,进一步释放数据要素对人工智能技术创新的加持效果。
在算力资源供给方面,可在全国范围内统筹规划和整体布局关键算力基础设施的选址和建设,避免出现无序建设算力基础设施导致全国算力资源发展不平衡。同时,算力互联互通也是现阶段解决算力资源紧张的重要政策工具,通过整合公共算力、私人算力并进行统一调度,提供能够同时满足一般算力、智算算力和超算算力等差异化的产业需求。
在算法模型创新方面,应当重点推动基础算法模型的自主研发。引导和支持相关科研人员深入开展大模型技术的实质创新。探索产学研协同创新研发机制,充分保护人工智能算法研发成果相关的知识产权。有规划性地布局人工智能算法研究的后备人才储备,引导和鼓励科研人员深入开展算法相关的基础技术研究。