从文本生成模型ChatGPT到文生视频模型Sora,人工智能大模型的发展日新月异,行业门槛也不断提高。笔者认为,在瞬息万变的产业发展进程中,为了在全球AI竞争中占据优势,国内大模型的技术攻克变得迫在眉睫。
第一,保证训练数据的质量和多样性。一直以来,大模型的训练依赖大量数据,包括文本、语音、图像、视频等,也需要从公开数据集、合作伙伴和用户互动中收集信息。高质量的训练数据是大模型成功的关键之一,中国工程院院士高文指出,全球通用的50亿大模型数据训练集里,中文语料的占比仅为1.3%。解决中文数据不足和质量问题,以及如何获取和处理多样化数据,成为行业面临的一大挑战。在此背景下,国内大模型公司可以积极寻求与各大中文内容平台的合作,建立中文数据共享机制,以丰富中文语料库。同时,应注重数据的清洗和标注工作,确保训练数据的准确性和有效性。
第二,提升算力、显卡、芯片等核心竞争力。随着大模型的规模和复杂度不断提升,对算力的需求也急剧攀升。缓解算力需求方面,国家发改委明确将数据中心和智能计算中心纳入新型基础设施建设的范围,以加速算力供给基建化。头部企业和研究机构也须在开发更高效的计算架构等方面加大投入。在显卡和芯片研发领域,目前更多聚焦在头部企业之间,这也是一条需要克服诸多阻碍的艰难道路。对此,企业之间可以加强合作与交流,共同攻克技术难题。同时,也需要加大对国产芯片的投资力度,鼓励全国组建更多的产业集群,推动相关产业高质量发展。
第三,缓解AI大模型人才缺口。据《2023人工智能人才洞察报告》预测,到2030年,全国AI人才的需求将达到600万人,而人才缺口却达到400万人,AI应用型人才培养已经迫在眉睫。为了弥补这一缺口,建议高新科技企业与国内高校开展深度合作,共同制定人才培养计划,为更多高校年轻人提供市场一线学习机会,吸引更多年轻人投身AI领域。此外,政府可以面向社会大众,增加免费的AI基础技能培训机会,推动AI相关知识在各个领域的普及。
第四,寻找合适的商业化落地场景。目前,Sora等文生视频模型的技术革新,正在加速AI同广告、影视、游戏、短视频等领域的融合。中国是全球最大的AIGC内容消费市场之一,还有大量商业潜力等待挖掘。为充分挖掘商业潜力,大模型公司可以积极寻求与各行业的合作机会,熟悉不同业态的AI需求,共同探索技术优化和商业合作模式,推动AI技术在各个领域的广泛应用,为行业发展创造更多机遇。
人工智能时代已经到来,庞大的市场也意味着更多的机遇,随着越来越多的资本入局,以及市场各方积极协作,我国大模型行业高质量发展未来可期。