开放传神(OpenCSG) 张家庆:打造开源大模型的核心竞争力

  • 1.1. 开源开放驱动大模型生态繁荣

2023年9月15日,由上海市徐汇区科学技术委员会、上海西岸集团、中国信通院华东分院共同承办,以“开源开放驱动大模型生态繁荣“为主题的研讨会在上海徐汇西岸AI Tower举办,开放传神(OpenCSG)的联合创始人兼CMO张家庆受邀就 如何打造基于开源大模的核心竞争力 发表主题演讲。

  • 轻量级大模型陆续开源、开源生态日趋繁荣

据相关研究机构预测,2023年AIGC产业规模约为143亿元,而到2030年产业规模有望突破万亿元,面对市场规模的爆发式增长,市场上主流的厂商都纷争建设自己的大模型。但如何打造高质量、有核心竞争力的大模型是每一个企业面临的挑战。

据相关研究机构调查显示市场上通过开源构建自己的大模型比例也成指数增长。以“轻量级模型陆续开源,千亿级模型暂以闭源路径开展”的状态,Meta发布的Llama为开源大模型提供了模型基座。开源大模型正在成为主流现象,呈现出百花齐放的状态。开放传神(OpenCSG)的联合创始人兼CMO张家庆先就 “开源大模型的核心要素”、“开源大模型的核心竞争力打造”和“开源模型在商业化方向上有哪些机会、局限、挑战”等方面进行阐述和演讲。

  • 开源大模型的核心要素

Dataset(数据)的质量和丰富度

一个好的模型离不开优质的数据集,因此在开源大模型中,Dataset的质量和丰富度是非常重要的。对于开源团队来说,他们可以选择利用公共数据集或者自行采集整理数据,并将其与模型一同开源。同时,还应该注重数据的标注质量、多样性,还有合规性。

Model(模型)的创新性和效果

在开源大模型中,Model的创新性和效果也是非常关键的。团队需要持续地进行创新,增加模型的新颖性和实用性,并注重对模型的效果进行不断改进,在算法和算子方面有更多积累才能逐渐打造技术优势和壁垒。

Code(代码)的易用性和可扩展性

优质的代码(软件工程)的可以让大模型更加易用和可扩展,使其更受开发者欢迎。为此,在开源大模型中以及它的应用层开发的时候,需要更加注重代码的规范性和易读性,提供清晰的API文档和示例代码使得大模型时代的软件工程变更可以从量变到质变,从而在未来可以实现Software Refine,大幅提高软件工程的开放效率和高质量交付。

算力(Computing)的优化和分配策略

算力是支撑模型训练和推理的核心资源,因此在开源大模型的商业化生态中,需要注重有限的算力的优化和分配策略。为了让更多的人能够使用大模型能力,团队可以尝试将模型部署到云端(包括混合云),以便更好地进行服务器配置和管理,使得整体的使用成本可以做到普惠化和平民化。

  • 打造开源大模型的核心竞争力

数据预处理 将原始数据转化为模型所需的输入格式,通常需要进行文本清洗、分词、编码等操作。

模型架构 选择适合任务的模型结构,如Transformer、CNN、RNN等,自行搭建或基于现有模型进行修改和优化。

模型训练 利用GPU等硬件资源对模型进行训练,计算损失函数并执行反向传播,并使用各种技巧(如正则化、dropout等)降低过拟合风险。

Fine-tuning 在特定任务上进一步微调模型,通过使用更多数据或改进数据增强技术来提高模型性能。

部署和应用: 将训练好的模型封装成API或服务,使其可以轻松地被其他应用程序调用。

大模型的开源生态目前正在蓬勃发展中,层出不穷的开源大模型通过不断地更新迭代在迅速追赶闭源模型的规格和能力。北京开放传神科技有限公司(OPENCSG)是一家致力于在全球范围内创建一个伟大的开源开放的公司,让大模型驱动全民,从而推动技术加速创新的公司。开放传神的愿景:“让每个行业,每个公司,每个人都拥有自己的大模型”。 公司英文名字 OPENCSG 中的 ‘OPEN’ 代表 ‘开源开放,人人贡献’, ‘C’ 代表 ‘CONVERGED’,意思是整合和充分利用好混合资源。‘S’ 代表 ‘SOFTWARE REFINED’,也就是软件被大模型重塑。‘G’ 代表 ‘GENERATIVE’,是大众化和民主化的生成式大模型。