“安卓”大模型:数据为“胜负手”【方正AI互联网团队】
1⃣大模型的“安卓时刻”到来,训练数据质量或是后续竞争关键
?Meta大模型LLaMA开源且持续改进,为行业带来变数。我们认为可以参考安卓与iOS的关系,预判开源大模型与OpenAI的GPT模型的关系,当前国内外科技公司都在紧锣密鼓的布局大模型的开发,“安卓时代”来临后,竞争或持续激烈化,格局或将生变。
?而从ChatGPT等模型的经验来看,数据具有重要意义。出于模型准确度和专业性的需求,学术期刊、书籍、代码等资料类型在训练数据中有独特价值。
2⃣特别应当关注代码和权威资料作为高质量训练数据的价值
?代码:从GitHub、GitLab、Gitee为代表的代码库平台可以获取较为丰富的代码资源,相对门槛较低;或是企业自身积累的代码资源。
?权威资料:关注具有较高权威性的资源,如知乎具有较为丰富的语料,学术期刊、科学书籍的公开可得性更低,因此也具备更强的稀缺性。
✿投资建议:建议关注文本数据资料相关投资机会。
?高质量数据相关公司:中国科传(高质量科学数据,参股万方)、中文在线、同时关注垂直细分领域数据每日互动(手机APP使用数据,有助于训练语音助手)
?大模型开发公司:昆仑万维(昆仑天工)、三六零、百度集团(“文心一言”)、腾讯控股(混元大模型)、阿里巴巴(通义大模型)。
风险提示:1)开源大模型开发不及预期;2)AI大模型应用不及预期;3)数据使用政策发生变化。