“安卓”大模型：数据为“胜负手”【方正AI互联网团队】

1⃣大模型的“安卓时刻”到来，训练数据质量或是后续竞争关键

?Meta大模型LLaMA开源且持续改进，为行业带来变数。我们认为可以参考安卓与iOS的关系，预判开源大模型与OpenAI的GPT模型的关系，当前国内外科技公司都在紧锣密鼓的布局大模型的开发，“安卓时代”来临后，竞争或持续激烈化，格局或将生变。

?而从ChatGPT等模型的经验来看，数据具有重要意义。出于模型准确度和专业性的需求，学术期刊、书籍、代码等资料类型在训练数据中有独特价值。

2⃣特别应当关注代码和权威资料作为高质量训练数据的价值

?代码：从GitHub、GitLab、Gitee为代表的代码库平台可以获取较为丰富的代码资源，相对门槛较低；或是企业自身积累的代码资源。

?权威资料：关注具有较高权威性的资源，如知乎具有较为丰富的语料，学术期刊、科学书籍的公开可得性更低，因此也具备更强的稀缺性。

✿投资建议：建议关注文本数据资料相关投资机会。

?高质量数据相关公司：中国科传（高质量科学数据，参股万方）、中文在线、同时关注垂直细分领域数据每日互动（手机APP使用数据，有助于训练语音助手）

?大模型开发公司：昆仑万维（昆仑天工）、三六零、百度集团（“文心一言”）、腾讯控股（混元大模型）、阿里巴巴（通义大模型）。

风险提示：1）开源大模型开发不及预期；2）AI大模型应用不及预期；3）数据使用政策发生变化。

作者:乌龟流 | 分类:调研纪要 | 浏览:187 | 评论:0

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

乌龟流