“安卓”大模型:数据为“胜负手”【方正AI互联网团队】
事件
4月19日,Reddit宣布,将向使用其API训练AI聊天机器人的公司收取数据使用费,其中便包含微软、谷歌、OpenAI等。
我们再次强调:特别应当关注代码和权威资料作为高质量训练数据的价值
?代码:从GitHub、GitLab、Gitee为代表的代码库平台可以获取较为丰富的代码资源,相对门槛较低;或是企业自身积累的代码资源。
?权威资料:关注具有较高权威性的资源,如知乎具有较为丰富的语料,学术期刊、科学书籍的公开可得性更低,因此也具备更强的稀缺性。
✿投资建议:建议关注文本数据资料相关投资机会。
?高质量数据相关公司:中国科传(高质量科学数据,参股万方)、中文在线、同时关注垂直细分领域数据每日互动(手机APP使用数据,有助于训练语音助手)、中信出版、中国出版
风险提示:1)开源大模型开发不及预期;2)AI大模型应用不及预期;3)数据使用政策发生变化。