核心观点
事件:4月18日,美国知名论坛社交平台Reddit宣布,计划向通过其API使用数据的公司收费。目前,谷歌、OpenAI和微软等公司正使用Reddit平台上的用户对话语料训练AI大语言模型,包括OpenAI的ChatGPT和谷歌的Bard模型均有使用。Reddit表示,API访问收费的细节仍在敲定,价格预计在未来几周内公布。
海外已初步探索实践数据收费商业模式。早在2021年,美国图像素材公司Shutterstock已将其图像数据出售给OpenAI,用于训练文生图AI模型DALL-E,图片收入将和创作者分成。根据WIRED,今年3月,推特也计划对通过API获取推文数据进行收费,5000万/1亿/2亿条推文的API访问定价分别为42,000/125,000/210,000美元/月。
我们认为,Reddit对其聊天数据进行收费是行业发展趋势,将对上游数据资源方以及AI大模型厂商带来深远影响。(1)有望推动数据资产价值重估,提升优质数据资源方的商业价值潜力。高质量数据的需求在AI大模型的催化下大幅提升,为掌握优质数据资产的公司提供良好的商业变现基础。海外已形成具体数据收费方案,对国内公司的商业模式探索极具参考价值,有望推动国内数据价值变现的加速落地。我们认为,数据资源的稀缺性和独特性将构成衡量数据质量和重要指标,数据资产价值将有所分化。(2)AI大模型训练成本进一步提升,竞争趋于头部集中。对大模型厂商而言,数据收费导致本已高昂的大模型训练成本进一步增加,但同时也进一步提高行业进入门槛,大模型的竞争将集中于具备资金、人才、技术和资源优势的头部公司。(3)自带优质数据资源的大模型厂商优势凸显。在数据使用需求和使用成本共同提升的趋势下,自身已有优质数据储备的大模型厂商将更具优势,独特业务场景数据(如百度-搜索,阿里-电商,腾讯-社交等)结合自研大模型将构筑竞争壁垒。
投资建议:数据收费未来发展趋势明确,AI和数据要素有望共振。(1)关注兼具自有优质数据和大模型自研+输出能力的头部大厂百度、阿里(零售组覆盖)、腾讯控股等,以及UGC内容储备丰富的平台知乎+微博(图文)、快手(短视频)、哔哩哔哩(中视频)、芒果超媒+爱奇艺(长视频)等。(2)关注优质数据资产公司(文学/论文语料数据:中文在线、果麦文化、掌阅科技、阅文集团、平治信息、中原传媒、中国科传等;影视综艺IP版权:华策影视、光线传媒、新媒股份等;图片数据:视觉中国等;广告案例数据库:三人行、蓝色光标等;以及游戏内容积累丰富的厂商)。(3)关注数据要素产业链核心标的(浙数文化、每日互动、人民网、新华网、三人行等)。
风险提示。技术迭代不及预期、产品商业化不及预期、行业竞争加剧、监管收紧等风险。
广发传媒互联网-----全面覆盖传媒互联网行业各领域,具备完整成熟的研究框架,开展扎实的基本面与产业跟踪、独具特色的前瞻性研究。2018-2022年连续五年获新财富最佳分析师第一名、2017-2022年连续六年获卖方分析师水晶球奖第一名、2019-2022年上证报最佳分析师第一名、2020-2022年新浪金麒麟最佳分析师第一名、2019年获机构投资者-财新中国大陆地区最佳传媒分析师第一名。