①有第三方应用程序每月大约需要支付170万美元; ②Reddit拥有超过130000个活跃社区及5200万日活跃用户; ③AI通用大模型的训练数据集多来自互联网文本数据。
《科创板日报》6月2日讯(编辑 宋子乔) AI训练对数据的巨大需求让越来越多的公司意识到数据的价值,这一点直接体现在高昂的数据使用费上。
有“美版贴吧”之称的美国社交媒体公司Reddit此前宣布将对使用其应用程序编程接口(API)的第三方收费。据CNBC报道,有人发帖爆料,该公司将对每5000万次API请求收取1.2万美元的费用。该爆料者为第三方应用程序Apollo的创建者,他表示,“Apollo上个月提出了70亿个请求,这意味着每月大约需要支付170万美元,或者每年2000万美元。”
尽管Reddit的定价并不像推特那样高——据WIRED报道,推特提供了三种套餐,其中最便宜的为:每月支付4.2万美元可以访问5000万条推文。套餐等级越高,研究人员或企业获得的推文数量就越多:每月支付12.5万美元可以获得1亿条、每个月支付21万美元可以获得2亿条。
但1.2万美元/5000万次的收费标准依然远超同行。Apollo的开发者表示,其为来自图片分享网站Imgur的相同数量的API请求支付了仅约166美元,“我们对(该定价)深感失望。”
Reddit定下高收费标准的底气是什么?
成立18年的Reddit是一个新闻聚合网站和大型论坛,可以说是美国人最常逛的新闻社区,字节跳动曾试图将其收入囊中,OpenAI CEO Sam Altman在担任Y Combinator(一家知名的创业孵化器)总裁期间,也投资了Reddit并入职其董事会。
当前AI大模型的训练,数据端需要巨大数据量的大规模数据集投喂,通用大模型的训练数据集多来自互联网文本数据,例如ChatGPT训练数据集来自维基百科、互联网新闻、社交媒体、电子书等,也包括用户在推特和 Reddit 等网站上生成的帖子。
虽然Reddit的知名度不如Facebook、推特等,但其作为美国热度排名靠前的社交网站,与传统社交站点相比自有其独特优势,拥有超过130000个活跃社区。根据该公司2020年底的数据,其拥有超过15亿注册用户,4.3亿月度活跃用户,以及5200万日活跃用户。
每天,千万级别的用户涌入Reddit发帖、浏览、转发,这些内容包括但不限于政治、经济、体育、娱乐、生活、美食等等,构建了一个巨大的数据库。
另外,Reddit还拥有由业余和专业开发人员创建的应用程序、插件和服务组成的生态系统。这些开发者均是Reddit的潜在可收费对象。
如果说庞大的数据资产为Reddit提供了收费的可能性,其上市计划则提示了Reddit进行收费的必要性。
此前知情人士说,Reddit的目标是在今年晚些时候最终上市——很可能是在下半年。Reddit和包括Instacart在内的其他公司正在更新他们的IPO文件,为市场状况好转时可能的IPO做好准备。
与此同时,Reddit远未实现盈利,相对于Facebook、Snap和Pinterest等同行,Reddit一直难以通过其活跃用户群获利,目前其大部分收入来自广告,而数据收费模式一旦跑通,获得新的盈利渠道后,其IPO之路有望更加顺畅。