原文来源:见实
图片来源:由无界 AI? 生成
时间拉回到2015年,梁斌刚刚获得清华大学人工智能博士学位,同年10月八友科技成立,并常年为客户提供国内外数据资料。
2023年上半年,GPT大模型进入公众视线,短短半年时间,国内就已有近百家GPT大模型,“八友”成为绝大多数大模型服务商的首选,据统计,这一数字接近50%。
作为深度参与大模型发展的数据供应商,梁斌的几点洞察尤其值得业界参考,深聊中,他开门见山指出,我们正处在一个“强者恒强的大模型时代”。这句话背后至少点出了三类企业的处境:
一是,对于品牌而言,大模型商用的次序依旧是大品牌优先,即便是大模型技术被广泛应用,不成规模的企业依旧是“小脚穿大鞋,跑一步摔一步”。
二是,对于服务商而言,首先拥有大规模的数据样本是一件具备极高时间壁垒的事,其次,拥有数据的平台会想尽办法保护数据,提高数据获取门槛,提高行业难度。因此,后来进入的服务商难度会更大,强者恒强。
三是,对于平台而言,如果是国内互联网平台自相比较,会发现“地主”太多,一个应用出来,就马上能有上亿用户,这是中小平台比不了的。
如果拿国内平台和国外平台比,差距同样也很明显,正如梁斌所言,如果GPT4打10分,国内大模型厂商还在2-3分这个程度,那么2.5分,还是2.8分,其实没差别,要能达到8分甚至9分才有机会。
强者恒强,可能只有一些特别具有垄断性的场景,才能杀出来。
这或许也是品牌、服务商和平台的机会。再小的品牌也能建立起自己的专属粉丝圈;再小的服务商,在垂直行业的深耕依旧具备不可替代的高价值;再小的平台,也能在狭窄赛道中做出本地化的微平台。
虽然,生成式AI可以提供互联网上没有的答案,并通过大规模数据训练得到的“涌现”性知识来回答网友的各种问题。但应用的最后一公里,是否按下确认键依然取决于你自己。
对了,梁斌还将在9月20日参加见实的AIGC主题大会,届时他还将在现场与我们分享更多当前大模型时代下的企业新机会,欢迎大家在文末或者公众号菜单栏报名深度沟通。接下来,让我们回到对话现场,听听梁斌博士在大数据与AI领域的前沿洞察,如下,Enjoy:
北京八友科技创始人兼CEO 梁斌
01 强者恒强在大模型时代会更加严重
见实:你们现在已经是50%国内AI大模型数据的供应商,这个数据的总样本量大约是多少?
梁斌:我们目前列入销售线索的企业大约有106家,数据总量非常巨大,中文压缩数据掌握了大约100TB,海外数据超过1PB,国内数据比较敏感,国外则主要来自Common Crawl、Laion、Quora,Github,Reddit,电子书等平台。
见实:创业之初,你在数据领域看到了怎样的机会?
梁斌:刚开始做八友是在2015年,当时主要是为舆情公司提供数据服务,后来逐渐给需要提供实时数据的电商公司提供数据需求;目前在为大模型客户提供数据服务。
我们一直坚信“数据行业”未来会成为一个独立行业,原因有三:
一是,数据规模越来越大,越来越封闭在App中,采集难度大,容易成为独立的社会分工。
二是,大规模数据储备价值很大,可以做一些非常长远的宏观报告。2015年公司创办前后,当时还没有大模型,只是觉得这是一件可以做10年甚至20年规模的报告,这个储备是很难短期得到的
三是,随着长期的积累,核心竞争力会越来越强,拥有数据的平台会想尽办法保护数据,提高数据的获取门槛,提高行业的难度。
见实:从你的观察来看,目前,行业对AI类企业的认识发生了哪些变化?企业又该如何应对这轮GPT大模型带来的行业冲击?
梁斌:大模型这个卖点之前可能连见到甲方负责人的机会都没有了,现在可以说在2B类生意中具有很强的穿透力,特别是加上耳目一新的演示效果,转化率比以往大大提升。
实际上,AI类企业胜负的关键就在成本竞争。做大模型的团队有很多,成本控制不好就很难长久,控制成本是各家团队的核心竞争力,创新的同时还要结合客户的具体场景,从效率,成本,效果等多方面打动甲方。
在这样快速变化的时代,企业至少要具备三点基础认知:
一是,充分利用现有基础设施,不要重找车轮,模型方面的让专业的人做。
二是,寻找自己行业的特殊数据,最好是非公开数据,通过这些数据建立壁垒。
三是,找到自己行业的应用场景,能接触到这些场景,快速覆盖,也是重要的壁垒。
如果只用一个字来说就是“快”,快是最重要的壁垒,在大厂反应过来之前完成一轮对市场的覆盖。
见实:随着 AI 技术的发展,企业竞争的“胜负手”又会转向哪边?商品、服务还是品牌力?
梁斌:回看创业之处的那三点观察,首先拥有大规模的数据样本是一件具备极高时间壁垒的事,其次,拥有数据的平台会想尽办法保护数据,提高数据获取门槛,提高行业难度。
强者恒强可能在大模型时代会更加严重,中小企业的大模型团队杀出来的可能性还是比较小,中小公司在数据和算力上,人才上都有很大瓶颈,我想可能还是要有一些特别的具有垄断性的场景,才能杀出来。
互联网历史上无数中小公司,有服务,有行业内的品牌,也都倒闭了。互联网行业“地主”太多了,一个应用出来,就马上能有上亿用户,这是普通中小公司比不了的。
02 中小企业如何适应强者恒强的时代
见实:你在《走进搜索引擎》这本书中提到,搜索引擎本质是一个由用户定义的信息聚合系统。通过用户输入的查询关键词,搜索引擎推测用户的查询意图,然后快速地返回相关的查询结果,供用户选择。
生成式AI的出现,其实是帮用户省去了大量搜索整理信息的时间,它的出现是否会重新定义“主动搜索”这件事?如果让你重新定义搜索,你会如何描述?这么描述的底层逻辑是?
梁斌:搜索引擎核心的价值有两个,一是通过网页质量评估方法去掉低质量网页;二是通过相关性方法提高了相关性(相对于查询词的相关性)。这些共同节约了用户找到答案的时间。
然而搜索引擎毕竟不是神,它也只能给出一个排序,用户还是需要自己在排序的结果页中寻找答案,选择答案的时间没有省去。
生成式AI直接给出最佳结果,风险很大,因为只有一次机会,但是用户体验极佳,而且更难得的是,生成式AI可以提供互联网上没有的答案,通过大规模数据训练得到的“涌现”性知识来回答网友的各种问题。
我们的开发工程师研究安卓的源码,有一段看不懂,大模型却可以来解释,这个在网上任何地方都搜索不到答案的。而且大模型解答数学题的能力也很强,一个题目变一种说法,互联网上就找不到了,而大模型依然可以正确回答。
见实:Open AI创始人也曾提到过数据规模并不是越多越好,你们有对数据的临界点做过划分吗?哪些情况下会遇到数据规模触顶?
梁斌:目前基本上我们知道的情况模型参数大概分10B(billion),100B这个参数量级,前者解决一些文史哲数据,或者解决一些理工类数据解决复杂问题。
参数的提升意味着数据需要跟着提升,否则就容易过度拟合,对训练数据的解释能力提高,但是泛化能力,理解非训练数据的能力就降低了。因此,从人力发展,算力提升的趋势看,肯定是越多越好。
但是多也会带来问题,数据质量要跟着提高,否则数据多反而会影响训练效果,低层次的数据反复训练,也达不到高水平智能。
临界点划分目前我知道没有统一标准,目前1TB token都是小模型,玩具型的,随着社会发展需要,10TB甚至100TB token都不算大。
见实:你认为品牌需要发展到多大体量,或者需要多大的数据样本才能支撑起一套大模型的运转?
梁斌:不同行业数字化水平不同,比如机械行业,基本上数据都在书籍,论文,课本上。
如果是一个消费者品牌,其可以拿到的数据,也就是知乎,小红书,一些评价型数据,基本品牌在销售过程中一些售后服务对话数据,也是非常小的。
所以,狭窄行业的专业知识是非常少的。如果从百度知道,知乎上搜索这个品牌词,看看有多少相关的提问就会知道,其实,很多小行业可能短时间还用不上大模型。
见实:怎么看待微信私域CRM中的用户数据?好友或者群聊天记录是否会是品牌主要的数据源。如果对话内容会成为主要数据源,那你觉得需要多大量级才能实现对话场景中的自动化?
梁斌:目前我知道的对话数据大多涉及个人隐私,处理起来也极其困难,直接用作训练风险极高,特别是2C场景不太敢用对话数据。我目前了解的可以买到的对话数据大概是这么几类。
一是,医疗类多轮对话数据;二是,社交网络(比如微博)的多轮评论改造成的对话数据;三是,影视作品中的对白。
这些对话数据还是太少,目前看还没法满足各种垂类行业的需求。
见实:瑞幸咖啡、汉堡王等企业本质上是一家技术公司,也是数据驱动型公司,这是否也意味着他们这样体量的消费品品牌会是接下来AI大模型应用落地的排头兵?毕竟这类行业的用户交互频次与增长速度是最快的。
梁斌:到目前为止还没有一个消费品品牌有独立技术团队在做大模型,也没有向我们购买数据的品牌企业。
瑞幸、汉堡王这样的企业,主要解决的还是用户增长问题,智能客服和自动化文案宣传部分的应用需求可能会多些。
有用到大模型的场景,独立组建团队来做是不太可能的,但他们可能是在同赛道企业中最先拿到结果的。
见实:中小企业能做些什么呢?哪些不可逆的错误动作需要中小企业特别注意的?
梁斌:中小企业积累数据风险很高,特别是积累用户个人数据可能风险更大,万一传播开来会比较麻烦,最安全的方法就是不要积累用户个人数据。这个可能是数据积累过程中遇到的最大风险。
03 百模大战:国内AI大模型的演变与发展
见实:国内AI大模型的演变过程是怎样的?可以被分为几类?
梁斌:目前,国内AI大模型发展速度飞快,但起步有点晚,仍还在追赶阶段。每家大模型团队向前迭代都有不同的思路,总体上受限于数据和算力等资源。
不缺算力的团队,在持续扩大数据规模;缺算力的团队,则在不断优化现有数据质量。总体来看,国内做AI大模型的企业可分为三类:
第一类做底座开源的2B类大模型,如,智谱AI,零一万物这种。
第二类是做垂类大模型的企业,主要在底座大模型上用特殊数据做continue training的,比如,左手医生等等。
第三类做2C类型的大模型服务,代码闭源。如,百度文心一言,阿里通义千问、讯飞星火大模型等等。
其中,底座大模型的发展还在爬坡,垂类大模型和 2C 类型的大模型团队都已经开始赚钱了。当然,做垂类大模型的也有可能2C,不过现在看来可能性比较小,盈利模式基本跑不通。垂类解决行业问题,B端用户付费是比较正常的。
见实:你们会被归为哪一类?是否已经实现盈利?这类商业模式目前还有多大的进入机会?未来是否有引入资本的计划?
梁斌:我们不做大模型,我们只是给大模型提供数据服务,已经盈利了。做大模型的企业目前基本都在投入期,传统的技术型公司,有应用场景的业务型公司,还有各行各业的龙头企业都在进入这个领域,服务的客户千奇百怪。
见实:在大数据服务中你们的核心价值是什么,这些价值是如何帮助企业实现更好的业务成果的?
梁斌:我们的服务核心理念和“赌场理念”相似,不怕客户(员工)占便宜,就怕客户(员工)不来。只要客户愿意让我们服务,就是巨大的机会。
整个交付过程一般会被分成三部分:
首先是交付阶段,先做事,先服务,满意后再付费;其次是遇到问题了,积极赔偿;最后是客户随时需要,我们的工程师随时服务,我们会给工程师高昂加班费,以确保服务的连续性。
见实:之前有提到过数据市场的三个发展阶段,能否详细阐述这些阶段,以及在你看来,企业在每个阶段的机遇和挑战是什么??
梁斌:我认为数据发展的阶段,也是人类知识数字化的阶段。在有计算机,互联网以前,人类知识通过书本传承。在计算机出现,特别是互联网出现以后,数据开始向互联网转移。大概可分为三个阶段:
传统互联网时代,数据都在网页上,只要是社交需求,部分功能需求。
移动互联网时代,数据既在网页上,也在app上,社交需求降低,功能需求提升,大量的数据围绕这实现具体功能,购物,外卖,叫车,订票等等。
人工智能时代(大模型时代),人类知识有计划的数字化,大量纸质书被电子化,政府公开大量数据,数据越来越成为人类共有的资产参与对人类的服务中去。
现阶段来说,企业都有面向大模型的需求,一方面是卖点,另一方面是切实创造价值,快速用现有基础设施和行业需求进行整合,快速实现行业服务水平的升级。
比如有团队做了网店的24小时多语言客服,可以和全球的客商在任何时间用任何语言进行导购服务,去掉了时差,去掉了语言障碍。
见实:还有哪些应用案例?以及你们的通用做法是怎样的?
梁斌:以我们目前服务的金融和汽车行业客户为例,通常有三种落地方式:
一是,通过生成式模型替代部分甚至全部人类工作(这类工作往往是低阶工作),金融行业比如做一些基础数据准备,简报,传统的需要人力的部分,可以通过大模型来解决。新能源汽车行业车载交互系统,客户需求的研究等等都可以由大模型来参与。包括很多游戏行业通过大模型创造图片,减少了游戏原画师的需求。一些客服需求很重的企业,通过大模型降低人工客服的需求,等等。
二是,通过大模型来辅助人类工作(这类工作往往是高阶工作),比如现在大模型帮助高中生解题,帮助大学生写论文,帮助工程师写代码,帮助律师分析案情,帮助医生进行诊断等等,这类往往可能是实现盈利模式的重点,也是目前大模型发展方向的重点。
三是,通过大模型来指导人类工作,因为大模型可以把大量交叉学科的语料一起训练,容易产生更加高阶的智慧,从而能够指导高科技研究,高精尖装备的研发等等,目前国外大模型在向这个方向努力,国内大模型还暂时没到这个阶段。
见实:一路观察下来,科技互联网大厂、投融资机构和学术研究机构都在做什么?
梁斌:都在齐头并进吧,行业的交流氛围还是比较开放的。
理论研究方面国内科学家已经取得了很好的成果,比如清华大学的朱军老师提出的快速高效训练方法等;互联网大厂团队则在疯狂迭代推进,基本三个月一个小版本,半年一个大版本;投融资机构稍微有些安静,因为种种原因实际上并没有及时跟进,至少国内还并没有看到特别大的投融资事件发生。
见实:那未来大数据与人工智能发展趋势,你是如何预测的?接下来互联网大厂的“百模大战”中你更看好哪一家?
梁斌:从业务视角去看,第一波买我们数据的是互联网公司;第二波会是非互联网的上市公司;第三波是想也没想到的各行各业的2B类公司。
这个影响速度是非常快的,大部分企业决策人都已经在深度思考大模型和自己业务的结合了。
目前国内确实正在经历着一场“百模大战”,很难定输赢。
从整个大的行业来看,国内大模型团队做的产品我感觉和GPT4都有较大差距,如果GPT4打10分,其他还在2-3分这个程度,那么2.5分,还是2.8分,其实没差别,要能达到8分甚至9分才有机会,目前国内的大模型还要继续努力才行。
当然,我们作为数据提供方也要继续努力,缩小差距。