杜雨

杜雨:《AIGC:智能创作时代》《WEB3.0:赋能数字经济新时代》作者、科技创业加速器QAQ创始人

ChatGPT 热潮下的创投冷思考 ——对话杜雨

J10-1 副本.jpg导语

AIGC创业者和投资人应该优先考虑如何解决实际问题和满足用户需求,而不是纯粹追寻技术,“拿着锤子找钉子”。


09-杜雨.png

绝招:“好诗不过尽人情”

640 (2).jpg

图源:VEER

复旦金融评论:近期关于ChatGPT的许多讨论都是围绕AIGC产品能做什么、是否会在不久的将来取代人类的工作、如何重新思考教育方式这类问题。因为您的教育背景是经济学,也曾在红杉资本从事过风险投资的工作,我们非常期待和您探讨AIGC产品商业应用和投资前景相关的话题。

虽然底层的技术应用有所不同,但与微软Bing这类聊天机器人相比,ChatGPT算是后来者。它之所以名声大噪,是不是因为大语言模型对于2C用户这样的交互场景更让人感觉亲切友好?如果各家科技巨头的技术水平都相当,或者相比OpenAI更胜一筹,那为什么是ChatGPT首先引爆市场呢?

杜雨:过去这么多年,人工智能发生了巨大的变化。当我们最初关注人工智能时,我们可能是在利用它来承担安防和人脸识别等任务,这也是国内AI“四小龙”公司的主要领域。我们可以将这个时期称为AI1.0时代。这个时期主要使用决策式、专用性AI,我们更多地使用它来完成一些特定的任务,让它来做判断题,如人脸识别。但我们无法让它很好地完成开放性更强的一些任务,这是AI1.0时代的局限性。

我认为ChatGPT之所以能够大火,原因之一是从决策式、专业性AI向生成式、通用性AI发展。这其实包含了两个趋势:一是从决策到生成;二是从专用性向通用性发展。相较于微软小冰和Siri,如今的ChatGPT更加让人震撼就是因为它能非常好地完成各种开放式的生成类任务,并且应用的场景也更加通用了。

以前,我们或许已经可以让微软小冰写诗,但是“小冰写诗”的程序也只能用于写诗。但今天的ChatGPT很聪明,它可以在对话中灵活地满足你的各种需求。就拿写诗来说,或许就在聊天时你和它说“我在夕阳西下的河边欣赏到美景”,ChatGPT或许就会在对话中说出“落霞与孤鹜齐飞,秋水共长天一色”这样的句子,或者由它自己创作出句子,也就更接近真人了。它已从一个非常机械式的专科生变成了一个有情商、有温度的硕士生。我认为这在技术层面上是最大的突破。

除技术原因,我认为还有一个更重要的原因——在ChatGPT这种聊天式的产品模式下,每个用户都可以与其交互,门槛低且通用。考虑到大多数用户在互联网上主要使用文字进行交互,如微信上的互动仍然以打字的方式进行。因此,我认为ChatGPT的场景正是大多数互联网用户最为熟悉的。

实际上,绘画比ChatGPT更早进入市场,但我观察到当时虽然也引起了一定的媒体轰动,但好像热度远远不及这次ChatGPT。其实早在ChatGPT出来之前,OpenAI就曾经推出过另外一款图像领域的AIGC应用DALL·E2。海外还有一个名为MidJourney的AI绘画工具,用它生成的一幅油画在美国科罗拉多州博览会的艺术比赛中获得了冠军。

总的来说,ChatGPT火爆的第一个原因是由于AI技术的快速发展,使其通用性更强。第二个原因则更为重要,因为它将文字聊天的场景带给了每一个使用者,而这要比我们之前的作画场景更加贴近人们的日常生活。

复旦金融评论:AIGC备受关注的时间点是2022年末ChatGPT发布的时候,是否可以看作AI或者更精确地说是AIGC到达了发展的拐点?其他科技巨头没有像ChatGPT一样开放2C产品,是不是出于监管、隐私、版权、道德等方面的顾虑呢?

杜雨:虽然看起来ChatGPT是在2022年末突然引爆,但其实这也是一个“台上一分钟、台下十年功”的结果。实际上,我们注意到OpenAI是在2015年成立的,而且它的创始团队阵容非常豪华。虽然它是一家创业公司,但我们可以看到无论是山姆·阿尔特曼(Sam Altman),还是我们非常熟悉的埃隆·马斯克(Elon Musk),他们都带着非常强大的影响力、资金和资源。因此,我认为这家公司的多年积累主要体现在其技术层面上。在科技界,我们一直在关注它。ChatGPT也只是这家公司的冰山一角。在其他模式下,包括其大型模型参数的积累仍在不断提高。

我记得GPT系列模型第一次对外公开应该是在2018年。在GPT-1时,它的参数量级只有1.75亿。后来到了GPT-2和GPT-3,GPT-3的参数规模接近2000亿。有人预测,到了GPT-4时,模型的参数可能会达到百万亿级别,这意味着它与人脑的神经元突触的量级相当。

因此,我认为2022年是一个合适的时间点。一方面,这是由于底层模型的能力出现了巨大的突破;另一方面,随着参数规模和训练语料的规模达到一定的拐点,该模型确实可能变得适合公众使用。在更早的时候,虽然不少程序已经使用了底层的模型,但可能会在现实的应用角度出现各种各样的阻碍。截至目前,这项技术确实已经发展到了一个重要的拐点。

另一个我认为更重要的原因是,OpenAI最初是一个非营利组织,尽管它现在是一个有限盈利的商业组织,但我认为它在推动通用人工智能的发展过程中,认识到了集思广益的效用。因此,它需要发布一些能够让消费者感受到里程碑式的产品来引爆全球的关注度。

像DeepMind、OpenAI在内的一些致力于通用人工智能发展的公司在刚成立时,都在传统的AI界引起了争议。当时,很多AI领域的大牛认为这条路走不通。在不到十年的时间,通用人工智能就已经给大众市场带来了一个非常有意思的产品,它对于整个行业的意义重大。

所有创新技术需要经历的过程,从备受争议到开始有一些苗头,再到大家对它有信心,更多的人才、资金和消费者涌入。ChatGPT在2022年底的火爆之后,或许会让许多孩子在心中埋下人工智能的种子,或许也会让许多正在选专业读大学或即将读研的计算机系学生更愿意选择通用人工智能这一研究方向。对于像我们这样的投资人,国内已经有好几家大模型公司,现在都是各大美元基金的“香饽饽”,大家都在争先恐后地想要参与其中。更期待的是或许到2033年,人工智能能够成为一项非常通用、在人们日常生活中渗透率非常高的技术。

复旦金融评论:初创公司可能会尝试在AIGC方面用图形处理方法进行研发。您提到在文本处理之后,视频处理将会迎来爆发。您觉得AIGC技术对哪类载体的信息处理更有潜力?多模态的信息处理会不会相互转化?

杜雨:跨模态的应用现在已经非常普遍了。我之前提到的一些早于ChatGPT的AI绘画公司,如Stable Diffusion、DALL·E2、MidJourney。实际上,它们本质上都是跨模态的产品,因为当你与机器交互时,更多的会提供一个文本指令。例如,我要求机器画一幅向日葵,实际上只需提供文本,然后机器就会呈现图像,这本身就是一个跨模态的应用。你也可以给机器一张图片,它会理解图片后作诗,这个比ChatGPT更早出现。但像文字转化为图片这种跨模态的应用似乎在当下并不像ChatGPT一样受欢迎。

我认为离消费者日常需求更近的模态一定是最有潜力的,但这个答案不是固定不变的。例如,在PC互联网时代,由于带宽和输入设备的限制,图文是最主流的内容形态。但随着移动互联网时代,抖音、快手等应用的崛起,短视频开始占据用户越来越多的时间。所以,我认为在未来两三年,短视频可能接棒文字成为下一个超越ChatGPT在AIGC领域更具潜力的内容形态。如果将时间拉得更长一些,到2033年或者更远,元宇宙或沉浸式世界有可能成为下一个超越ChatGPT在AIGC领域的产品。

应用:将至已至,唯变不变

640 (3).jpg

图源:VEER

复旦金融评论:在很多的专业细分领域,如金融、医疗、艺术,AIGC 的应用能够更高效地辅助并且替代人类的某些职能。如何理解AIGC 的专业运用及通用性的特点?

杜雨:实际上,通用人工智能更像我们日常使用的工具,就像电脑一样通用。实际上,专用性AI 替代的是特别专、特别精的岗位,以及那些需要重复性劳动但不需要高复杂度的工作。而这一次,通用式人工智能所带来的生成式AI 的优势在于它的综合性。

目前这一波大模型训练出的智能机器人类似于大公司的管培生,更加具有通用性,解决的是任何行业都可能遇到的一些共性问题。因此,它的覆盖面很广,更像是综合大学毕业的学生,不只会做图表,还会根据当前情况的变化实时调整它的反馈。

走向通用化的AIGC技术其实与今天整个世界的变化趋势是非常吻合的。如今的综合性大学和我们儿童时期所接受的素质教育本质上都旨在培养适应世界变化的综合能力。因为世界变化更快了,所谓的专业性已经成为临时性概念,无论是对于岗位还是人才。也许你正在思考某个问题,科技就有了突破、人们对自然界的认知就有了突破,过去使用的方法可能不再高效。随着世界变化的加速,通用人工智能甚至是通用型人才都变得越来越重要。

复旦金融评论:如果说拥抱AIGC是必然的趋势,那么企业和个人为了提升竞争力,要驾驭人工智能的能力是否需要投入更多的时间和经济成本来应用这项技术?

杜雨:我认为其实是投入更少的时间。我们要知道,今天AI发展的本质是让机器听懂人话。培养出一个写代码特别厉害的学生,需要完成四年的本科教育;要深耕这个领域还需要继续攻读硕士学位或博士学位,但这种人才培养的过程没有可复制性。

工程师需要做的事情是帮助人类进行翻译和转译,他们既需要理解机器语言和原理,又需要理解人类语言。AI的发展正在弥合人类和机器之间的语言鸿沟。随着AI技术的进一步发展和普及,未来人类和机器之间的沟通会变得更简单。每个人都可以轻松地与机器对话。就像我们今天使用ChatGPT一样,它可以帮助我们编写代码。有时候,我们不是为了编写代码而编写代码,如在学术研究中经常需要使用爬虫。但并不是每个人都学过Python。今天,你只需要告诉ChatGPT研究的问题和要爬的数,它就可以为你编写一个基础语句,只需要在此基础上微调就可以用了。因此,随着AIGC软件的应用,每个人学习机器语言和如何与机器互动的时间将会缩短。

投资:切合需求,慎思笃行

640 (4).jpg

图源:VEER

复旦金融评论:微软作为OpenAI的投资方,之后不仅可以自己研发AIGC的产品,还可以在ChatGPT估值提升的过程中获利。最初,AIGC的产品是通过C端产品打开市场的,但也许C端用户的付费意愿不太强。考虑到这一点,是否需要从B端入手来实现盈利?如果商业化的重点在B端,这些产品如何持续地帮助企业降本增效呢?

杜雨:我认为从2C市场首先实现盈利的假设不一定成立,AI公司在C端盈利或在B端盈利还是要走一步看一步的。消费者最容易关注到一些离生活比较近的事情。例如,AlphaGo与李世石的围棋之战已经离我们比较远了。实际上,在AlphaGo之后,它的“兄弟姐妹”在许多领域都取得了很多成就,更容易在投入应用后打开市场,只不过这些领域好像离普通人的生活比较远。例如,AlphaFold2已经多次登上《自然》杂志的封面,因为它已经可以替代生物学家进行蛋白质结构的拆解、分析和预测。人工智能制药实际上是一个巨大的市场,无论是在收入还是在利润方面都相对可观。

今天来看ChatGPT的商业前景,可能并不是那么明朗。我们会发现每次调用ChatGPT消耗的成本可能还是相对较高的,单位成本可能并不经济。从当前的情况来看,至少从ChatGPT这个应用来看,C端市场尚未完全证明用户的付费意愿;而B端市场的商业化前景似乎更好,如将AI用于制药、能源等领域。这个结论在当前的场景下是正确的,但从长远来看则未必如此。

不过,我认为OpenAI在ChatGPT之后,在C端的商业前景和创新非常广阔,就像移动互联网时代的直播电商、共享单车、共享充电宝、移动支付等,可以创造出类似但并不完全相同的商业模式。这让我想到投资快手的例子。当时我们在参与尽职调查时会考虑快手该如何通过广告盈利,但插播过多广告又可能影响用户体验。因此,我们估算它的商业化潜力非常低。大家都没有预见到的是,随着4G时代的到来,快手居然通过直播获得了比广告更高的商业化收益。但是当初吸引我们投资快手的是它的用户增长和用户黏性。既然今天AI时代已经来了,如果接下来出现原生人工智能应用,它们会像过去在移动互联网时代一样,以有足够多的用户和足够强的用户黏性,在创新领域创造出许多超出预期、始料未及的商业模式。

如果今天不知道如何让你的业务商业化,只要证明它是用户真正需要的,那么收费只是时间问题。今天OpenAI的ChatGPT也是类似的。我就开个脑洞,因为埃隆·马斯克也是Web3.0的拥护者。如果有一天ChatGPT有一个激励机制,能让每个用户交换他们拥有的特有知识,那么我们就与它形成了一种共生关系。

ChatGPT将成为世界上拥有最多知识的智慧大脑。当每个人向它传授知识时,也可以获得一定的激励。我相信这种创新型的商业模式在未来也是可期的。

复旦金融评论:微软正商讨以290亿美元估值对OpenAI注资100亿美元的交易,而OpenAI通过微软和其他的投资者投资的1亿美元创业基金投资了至少16家初创公司。在AIGC领域,OpenAI是否会形成一家独大的局面。对于中外相关领域的科技巨头或初创公司,在投资和被投方面意味着什么?

杜雨:这个问题的答案视角度而定。如果我们从OpenAI作为一个潜在的上市公司的角度出发,或者按照我们熟悉的传统商业分析逻辑来看,似乎是符合你的观点的。也许在解决一些特定的、有标准答案的问题时,人工智能会更容易出现一家独大的局面。但是,一旦涉及内容和创意,这个行业的特性决定了它不会有那么强的垄断局面。

我清楚地记得,山姆·阿尔特曼曾与媒体分享做通用人工智能OpenAI的原因就是要反对Google在AI领域的垄断,因此我更愿意相信后者的可能性。我认为,OpenAI今天可能并没有将自己定位为一家只追求商业回报的公司,而是在推动整个人类进步的大背景下开启了一个新时代。OpenAI至今做的很多事情没有纯逐利,可能更多的是在营造一个生态,它如今的商业模式也是不够清晰的。像埃隆·马斯克这样独立思考能力特别强的人,更有可能跳出传统商业模式的框架,创造出更具创新性的模式。

在中国市场还没有出现ChatGPT这样具有开放生态并面向C端用户的应用。像百度这样的公司,前两年已经将其AI能力开放到了智能驾驶、生物医药等领域。所以,我认为国内的这些公司可能由于选择的场景更多是在B端,且消费者感知没有那么深,因此技术差距目前没有定论。

AI落脚到内容相关产业必然会出现百花齐放、百家争鸣的局面。其实,在与内容创作相关的领域,我认为用户消费的不仅是物质上的东西,有时还有精神上的愉悦。这种愉悦是非常主观的,因此我不认为这个领域的竞争会非常激烈。

复旦金融评论:您在书中反复强调,投资人对AIGC领域不只是追求最佳的商业模式,需要升级为同时审视用户、市场和生意的多维角度,观察赛道上是否已经有比较强劲的独角兽。如果这样的话,产品方和投资方应该如何独辟蹊径,才能做出或找到有商业潜质的产品?

杜雨:我认为,无论是投资人还是创业者,在新技术涌现时往往会犯“拿着锤子找钉子”的错误,即不从需求出发,不以需求为导向。我们需要明确,投资和企业经营是商业行为,无论是2C还是2B,不论采用何种技术,都必须牢记解决问题、满足客户需求是根本目标。更重要的是,我们应该关注今天用户和客户尚未得到满足的需求。只有从这个角度出发,才能更好地遵循商业规律。至于是使用AI还是使用非AI,采用AI1.0还是采用AI2.0都是次要问题。成功的投资和企业在第一时间抓住了主要矛盾,即大量存在未被满足的需求或者没有得到很好满足的需求。只有通过满足这些需求,AI才能发挥作用。因此,从商业角度来看,创造没有实际需求的产品,这样做是很危险的。

复旦金融评论:随着参数规模和数据量的不断提升,对于算力的要求与日俱增,AI芯片需要特殊的一个设计和定制,对于中国的硬件公司有哪些机会和挑战?

杜雨:算法的支持需要更强的算力,这需要我们在硬件方面进行更多的创新。实际上,这最终是工具和问题之间的关系。集成电路市场在过去几年发生了很大的变化,尤其是国际市场上的市场格局变化很大。我们需要回到最本质的问题,即什么样的芯片能更好地支持今天新一代通用人工智能算法的运行。有时候我们不能只在单一维度上寻求突破。虽然我们都知道硬件层遵循摩尔定律,但是到达某一定数量级之后,需要进行一些考虑,我们称为“摩尔时代”。我们不能仅因为某个指标持续下降或上升,就认为它能够有助于我们优化问题的解决方案。

一方面,对于底层芯片产业,如集成电路和半导体的需求量肯定会直接受到积极影响。因此,这些公司的收入肯定会从某种程度上有所提高。如果我们能更准确地预测通用人工智能的普及速度,那么这些公司也可以从中受益。

另一方面,芯片产业实际上属于制造业,不同于软件服务业写代码,不是可以轻易升级的东西,还要考虑市场预测方面的生产计划问题。既然它涉及生产,就会有一个周期性。对于半导体集成电路产业的企业家来说,更重要的是要花更多时间去研究AIGC将落脚在哪种计算需求及需求量上的变化,从而推导出对于底层芯片产业的哪种芯片或技术的需求量更大。这确实需要做出预判,否则一旦决策与市场需求不匹配,可能会造成大量浪费。

复旦金融评论:今天ChatGPT的火爆,不免让我们想到去年热门的元宇宙。然而,从扎克·伯格(Mark Zuckerberg)对Meta的态度来看,元宇宙概念的热度似乎没有持续太长时间,而且它主要的应用也集中在游戏和虚拟现实领域。您刚才也提到了可能要到2033年或更长时间,才能看到Web3.0、元宇宙、区块链,以及NFT这些应用场景与AIGC的结合。您对未来商业机会和技术应用有哪些展望呢?

杜雨:一个问题是,热度的本质是指大众市场的关注度,即普通用户的关注度。普通用户一定会对应用层的创新和突破更敏感。虽然ChatGPT是在2022年末被推出,在2023年初备受关注,而它背后是近十年的积累。过去七年大众都不知道OpenAI是谁、在做什么。对于元宇宙可能是一样的道理,也许经过七年或十年,我们可以看到沉浸式领域出现类似ChatGPT一样令人振奋的应用。我认为科技创新的关键在于无论公众是否关注,每个领域的创新都在不断地进行和前进。

另一个问题是,如果我们将AIGC和虚拟世界的结合考虑在内,最直观的逻辑是,AIGC可以及时提高内容生产的效率,对虚拟世界各种元素的设计创造就会变得更高效、更快捷。因为沉浸式世界中需要数字孪生,即将物理世界中的每个物件都进行3D模型的再造。这个过程需要完成大量的工作,包括人、物、植物和动物等都需要映射到数字世界中。使用AIGC或许就可以让我们更快地进入Meta所讲的元宇宙时代,让每个消费者更早地体验沉浸式的世界。例如,像Roblox这样的平台曾经收购过一家名为Loom.ai的公司,该公司使用AIGC技术快速生成虚拟人。在玩Roblox时,我们可能需要花费很长时间去捏脸、制作虚拟人。有了Loom.ai的技术,虚拟世界中构建虚拟人的门槛就变得更低,越来越多的人可以参与其中,虚拟世界的构建过程也会变得更快。

*本文仅代表被访者个人观点,仅供读者参考,并不作为投资、会计、法律或税务等领域建议。采访/编辑:潘琦。