商汤科技董事长徐立：整个AI行业都有两条生死线

2024-12-26 11:33:48 来源：商汤科技SenseTime官微作者：量子位

　　在MEET2025智能未来大会上，商汤科技董事长兼CEO徐立博士与量子位总编辑李根展开对话，分享了他对AGI征程第二个十年的感受与思考。量子位（ID：QbitAI）整理刊登文章如下：

　　核心观点

　　AI发展的两个关键要素：基础设施建设的完备性和技术深入应用场景。

　　算力供给的成本线和开源模型性能线是AI行业的两条生死线。

　　未来中国的AI行业应用百花齐放需要实现一个重要目标：计算资源平权。

　　无论是当前的语言模型还是垂直行业应用，可能都只是一个前奏，我们可能会迎来通用人工智能的“超级时刻”

　　真正通往广泛智能的路线（AGI），很可能不会局限于人类的视角和能力。

　　AI十年发展的两个关键要素

　　李根：很高兴邀请您进行分享，创业十年的感觉怎么样？

　　徐立：今年也是商汤的第十个年头，可以说见证了人工智能的发展、变化。

　　十几年前看AI的时候，大家还没有现在这么强的广泛认知，还是一个相对比较模糊的概念。

　　但今天，大众对于AI的认知变化，让我们感觉到这个时代在突破的临门一脚上。包括刚才咱们活动上提到了很多人工智能的发展趋势，这些趋势和技术，甚至就是讨论的这些关键词本身，如果放到十年前，可能大部分的人一头雾水，但今天所有人都耳熟能详，这就是一个时代的进步。

　　对新技术认知的快速迭代，是推动时代进步的基础要素。

　　李根：让我印象一直很深刻，你说所有红利最前面是认知的红利。如果我们总结过去的十年，或商汤创业的十年，我们现在回过头得出的结论有哪些？

　　徐立：从我们看来，这个时代的发展或过往十年，可能有两个要素是推动行业发展进步的基础。

　　第一个要素是基础设施发展要素，为行业往前走提供了核心支撑。

　　过往我认为移动互联网发展得很好，得益于我们的产品和开发人才密度高等因素，这些当然是事实。但最关键的一点是，在这之前我们已经建立了完善的基础设施。移动互联网的爆发得益于移动通信大规模的建设和发展。它的成本能够以非常快的速度降低，甚至是在世界范围之内以领先的成本优势推动下游的应用百花齐放，并最终遴选出今天的头部互联网。这完全是基础设施迭代的红利。

　　事实上，回望AI1.0时代全球的技术发展，差不多中国是同步推动了ImageNet时刻的行业落地。在ImageNet时刻之前，许多人对AI在现实世界任务上的能力存有疑问。但如果AI能够在视觉领域，特别是基于互联网数据的任务上取得突破，就能吸引很多人投身其中。当然，这里ImageNet时刻也得益于互联网基础设施的完善从而获得大量的互联网数据。

　　那场景为什么是中国？这得益于中国早期在基础设施建设上的完备性。比如做视觉相关工作，摄像头的数量；又如进行任务检测时，早期通信连接和数字化储备，这些都为我们在数字化转型中带来了一波红利。

　　然而，回过头看，当时创业者普遍take for granted，认为基础设施的发展是自然条件。今天我们发展AI2.0，更需要注重基础设施的建设和发展。

　　第二个要素是：无论技术再通用、再基础，“场景化”始终是技术走向大众、实现真正意义上商用的核心关键。

　　接下来的AGI（AI2.0）时代，无论技术多通用，“场景化”依然会成为推动技术迭代的核心驱动力，因为技术本身只是一个工具。

　　今年的诺贝尔奖很有意思，把物理奖和化学奖同时颁给了AI。物理奖把人工智能作为目的、作为一门科学，用物理学的知识推进人工智能的发展；而化学奖则把人工智能作为工具，用它推动计算化学、蛋白质预测领域的突破。

　　我理解这两个奖项应该分属于不同的阶段：先有技术作为工具推动行业进步，之后再将其本身作为学科研究的目标。然而，它们却同时发生。这反映了AI技术发展很快凝聚了共识并在场景化应用中的快速迭代，极大提升了学科的认可度，使人工智能本身也成为独立研究的对象，这是非常有趣的现象。

　　基础科学的突破往往体现“无用之用”。有个传闻说，学生问欧几里得：“我学习这些有什么用？”欧几里得回答：“如果是教你有用的东西，你就不该来这里”，然后把学生赶了出去。这当然是个传闻，但确实说明了基础学科或技术突破往往在早期难以直接看到实用价值。但今天如果我们要让技术走进千家万户，实现商业化，仅靠“无用之用”已无法推动应用变革。一定是通过场景化的应用深入，才能促进行业真正发展。而场景化是AI凝聚认知共识的起点。因此，无论技术多么基础，多么通用，我过往十年的观察是，技术的细分场景化深入才是真正的破局点。

　　整个AI行业都有两条生死线

　　李根：所以听起来1.0时代更多还是做AI基础设施构建工作，包括大装置，到2.0现在用的LLM这样新的范式，可以更加把场景化的问题解决好。

　　徐立：我们现在的认知是，在1.0时代，如果AI能够进入到行业，通常是因为行业已经构建了完善的基础设施，并充分利用了这些基础设施的优势。比如，有了摄像头网络，视觉相关的AI应用才能快速推进。如果要让视觉企业负责建设摄像头网络的话，那么应用迭代将会非常缓慢，也算不过来经济账。就像如果开发移动互联网产品的企业还要自行搭建4G、5G通信网络，这也是算不过来经济账的。

　　这引出2.0时代的一个挑战：如果2.0时代的AI发展极度依赖计算基础设施，也就是算力的建设，那么2.0时代的基础设施应该如何构建？在构建过程中，如何确保它真正能够为大众所用？这是2.0时代的一个核心命题，或者也是当前技术发展所面临的一项挑战。

　　李根：今年我们也做了战略上的升级，商汤做了一个大装置、大模型以及应用的“三位一体”，跟这个判断有关系吗？

　　徐立：从9月以来，硅谷做了很多有意思的事。比如，9月3日，马斯克的xAI宣布用4个月建成了100K的集群, 算力超越了OpenAI。最近，他们更宣布计划将Colossus超算扩容十倍，集成超过100万块GPU。20万张卡，不知道大家有没有概念，仅建设就大概要600亿元。这个时代，可以看像马斯克xAI这样的创业公司，是以如此的闭环节奏往前推进。

　　9月12日，白宫宣布将成立智算中心基础设施特别工作组。政府把所有涉及计算资源和基础设施的企业招来，成立联盟来推动相关发展。这一系列事件，将基础设施的重要性提升到了一个新的高度——输入是能源，输出是数字智能，相当于对计算基础设施进行了重新定义和高度强化。同时，谷歌、甲骨文投入了大量资源在核电；微软和贝莱德成立了300亿美元的AI基础设施基金；特斯拉一年之内GPU增加了9倍，24年底达9万块H100。

　　这对中国来说也是一个重要命题。如果中国想实现端到端自动驾驶，需要具备什么条件？按照马斯克的第一性原理思考，他一定认为9万张卡是实现端到端自动驾驶的必要条件，那我们是否具备对等的逻辑与资源投入？

　　很多人将1.0和2.0时代的差异定义为专有AI与通用AI的转变。但在我看来，1.0和2.0最大的区别在于资源的侧重。1.0时代是人力密集型，所有资源都集中在人才招揽上，当时GPU的使用实际是解放了CPU，大幅降低了成本，计算的成本占AI公司的占比不足5%。到了2.0时代，计算的权重反了过来，在训练大模型任务中，成本中计算占比达到95%，人力只占5%。

　　这就带来了一个核心问题：在2.0时代，如何更高效地利用基础设施？

　　我们提出的“三位一体”——大装置、模型和应用的无缝集成，强调了AI2.0发展的核心路径。首先，“场景化”一定是驱动力。没有场景应用，你无法明确市场上的模型会以何种形态发展。其次，模型研发是驱动基础设施建设的核心动力，因为今天任何一个模型的变化，都会带来基础设施成本价值的巨大变化。

　　现在做AI，我常说行业内存在两条“生死线”。

　　第一条是算力供给的成本线。

　　英伟达为什么能达到3万亿美元的市值？因为过往10年，他们把算力的成本降低了100万倍。而未来，他们同样计划实现算力成本再降低100万倍的目标。这样的基础设施变革，以10年100万倍的成本下降速度，是史无前例的。

　　2018年，我曾推荐过一本书《Prediction Machines》，它提出一个有趣的观点：当生产要素的成本下降百倍时，会迎来时代的转折点。例如，电力成本下降100倍，开启了电气时代；通信成本下降100倍，推动了移动互联网时代。

　　如果今天算力成本下降100万倍，我们会进入一个怎样的时代？这就给从业者带来一个很大的挑战。

　　对于从业者而言，进入的时机尤为关键。如果晚几年投入，可能只需要1/1000的资源就能完成相同的任务。那么，在什么时间节点投入、投入的资源是否能够沉淀为持久的价值，就成为行业发展的第一条生死线。

　　第二条就是开源模型性能线。

　　在过去的行业发展中，大模型开源已成为一个重要的前提，尤其是在从事基础设施建设或销售硬件的公司中。例如，英伟达在推动开源方面不遗余力，他们将所有过程、数据和细节开源。

　　模型开源除了推动行业进步，一般有三类玩家：

　　第一类是基础设施提供方，开源的目标是让用户掌握这项技术，然后通过销售硬件或服务（比如算力或者模型的调用）获利。这种模式可能在模型本身上不盈利，但通过配套的业务模式实现收益。

　　第二类内容平台。生成式AI越多生成内容，平台的内容生态就越丰富。这也是为什么像Meta 有Facebook和Instagram等内容平台，也会大力推动开源。实际上生成内容越丰富，平台价值就越高。

　　第三类是创业公司的开源。这些公司通常在有限的资源下，将开源作为快速提升行业影响力的路径，吸引投资者。

　　不过，这三类积极开源的企业带来一条性能增长线，而这条性能线已经接近甚至追平了闭源模型，如果行业开源模型投入的平均水平较高，而企业的投入不足，就必须走差异化路线，为行业提供独特的价值。

　　比如，可以选择了以行业应用的垂直领域为切入点，通过差异化模型发展，包括差异化的场景数据发展，推动行业的变化。商汤在这一定位中，既要完成基础模型的迭代，又要为行业客户提供差异化的价值，我们的目标是以同等甚至更低的成本，为市场提供优质的计算资源和模型使用。

　　未来中国的AI行业应用需要实现一个重要目标，即计算资源平权。训练基础模型还是少数企业的责任，但是使用大模型一定是百花齐放，所以使用模型需要的计算资源必须要高性价比，才能推动行业的发展。

　　当前，我们面临很多挑战，例如连接硬件技术的难题、国产化能力的限制等。这些挑战使得应用方难以平等获取低成本的计算资源。如何解决这些问题，是商汤在“三位一体”战略转型中深入思考的方向。

　　大装置、大模型、场景应用的“三位一体”

　　李根：商汤之所以具有AI的代表性也是因为这样的“三位一体”不是每家公司都具有或者都有这样实践的可能性。我们在做大装置算力、大模型以及应用的“三位一体”过程中，您是怎么去看这三个要素当前的成熟度？

　　徐立：如果讨论成熟度，现在计算成本在AI领域占据了极大的比重，无论是训练还是推理环节都如此。这个变化是Scaling在不同领域验证的结果，我认为Scaling Law经历了三个重要的验证时刻，这三件事情的验证塑造了今天对它的认识。

　　第一个验证是大语言模型上的应用，这是非常有意思的点。大家如今普遍认为资源越多性能越好是常识，但实际上，在Scaling Law提出之前，这在AI领域是一个反共识的观点。在小数据、小模型上表现优秀的算法，往往在大数据、大模型上效果不佳。过去，从未有人宣称某种方法能够适用于不同尺度的模型，这也是为什么Scaling Law被称为“尺度定律”。这一验证首次明确了算力资源的重要性和正相关性。

　　第二个验证是跨模态的适用性。不管是Sora还是4o等其他跨模态系统，Scaling Law的作用不仅限于语言模型，也适用于视觉等其他模态。这在过往非常不常见，因为在传统AI领域，算法往往在跨数据、跨模态时失效。

　　第三个验证是推理时间上的Scaling Law。推理时间越长，模型性能越容易提升。这个可能是在单一模型Scaling Law放缓的节奏下，带来的又一个新的增长引擎。

　　可以说这三次验证从根本上明确了算力资源在整个链路中所扮演的核心商业角色。

　　这里还有一个关键点，模型本身的架构和设计直接决定了计算资源的配置和使用。算力、模型和应用这三大要素中，大模型是贯穿上下的核心纽带，既牵动着上层应用的发展，也影响着下层计算资源的配置。而计算资源的优化和投入，则是决定整个商业模式能否实现闭环的关键所在。

　　李根：我也是想要进一步问一下更赚钱的问题，我们大众对于AI的感情好像是很复杂的，比如像OpenAI最初成立的时候，有几个富豪可以拍10亿美金在那说你们啥也不用干，你们就研究AGI就完了，不用考虑任何的事情。后来等这个事情成了，我们很多人就会追问说，中国为啥没有OpenAI这样的公司？但是可能过了两年又会追问说，你们烧了那么多钱，究竟赚钱了吗？究竟能不能赚钱？所以我感觉当前阶段，如果像您讲的很多基础设施都成熟了，那在2.0的阶段，我们是不是有更多商业化的进展可以出来？或者对于商汤而言，有没有商业化的进展是可以分享的？

　　徐立：商汤作为上市公司发展技术的同时还有一个重要责任就是，对股东的负责。所以在走向AGI的过程中，要有成熟的商业化的变现模式。

　　对于商汤来讲，我们通过“三位一体”的方式将计算成本降得更低，这部分很挑战，在于必须结合应用、模型和算力，但是一旦迭代完成，就能获取足够的市场份额，实现客观商业回报。因为当前无论是模型服务还是应用服务，最后都等价于计算资源的变现。而在中国，资源变现的商业模式相对更加成熟。

　　关于商业模式，还有一个有趣的现象：为什么在海外，一个标准化的软件可以长期保持固定价格，而在国内则需要加入更多服务，甚至进行贴身化的定制开发？这其实也是认知上的差异。如果想在中国真正做好商业化变现，就必须深刻理解这一市场的普遍认知。认知的改变也有路径依赖。如果行业认知与设计的商业模式不能匹配，形成商业文化上的差异，就会导致商业路径不清晰。

　　大众被打脸的时刻就形成了超级时刻

　　李根：确实很感慨，因为我们好像第一次经历AI这样的技术原创周期，就是完全不是一个舶来品状态的时候，没有配套的整体的资源，以前更多还是靠着应用为核心或应用为大头的一个商业模式变现。我发现在 “三位一体”中提了大装置、大模型，没有提大应用或者是超级应用，这是有什么思考吗？

　　徐立：大装置是一种算力集约式建设，其重要性在于只有通过集约化建设，才能实现训练和推理的弹性支持。而大模型则体现了其通用性的特点。

　　至于应用，本身并没有大小之分，而是通过“小见大”的方式逐步成长。因此，单纯以应用或场景来判断其早期规模比较困难。超级应用从来不是一开始就打造出来的，而是从细分的小切入点起步，逐渐演化而成。

　　直到今天，中国的超级应用依然主要集中在解决国计民生中的小的垂直问题，通过这些小点的突破，逐步形成平台化的优势。

　　李根：但我也观察到您之前提了一个“超级时刻”的概念，我们大众来判断的话，什么事情发生可以确认这个超级时刻到来了？

　　徐立：超级时刻的关键在于大众对这件事情的认知发生了重大转折。事后回看，这些时刻往往成为技术或理念发展的转折点。

　　我一直认为超级时刻与应用是强绑定的关系。例如，ChatGPT之所以成为超级时刻，是因为过去很多人认为AI在自然语言处理上还很遥远。但ChatGPT突然出现，突然超越了图灵测试，让大众认知发生了剧变。同样，AlphaGo之所以是超级时刻，是因为它真正推动了人类去探索世界的本源。

　　回想AlphaGo的时刻，我还有些感慨。AlphaGo对战李世石时的第二盘第37手，当时人类包括围棋专家普遍认为这是一步臭棋，但AlphaGo却认为这是它整盘棋的胜负手，事实证明机器是对的。这是人类历史上第一次有一台机器超越所有人的认知，给出了正确的答案。

　　这个时刻启发了一个问题：我们是否可以通过类似的方式去探索世界的本源？这也为后来的“AI for Science”奠定了基础。

　　今天的o1就是AlphaGo方法的一种延续。我后来觉得“超级时刻”可以换个词来形容，那就是“打脸时刻”。在人类被彻底打脸的瞬间，超级时刻就诞生了。例如，iPhone时刻：当时所有人都认为手机必须要有键盘，但iPhone的出现颠覆了这一认知。

　　这种认知上的反转、升级，正是超级时刻的典型特征。

　　李根：你刚刚讲这个超级时刻的时候，我是觉得非常感慨的，因为想到AlphaGo比赛的时刻，37手那一天，当时我就站在演播室，请了嘉宾而且是围棋国家队的总教练，37手下出来的时候，我记得非常深刻，教练说你看不会下棋吧，机器毕竟是机器。但等到后来第一局结束了之后，李世石认输了，就结束了。当时国家队教练因为刚从外地回来，他要打开他的打车软件，他找不到打车软件，他整个大脑空白了。那个时候我不懂围棋，但我知道可能对于他们而言是一个职业性的打脸时刻，可能有点像失业时刻。

　　徐立：所以我在想，通用人工智能时代，不管是当前的语言模型还是垂直行业的应用，可能都只是一个前奏。随着这些技术的发展，我们对于世界本质的理解以及基础科学探索的突破，可能会迎来通用人工智能的“超级时刻”，或者说属于这个时代的“37手”。那将是真正意义上的人类的“打脸时刻”。

　　李根：对，可能37这个数字会跟42一样载入AI发展的时刻。徐立博士，您分享了很多非常精彩的认知，但我还有一个最后的问题，可能需要您脱下上市公司的董事长、CEO的帽子，戴上您科学家的帽子来回答这个问题。我们现在都要面向AGI，或者是我们都在谈论AGI，那在您心目中，您觉得AGI是什么？它的实现可能有哪几个阶段？我们现在处于它的哪个阶段？

　　徐立：人工智能已经发展了大约70年，至今仍未完全跳出图灵的定义。图灵在1950年提出了一个问题：“机器会不会思考？”在给AI下定义时，图灵并没有给出明确的定义，而是采用了一种判别式的方法：如果无法区分对面是人还是机器，就认为它具有智能，这就是著名的图灵测试。

　　直到今天，AGI的定义逻辑仍然类似：我区分不开它到底是人干的还是机器干的，它就叫AGI。只不过，早期的图灵测试往往针对单一任务，而现在的AGI测试扩展到了更多任务，更广泛的应用。所以，人类在这一过程中依旧将智能的定义局限于与人的比较，有些狭隘。

　　有一篇著名的文章叫《大象不会下象棋》，这是1990年由MIT的一些研究者写的。他们“嘲笑”人工智能研究过于模拟人类，比如研究下棋这种特定能力。大象很聪明，也有智能，但它不会下象棋——那你研究的究竟是智能本身，还是仅仅研究“下棋”这个具体问题？这表明我们对于智能的定义过于以人类为中心。AGI的定义也显得self-oriented，因为我们始终将人类视为衡量智能的核心标准。

　　然而，未来智能的发展路径未必是线性的，甚至可能与现在的方向完全相反。真正通往广泛智能的路线，很可能不会局限于人类的视角和能力。但这并不妨碍我们利用现有技术推动当下的进步，实现一个百花齐放的时代。

关注同花顺财经（ths518），获取更多机会

0人