2024/04/19 12:06

港股IPO招股异常火爆，唯一盈利的「AIGC第一股」是怎么炼成的？

4 月 16-19 日，AI 公司「出门问问」在港交所招股。

据悉，出门问问的港股打新持续火爆，首日发售超额认购超 8 倍，目前已近 30 倍覆盖。另招股首日，国际配售部分已超额，其中国际及中资意见领袖型机构均积极下单参与。

除了 AIGC 风口之上的赛道火爆，在二级市场，更有分析师将出门问问定位为「唯一盈利的 AIGC」股。目前，热炒一年多的生成式 AI 浪潮在二级市场并没有太多标的。因此，出门问问的上市对二级市场来说是一个很好的补充，市场本身表现出了一定的热情。

从招股书中看，出门问问的商业模式十分清晰，来自 AI 软件收入持续扩张，并且已于 2022 年实现盈利，打破了二级市场对 AI 标的盈利遥遥无期的顾虑。

24 日，出门问问将正式以 “2438” 的股票代码在港交所主板挂牌上市，成为「AIGC 第一股」。

从初创至今的十二年，出门问问已是国内人工智能领域元老级的公司。2012 年，出门问问创始人李志飞从谷歌研究院离职，回国以语音交互方向开始创业，是国内最早一批的人工智能创业者。

2023 年初，由 ChatGPT 点燃的生成式人工智能浪潮下，由于李志飞本人自然语言处理专家的背景以及出门问问在语音交互与生成式 AI 的积累和提前布局，李志飞成为最早掀起中国大模型热潮的创业引领者和专家。

从 AI 语音起步到现在的 AIGC 大模型，从深度学习革命的第一波浪潮到生成式人工智能的大模型浪潮，出门问问在十二年的创业过程中实现了周期穿越，走出了一条属于自己的技术创新和商业化之路。

2022 年已实现盈利，AIGC 业务复合年增长率超 300%

招股书中，出门问问定位为一家以生成式 AI 与语音交互技术为核心业务的 AI 公司。目前，出门问问共有两条主要业务线：AI 软件解决方案与智能设备。

AI 软件方案方面，针对 C 端内容创作者推出 AIGC 全栈解决方案，包括 AI 配音助手 “魔音工坊” 及海外版 “DupDub”、提供虚拟直播的 AI 数字人 “奇妙元”，以及短视频 AI 生成平台 “元创岛”。

针对企业端，出门问问为汽车、金融、TMT 及其他行业量身定制 AI 软件解决方案 “奇妙问”，提供 AI 语音交互解决方案，用于车载、AI 反欺诈，以及智能客服等场景。

自 2020 年以来，出门问问在全球拥有超过 1000 万名 AIGC 解决方案用户，推出 AIGC 解决方案以来的 AIGC 付费用户超 86.5 万名，已产生 100 多万笔付款。

财务方面，目前出门问问已连续两年实现盈利。2021 年 - 2023 年，公司的营收分别为 3.98 亿元、5 亿元、5.07 亿元；毛利率分别为 37.5%、67.2%、64.3%；经调整净利润分别为 - 7344 万元、1.09 亿元、1754 万元。

值得注意的是，出门问问来自 AI 软件的收入占比在近两年持续扩大，并且在 2023 年超过此前出门问问的第一大营收 AIOT，成为出门问问的支柱产业。

具体数据显示，出门问问 AI 软件收入从 2021 年的 0.60 亿元增长到 2023 年的 3.43 亿元，年复合增长率 140%，对应收入占比从 2021 年的 15% 上升到 2023 年的 67.7%。

另外，招股书显示，该业务线营收的大部分扩张主要是由于 AIGC 解决方案的付费用户数量增加，导致 AIGC 解决方案的收入增加。其中，公司从 AIGC 解决方案获得的收入增速迅猛，2021 年至 2023 年分别为 682.2 万元、3985.7 万元和 1.18 亿元，复合年增长率超 300%。

2022 年及 2023 年，出门问问毛利及毛利率亦有所改善，毛利润分别为人民币 1.492 亿元、3.362 亿元、3.261 亿元，近三年毛利率分别为 37.5%、67.2%、64.3%。

产模结合，构建独特的增长飞轮

整体上看，出门问问的商业模型包含三层。

在底层，利用此前的积累，构建自己的大模型底座。2020 年，出门问问推出自主研发的通用大模型 “UCLAI”，该模型后于 2023 年升级为多模态大模型「序列猴子」。「序列猴子」以语言为核心的能力体系涵盖 “知识、对话、数学、代码、思维链、规划” 六个维度。基于这个大模型底座，出门问问以 AI CoPilot 的产品形式面向企业和个人提供产品解决方案，主要服务内容创作者与中小企业。

这个商业模型不同于主打模型和主打应用的两条路径，出门问问选择在模型和产品两端共同发力。出门问问创始人李志飞将这种模式定义为 “产模结合”——「产」指 AI 产品，「模」指 AI 大模型，这不仅仅是文本大模型 LLM，而更是大一统的多模态大模型（LUM：Large Unified Model）。

「产模结合」，即产品和模型一体化，如果一家公司既有产品、又有模型，那么这家公司就更有机会形成数据飞轮，具备更强的核心竞争力。

“大模型像个吸金黑洞，国内的投资环境也不乐观，多数创业公司如果没有自己产品的造血功能，想依赖一轮接一轮的融资，是不可持续的。应用产品测的反馈，无论是 bug report，还是场景数据，对于模型的闭环健康发展以及建立场景应用的护城河都是极为重要的。” 李志飞表示。

有着实际数据指标的「产品」如同灯塔，为航行中的游轮指明方向；「多模态大模型」则像游轮的发动机，为不同模态的多艘游轮提供源源不断的动力。

李志飞认为，产模结合的路径对效率的提升毋庸置疑：

首先，拥有自己的模型，产品问题可以得到快速响应。很多公司的产品面向海量用户，难免遇到紧急的需求或者问题。在此情况下，有自家模型的公司可以快速调整底层逻辑或数据，做到第一时间解决问题，而调用其他大模型的公司，难以与之匹敌。

其次，自己的模型让成本更可控。在当下主流的 Maas 收费模式下，比起那些只能依靠调用外部大模型 API 来做产品的公司，有自己模型的公司可以多种方式降低产品开发和运营的成本，无论是模型的继续训练、微调、RLHF、In-Context-Leaning 的模版设计，还是为了应对实时推理环境下高并发的需要对模型所做的 “蒸馏”。

第三，产模结合的公司可以做到针对用户需求进行可配置能力的开发。例如，针对用户的数据安全 concerns，可以快速实现特定场景下的可配置模型的开发。这包括智能体外挂、场景配置以及灵活部署（例如让数字员工适配不同的大屏硬件）。这样的灵活性带来了效率的提升和品质的保障，也为产品的快速迭代（例如，至少常规保证周迭代）成为可能。

当然，产模结合最大的魅力，更在于它能够实现更彻底的端到端训练，进而形成「数据飞轮」效应，最终实现让数据自动驱动模型和产品的更新迭代。

传统 AI 产品的一般采用过程性的管式（pipeline）系统架构，模块层层依赖、串联，Input 与 output 两端之间有很多中间结果，模块化的链路很长。

这种 AI 应用有其固有的优势，包括实现难度可控，过程透明，定点纠错，开发人员对此套路也驾轻就熟。

然而大模型新范式追求的是端到端数据驱动，以模型训练替代 pipeline 的过程性，这是实现真正意义上的数据飞轮闭环的必要条件。理想的大模型产品在产品架构定型上线以后，产品的迭代提升可以随着流程化的回流数据自动训练增强。长远一点看，新范式下端到端训练的系统对于传统的管式系统具有碾压性的威胁。

端到端方向对产模分离的架构构成了巨大的挑战，而产模结合则为此提供了可能性。一方面，产品矩阵源源不断地收集经同意的用户反馈 “埋点” 数据，反哺一体化大模型的人类对齐训练，模型的数据质量会随之提升；另一方面，不断迭代的模型可赋能产品能力的提升和体验的优化，越来越对齐用户期望和需求的产品会吸引更大的用户群，带来更多的数据回流。以此构筑的数据壁垒和用户壁垒，才不至于被通用大模型的升级换代而碾压。

远见与特立独行，驱动十二年周期穿越

距离 2012 年李志飞从谷歌回国创业，已经过去了十二年。十二年之中，人工智能领域历经了深度学习和大模型带来的两波大浪潮，经历过技术突破吸引全球关注的高光时刻，也经历过广受质疑，被认为无法落地、巨额亏损的负面声音。

出门问问的创业历程完整经历过上一波周期。2009 年，深度学习系统被应用在语音识别领域后，语音识别技术的精度一举被提高到 90% 以上。语音识别助手开始在产业落地，两年后，2011 年带有 Siri 功能的 iPhone 4S 正式面向外部推出，引爆全球对 AI 语音助手的关注，AI 语音创业赛道正式开启。

2012 年，李志飞从谷歌离职，抱着做出 “下一代人机交互” 的目标使命正式开始回国创业。同年，国内 AI 语音赛道另一家初创云知声成立，思必驰也开始正式大量投入 AI 语音技术，上市公司科大讯飞 2012-2013 年营收增速超过 60%。国内 AI 语音赛道快速繁荣了起来。

2013 年，李志飞推出第一代产品中文语音搜索服务，并建立了微信语音搜索服务平台。但很快发现，近场语音交互的场景限制以及人工智能技术不成熟带来的效果不佳，让 ToC 软件服务陷入困境。出门问问在商业化上开始遇到瓶颈。

李志飞做出了一个重要决策 —— 转型做智能硬件，提出让 AI 附体于智能可穿戴设备的「软硬结合」之路。这个决策完全改变了出门问问的商业化方向，让出门问问从一个单纯的软件技术服务商，变成了一个覆盖算法、硬件、供应链、销售、品牌、电商的全栈式软硬结合公司。

2014 年出门问问推出智能手表操作系统 Ticwear，翌年，智能手表 TicWatch 问世，并一举打响海外市场，成为倍受全球消费者爱戴的品牌。2016 年，出门问问进军车载市场，推出智能后视镜问问魔镜 Ticmirror 和后装 ADAS 产品 Ticeye 等。

李志飞的这种自我造血的意识让出门问问在早几年的行业低谷中安然无恙，并且持续地厚积薄发，为之后的技术爆发做准备。

2022 年末，ChatGPT 的横空出世引爆了全球，生成式 AI 浪潮席卷而来。相比上一波监督式深度学习浪潮，现在的 Transformer 大模型通过自监督学习，可以在海量无标注数据上预训练，从而获得强大的语义理解和知识泛化能力。AI 的通用性更加凸显，通用人工智能（AGI）仿佛不再遥不可及。

在生成式 AI 的浪潮下，出门问问重新回到大众视野，成为中国大模型领域的先行者和布道者。2023 年初，许多人将李志飞视为 “中国版 OpenAI” 最具实力的人选。

然而，大模型时代对算力和数据的无止境的需求，让创业者面临二元抉择：要么专注模型，要么聚焦应用。而李志飞开启的 “产模结合” 之路，为行业指明了一种全新的可能性。这种商业哲学折射了出门问问在上一波 AI 周期下衍生的谨慎，也体现了出门问问对大模型核心技术不懈追求的决心。

回顾出门问问的发展历程，我们可以看到，除了这家公司的前瞻性和远见，几乎每一次都稳居浪潮之前，还有在面临重重挑战时展现出了非凡的韧性。

当人机交互服务陷入 “人工智障” 的时代局限的时候，他们大胆地转型，开始独创探索 “软硬结合” 的道路。当华为、小米等巨头进军智能手表市场，他们迅速调整策略，发掘出车载语音这一新的市场蓝海。当其他公司陷入高级人力外包的 “项目制” 困局时，又率先开启生成式 AI 的探索，当纯粹的大模型之路因资源门槛过高而难以为继时，出门问问灵活地转向 “产模结合” 的 AIGC 创新模式。

AI 的商业化之路有多难？创业公司要精于出题，也要在每一个困局解题面前，展示出坚韧不拔的意志和灵活多变的应对能力，在逆境中寻找新的生机，正是出门问问穿越周期迎来 AIGC 爆发的底蕴之一。

在国内外科技发展史中，所有存活下来并且成功从小变大的公司都有这样共同的特性。无论是苹果、谷歌、微软、亚马逊，还是腾讯、字节、阿里、美团、小红书。创业难的是如何在起伏变化的技术和市场发展中，不断拓宽自己的边界，持续创新、试错，最终找到属于自己的道路。

在当今的投资和创业环境中，创业公司要赢得信任，仅仅依靠 “宏大愿景” 已经不够了。面对挑战和挫折时表现出的适应力和恢复力，即所谓的 "逆商"，变得日益关键。在这轮人工智能浪潮的冲击下，技术边界的突破变得更加频繁，爆炸式的技术创新在带来新机遇的同时，也导致了行业格局的剧烈动荡。

对于一个在商业周期中经受过生死考验和磨砺的公司而言，其所拥有的诸多品质尤为宝贵：灵活的组织架构、高效的决策机制、敏锐的风险意识、超凡的环境适应能力。这样的公司才能在瞬息万变的市场环境中，保持竞争力和生命力。

十二年磨一剑，李志飞用自己的商业哲学平衡了技术创新与市场需求，他所带领的出门问问穿越了深度学习与生成式 AI 的两波浪潮，经历过风口浪尖、也曾陷入行业低谷，现在以一种平稳的姿态驶向了新的里程碑。

产业AIGC出门问问

相关技术

机器学习物体识别深度学习人脸识别图像分割

科大讯飞机构

科大讯飞股份有限公司成立于1999年，是亚太地区知名的智能语音和人工智能上市企业。自成立以来，长期从事语音及语言、自然语言理解、机器学习推理及自主学习等核心技术研究并保持了国际前沿技术水平；积极推动人工智能产品研发和行业应用落地，致力让机器“能听会说，能理解会思考”，用人工智能建设美好世界。2008年，公司在深圳证券交易所挂牌上市。

http://www.iflytek.com

相关技术

语音合成自然语言处理语音处理语音助理语音增强神经语言模型语音识别

出门问问机构

出门问问成立于2012年，是一家以语音交互和软硬结合为核心的人工智能公司，为全球40多个国家和地区的消费者、企业提供人工智能产品和服务。出门问问的使命是定义下一代人机交互，让人和机器的交互更自然。公司自主研发并建立了完整的“端到端”人机交互相关技术栈，包括声音信号处理、热词唤醒、语音识别、自然语言理解、对话管理、垂直搜索、智能推荐、语音合成、知识图谱等，并始终保持国际前沿技术水平。ToC场景推出了以智能手表TicWatch系列和无线耳机TicPods系列为主的可穿戴设备组合，ToB层面已为物联网、金融、电信、健康养老、餐饮、车载等企业级场景提供服务。

https://www.chumenwenwen.com/

相关技术

推荐系统语音识别即时定位与地图构建计算机视觉

思必驰机构

思必驰是国内领先的对话式人工智能平台公司，拥有全链路的智能语音语言技术，自主研发了新一代的人机交互平台（DUI），和人工智能芯片（TH1520）；为车联网、IoT、以及众多行业场景合作伙伴提供自然语言交互解决方案。思必驰拥有上千项知识产权，是国际上极少数拥有自主知识产权、中英文综合语音技术的公司之一；与阿里、腾讯、小米、富士康、OPPO、长虹、顺丰、龙湖地产等企业达成战略合作；旗下人工智能产业基金累计投资20+家生态企业。

http://www.aispeech.com/

相关技术

Embodied AI 世界社群网格

云知声机构

云知声专注于物联网人工智能服务，是一家拥有完全自主知识产权、世界顶尖的智能语音识别、语义理解等技术的高新技术企业，总部位于北京，在上海、深圳、厦门、合肥设有子公司。公司员工500余人，核心研发团队近百人，其中 45% 拥有博士学历，工程师占比78%，拥有雄厚的科研和产业化实战能力。云知声深入探索感知智能、认知智能、通用智能三大方向，在语音、语言、知识计算、大数据分析、人工智能芯片等领域建立了领先的核心技术体系，以此构建了完整的人工智能技术图谱。并率先在国内布局大规模异构并行超算平台 Atlas 和深度学习计算框架 UniFlow ，以领跑行业发展的技术实力，助力 AI 基础设施建设，服务国家 AI 战略。基于“云、端、芯”技术产品体系，提供跨平台、跨场景，融合云端智能和本地智能一体化的 AI 系统解决方案，已在 AI 生活（家居、车载等）和 AI 服务（医疗、教育、政务、金融等）两大核心场景广泛落地。目前合作伙伴数量已超过 2万家，覆盖用户已超过 2亿，日调用量超 4亿次，其中语音云平台覆盖的城市超过 647个，覆盖设备超过 1 亿台。云知声自 2012 年成立以来，发展迅猛，备受人工智能行业及资本市场关注，累积融资数亿美元，并多次创下AI语音领域单轮融资记录。云知声连续两年入选福布斯中国最快科技成长公司 50 强企业，是中国人工智能行业成长最快的创业公司之一。

https://www.unisound.com/

相关技术

AI基础设施 AI芯片技术

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

流数据技术

流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。

来源：百度百科

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

操作系统技术

操作系统（英语：operating system，缩写作 OS）是管理计算机硬件与软件资源的计算机程序，同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

来源：百度百科

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

人机交互技术

人机交互，是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板、或是发电厂的控制室。

来源：维基百科

美团机构

美团的使命是“帮大家吃得更好，生活更好”。作为中国领先的生活服务电子商务平台，公司拥有美团、大众点评、美团外卖、美团打车、摩拜单车等消费者熟知的App，服务涵盖餐饮、外卖、打车、共享单车、酒店旅游、电影、休闲娱乐等200多个品类，业务覆盖全国2800个县区市。

www.meituan.com

腾讯机构

腾讯，1998年11月诞生于中国深圳，是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念，为亿万网民提供优质的互联网综合服务。腾讯的战略目标是“连接一切”，我们长期致力于社交平台与数字内容两大核心业务：一方面通过微信与QQ等社交平台，实现人与人、服务及设备的智慧连接；另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展，通过普及移动支付等技术能力，为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/

相关技术

语音识别

通用人工智能技术

通用人工智能（AGI）是具有一般人类智慧，可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标，也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI（strong AI）或者完全AI（full AI），或称机器具有执行通用智能行为（general intelligent action）的能力。与弱AI（weak AI）相比，强AI可以尝试执行全方位的人类认知能力。

来源：wikipedia

自监督学习技术

一个例子中的内容特别多，而用一个例子做一个任务，就等于把其他的内容浪费了，因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分，用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分，就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」