机器之心原创
编辑:杜伟
「苟日新,日日新,又日新。」——《礼记・大学》。
这次,商汤给自己的语言大模型取了一个非常接地气的名字 ——「商量」。
4 月 10 日,在商汤技术交流日上,商汤科技正式宣布推出自己的全新大模型体系「日日新 SenseNova」。日日新一词出自于《礼记・大学》,汤之盘铭曰「苟日新,日日新,又日新。」取此名意在使大模型日日更新、能力日日增强。
在活动中,商汤现场演示了日日新大模型体系在语言处理、图片生成、自动化数据标注等各方面的能力。商汤表示,作为面向 B 端的技术,目前日日新大模型体系开放面向政企客户的 API 接口和服务,客户可登录官网(
https://techday.sensetime.com/list)申请。
在「日日新 SenseNova」大模型体系下,商汤发布了最新研发的语言大模型「商量 SenseChat」。这也是继百度文心一言、阿里通义千问之后,又一国内大厂的类 ChatGPT 产品。
此外,商汤还展示了该大模型体系下的「秒画 SenseMirage」AI 内容创作社区平台、「如影 SenseAvatar」AI 数字人视频生成平台和「琼宇 SenseSpace 和格物 SenseThings」3D 内容生成平台。商汤大模型赋能 AIGC 产品和应用在这些平台上得到了淋漓尽致地展现。
商汤版 ChatGPT 究竟表现如何?机器之心在 Demo 展示之外还亲自体验了一把,从语言处理、中英互译、数学等多方面验证它的能力。
「商量」第一手体验,玩转中文对话
据商汤介绍,「商量」的背后是千亿级自然语言处理模型,它在大量数据训练的基础上充分考虑了中文语境,能够更好地理解和处理中文文本。
让「商量」做个简单的自我介绍。
首先值得一提的是,「商量」具备了出色的多轮对话理解和生成,能够进行流畅的人机共同创作。下面一人一句共同创作了关于「小猫咪小花钓鱼的故事」。
接着让「商量」写一首关于上海临港的诗。
对于中英互译,「商量」轻松应对。先将「今天我来到上海临港参加一场科技盛会,非常高兴,学到了很多东西」翻译成英文。对比谷歌翻译的结果,只有英文选词和标点符号上的差异。
再将「the woods are lovely, dark and deep, but I have promises to keep, and miles to go before I sleep」翻译成中文。同样对比谷歌翻译,「商量」在遣词造句上明显更胜一筹。
对于著名的「林黛玉倒拔垂杨柳」梗,「商量」也能 get 到。
深奥的量子力学知识也搞得定,「商量」轻松回答出了「研究量子力学要学习的五个要点」
哲学问题也不在话下,「商量」列出了庄子无为而治思想与柏拉图哲人王理论的详细对比分析。
最后对于经典的「女朋友与妈妈同时落水,先救谁」的问题,「商量」给出了「有板有眼」的回答。
此类体验例子还有很多,体验下来的最大感受是:「商量」在中文文本上表现出了很强的理解和生成能力,称得上高效聊天助手和创作小能手。
在数学方面,经典鸡兔同笼问题难倒过很多 AI 对话大模型。不过对于「商量」来说,小菜一碟,列方程步骤与结果都正确。
此外「商量」还能指出一些事实性错误,如下示例中「二战期间不可能用到 iPhone。」
唯一遗憾的是,「商量」目前没有提供面向 C 端的体验接口,只能期待未来的开放了。
不止于对话,「商量」及背后大模型能做更多
除了在通用对话领域的能力,商汤还展示了其利用「商量」背后的大模型开发的几项创新应用。
首先是 PDF 文件阅读助手,它具备了超长文本的理解能力,能够轻松从复杂文档中提取和概括信息。如下输入完整的《中华人民共和国专利法》,当你提问时,这个助手能够根据你的问题快速找出对应的条款规定并总结式地生成答案。这么看来,真是普通人的好帮手。
其次是健康咨询助手,通过导诊、问诊、健康咨询、辅助决策等多场景多轮会话,为用户提供个性化的医疗建议。目前已在问诊分诊、医疗知识科普、疾病鉴别诊断等领域表现出色,未来将继续拓展在药物治疗、手术方案等方面的问诊能力,帮助医生进一步提升诊疗效率。
最后是面向开发者的 AI 代码助手,它提供了代码补全、注释生成代码、测试代码生成、代码翻译、代码修正、代码重构、复杂度分析等多样化功能,使开发者更高效地编写和调试代码,减少枯燥的重复性工作。
根据商汤内部测试,应用 AI 代码助手后,代码编写效率可以提升 62%,Humaneval 测试集一次通过率达到了 40.2%。目前,AI 代码助手同时支持中英文及多种编程语言,并且可以快速适应开发者的个性化编码风格。
日日新大模型体系带来更强的 AI 内容生成
大模型赋能 AIGC 是目前主流的 AI 发展趋势之一,让每个人切身体验大模型的能力。商汤的「秒画 SenseMirage」、「如影 SenseAvatar」以及「琼宇 SenseSpace 和格物 SenseThings」的 AIGC 生成效果让现场观众直呼震撼。
先来看文生图平台「秒画 SenseMirage」,它基于商汤自研的超 10 亿参数的文生图生成大模型,支持二次元和三次元等多种生成风格以及 6k 高清图的生成。
除了生成风格多变之外,生成速度也很快,2 秒就能生成一张 512k 分辨率的图片。如下为两个文生图示例,图左「丹顶鹤、层山叠嶂、翱翔、水中、站立、不同颜色」和图右「池塘、白色荷花、荷叶、倒影、树木、黄叶」。
我们在现场也输入了两组提示词,一组是「铁路旁、夕阳下、背包旅客、摄影风格」,生成图片在内容和意境上都非常契合。
另一组是「一个可爱的小女孩、一间木头制作的房子、清晨、阳光、丁达尔效应和吉卜力风格」,同样效果很好。
你输入的提示词越细,生成的图片在内容和意境上就越契合,越不会跑偏。
再来看 AI 数字人生成平台「如影 SenseAvatar」,仅仅需一段 5 分钟的真人视频素材,就可以生成声音及动作自然、口型准确、多语种精通的数字人分身。告别僵硬的数字人形象变得更加简单,任何场景下都可以制作。如果不告诉你下面视频中的是数字人,你能猜出来吗?
该平台目前支持百余种语言。通过该平台的文字 AI 生成,用户只需输入视频创作的粗略想法就可以自动产生相应的视频文案。创作者可以利用平台快速打造各种短视频、直播等营销内容,教育培训、企业宣传、娱乐文化等领域也能找到相应的视频解决方案。
最后是 3D 内容生成平台「琼宇 SenseSpace」和「格物 SenseThings」,两者基于神经辐射场技术(NeRF),前者用于场景生成、复刻和还原真实空间,后者用于物体的 3D 内容生成。两者高效低成本地生成大规模 3D 场景和精细化的物件,在元宇宙、虚实融合应用中大显身手。
琼宇具备城市级大尺度的空间重建生成能力,能够高效还原城市场景细节。
格物能够实现各品类物体超细节的 3D 复刻还原,如下动图所示。
一次全部发布,发布即上线,商汤把自己「日日新 SenseNova」大模型体系下的全部能力进行了充分展示,不论是讲故事、代码编程、法律咨询、直播带货、三维建模,每项能力都有了足够的竞争力。
看起来,商汤已经走在了 AI 大模型应用的前列。
商汤通用人工智能(AGI)离不开大模型、大算力、大数据
自谷歌 BERT 和 OpenAI GPT 系列模型以来,大模型已经成为 AI 开发新范式。国内外科技大厂纷纷入局大模型,希望借此增强自身 AI 技术通用性,实现 AI 应用落地。商汤亦不例外,早在 2018 年就开始了大模型的研发,积累了超过 5 年的丰富技术和经验。
2019 年,商汤具备了千卡并行系统能力,使用上千张 GPU 卡进行单任务训练,推出了 10 亿参数量的视觉模型,实现了当时业界 SOTA 算法效果。2022 年发布了 320 亿参数的超大视觉大模型,成为全球最大通用视觉模型。同年还发布了 10 亿参数的 AIGC 模型,支持文生图和图生图各类功能。今年 3 月,商汤开源了 30 亿参数的多模态多任务通用大模型书生(INTERN)2.5。
商汤在 CV、NLP、AIGC 等领域的 AI 大模型汇聚成了如今「日日新 SenseNova」大模型体系,并促使其训练更强大的多模态大模型。同时将其 OpenDILab 下的决策智能模型融入并进一步丰富多模态大模型,最终构建通用人工智能大模型体系,未来将全方位覆盖视觉感知、语言理解、内容生成和推理决策四大板块。
我们知道,算力、算法和数据是 AI 发展三大要素。商汤的通用人工智能之路要解决算力问题,对此其前瞻性地打造了人工智能基础设施 SenseCore AI 大装置,其中商汤人工智能计算中心(AIDC)是重要的算力基座,为大模型研发提供充足算力。
AIDC 于 2020 年 7 月开工建设,投资 56 亿,并正式于 2022 年 1 月在上海启动运营,当时设计的峰值算力高达 3740 Petaflops,成为亚洲最大的人工智能计算中心之一。如今峰值算力已经超过 5000 Petaflops,支持 20 个千亿参数超大模型同时训练,并支持最大 4000 卡并行单任务训练,实现连续 7 天以上不间断稳定训练。
算力之外,SenseCore 商汤 AI 大装置还提供了一系列的大模型即服务(Model-as-a-Service),包括自动化数据标注、大模型推理部署、大模型并行训练、大模型增量训练以及致力于提升开发者效率的开源模型和 AI 开发工具。
可以说,整合了计算基础设施、深度学习平台和模型层的 SenseCore 商汤 AI 大装置成为了业内稀缺的大模型专用基础设施,并通过它使商汤成为大模型和 AGI 时代基础设施领导者。
至此,商汤利用大模型 + 大算力推进 AGI 的发展战略已经非常明显。在活动中,商汤提出了 AI 大模型时代算力、算法和数据三要素的全新公式 —— 大模型参数量与处理数据量的乘积,就是所需要的计算量。
一方面,近年来大模型参数量指数级增长,数据量也随多模态引入大规模增加,二者必然导致算力需求剧增。另一方面,就数据自身属性而言,高质量自然语言数据逐渐稀缺,而视觉数据在数量、质量、信息容量等方面较自然语言有多种优势,能更好地理解世界。因此,商汤将集成语言、视觉等信息和能力的多模态大模型视为通往 AGI 的重要基础。
从五年前研发大模型伊始,到如今日日新大模型体系初成,商汤将继续依托自身的算力优势以及源于产业实践的丰富高质量视觉信息和技术积累,发展更强大的多模态大模型,为最终实现 AGI 打好坚实的基础。