2023商汤原创奖“日日新大模型联合产研团队”背后故事
编者按
“日日新”一词出自《礼记·大学》中的“苟日新,日日新,又日新”,意指:如果能做到最好,就要每天坚持做到更好。它展示的是一种革新进取、弃旧图新的姿态。“日日新大模型”寓意“模型迭代速度和处理问题的能力可以日日更新”,以低成本解锁通用人工智能的任务和能力,推动高效率、规模化的AI创新和落地,进而打通商业价值循环,推动人工智能进入工业化发展阶段。
从接到任务到技术突破,再到产品落地,并在发布会初步亮相,并以每周的速度迭代模型能力,一年多时间里,“商汤日日新大模型团队”持续创造新的成绩单,被媒体称为“商汤自己刷新了自己”。目前商量已成为国内首个超越GPT3.5的模型,秒画达到国内领先。“日日新”成为国内首批8家获批上线的大模型,已经在手机、互联网、金融和智能汽车多个领域落地。
本期,我们聚焦2023年度“商汤原创奖”——“日日新大模型联合产研团队”背后的故事。期望这些内容能为大家指明前行的方向,传递积极的正能量,共同迎接AGI时代的机遇与挑战。
这是定义市场风向的大目标
风起于青苹之末。时光回溯到2022年6月,ChatGPT在国外已初露锋芒,而在国内,能够与之匹敌的大模型平台却寥寥无几。“我们接到一个任务,需要一个月内完成日日新1.0的研发,要在最短时间协调多个跨部门团队完成高效的沟通,达成对目标的共识,并全力以赴以最快的节奏冲刺研发。压力是巨大的。”项目统筹人,运营管理路少卿回顾说。
于是,一个包含了研究院、大模型、大装置等组织,涵盖研究、工程和产品等多个领域的庞大团队迅速组建起来。对齐了目标,大家便开始了日夜兼程的封闭研发。
除了跨部门沟通协调带来的困难,对研发人员来说,做大模型应用,仅仅单从研究上有所突破,并不能直接被用户感知。所有AI领域的公司都在致力于一件事——“找到实现技术价值的应用场景”。因为大模型技术本身发展非常迅速,包括模型的核心算法、功能和技术架构都处于快速迭代的过程。
大家都是摸着石头过河,一边持续以耐心投入大模型的技术研发,另一边希望将商汤大模型的技术赋能给更多的B端客户,寻找“开花结果”的应用场景,提供给客户持续且稳定的服务。
因为有共同的愿景凝聚,这个跨部门的庞大团队建立默契也是飞速的。“虽然还不足以梳理出一个SOP流程,但几回合下来渐入佳境,基本形成了一个产品、研究和工程的深度流水线:产品同学提前规划产品形态;研发同学数据准备、验证思路;工程同学负责必要组件的预研,编写测例……运行得非常丝滑。”团队Copilot张涛回忆。
大家看待这件事的态度非常一致。“作为在技术领域最前沿的团队,我们要做的是引领市场。这就意味着,我们需要去定义市场的风向。”秒画团队的刘宇非常坚定地说。
“百模大战”:将硬骨头逐一啃下来
“如何在有限的时间里把系统从0-1搭建出来。而且让这个系统通过训练,从可用的东西变成一个好用稳定的东西,是团队成员需要共同面对的挑战。”研究院龚睿昊这样比喻初期的目标。
在挑战面前,商汤人从来都拥有冷静的耐心和迎难而上的学习能力。大家站在前人的肩膀上,深入调研和分析业界积累的研究成果,并以足够多的冗余和备份,保障系统的可靠性。在这样的备战状态下,每一个成员都锻炼了快速应对变化和主动学习的能力。
探索中,大家发现了一些可以“啃下来”的骨头。研究院詹明捷分享这样一个例子:“去年我们发现了大模型本身是存在缺陷的,在复杂的场景中它没有办法很好捕捉到用户需求,需要用户自己追加。于是,我们做了改进,让大模型学会自我反思,见识复杂的情况,甚至接受错误的信息后,自己知道怎么去解决。一个大模型没有办法解决的问题,我们把多个大模型组合起来,协同完成复杂的指令,从而产生了多模态。比如拟人对话,初期感觉不像人,我们会做一些调整,让其察言观色用户的状态,配合用户情绪调整交互方式。”
“紧张、刺激,虽然充满了未知挑战,但一呼百应、相互补位的氛围还是很感动的。经验资深的同事沉稳地冲在前面,刚入职的年轻同学则以初生牛犊精神激情满满地主动迎战。”龚睿昊回忆当时挑灯夜战封闭式研发的经历,“模型搭建需要算法能力和系统能力等多方协同,所以在迭代验证阶段把相关同事都拉进一个群。大家都是年纪相仿却没见过面的‘网友’,正巧好几人名字里都带‘豪’字,有人遇到问题喊了一声‘阿豪’,然后一群‘阿豪’跳出来争相恐后回答问题,有趣又温暖。”
在大家的共同努力下,系统的稳定性和可靠性逐步上升。从艰辛的“百模大战”中脱颖而出的大模型平台1.0终于新鲜出炉。然而从“可用”成为“好用且扩展”也并非易事,落地于场景化之路同样道阻且长。大家积极地扎根于不同行业场景中,奋力摸透每一个行业的“专属命题”。
“这当中也在不断试错,不断碰钉子,不断总结教训爬起来,继续攻坚。”格物团队产品负责人李宇飞举例,“我们跑到各个领域和有三维重建需求的客户谈合作,比如和动画出品公司聊影视渲染,和博物馆谈数字化文物重建,最后还和知名珠宝厂商谈成了黄金饰品三维重建的合作。”
再以金融行业为例,金融数据对安全和合规风控的要求极高,且传统的大语言模型直接来提问金融问题是非常泛化的,团队和客户及合作伙伴投入大量时间研究行业属性的壁垒,一起打磨了金融垂直领域模型,通过外挂的API知识库,可以直接让系统回答用户对于银行的细节问题。“团队正在聚焦产品的私有化部署,在24年做出更多金融属性的定制化产品。”金融团队Joyce讲到。
让“酒香”飘出“深巷”
2023年4月10日,商汤技术交流日上,“日日新”大模型体系惊艳亮相。其中包含由AI大装置提供充足的算力支持,包含1800亿参数的中文语言大模型应用平台“商量”,以及面向编程领域的商量·AI代码助手和面向医疗领域的商量·大医。基于“日日新”大模型体系,还展示了四款生成式AI应用——秒画、如影、琼宇、格物。媒体这样评价——“完善的大模型体系将助力商汤进一步迈向通往AGI的道路上。”
对团队来说,发布会的准备无疑一场“大考”,所有的产品和技术需要在最短时间内训练出最完美的呈现,大家都卯足了劲全力冲刺。“以虚拟主播为例,因为各大平台有不同程度的规范,我们几乎尝试了所有的主流直播平台,依托于几年来在3D视频技术上的积累,累计演练直播了3000多个小时。最终在发布会上,成功连续直播了24小时,这是之前是不可能完成的任务。”虚拟主播负责人曹倩回忆起当时的场景依然记忆犹新,“这一刻是自然而然发生的,没有鲜花掌声,但大家都很激动。”
行百里者半九十。发布会“大考”不仅仅是起点,更是一场回归初心,搭建虚拟与现实桥梁的漫长征途。一个性能强大的大模型,训练数据不仅规模要大,质量更要高;而且大模型的价值观和安全性也是依赖于此。训练大模型的过程中,需要不断试错、不断重复,甚至从头再来,毫无捷径可走。
同时,切入真实人类生活,创造有社会价值、有温度的AI产品,是团队持续需要攻克的课题。大医团队的申田分享:“病例书写的繁琐、用药咨询的迷茫、检查报告解读的艰涩,都是驱动我们去做医疗产品的决心。收到用户的积极反馈,这是我们最欣慰的时刻。”
曾为杭州亚运会提供了场馆群场景NeRF模型高质量重建支持的“琼宇”,期待更多的机会实现逼真的自由视角漫游,通过原创技术,让每一个观众都成为探索者,感受体育精神的魅力。
负责云平台运营服务的李建,在访谈中举了贴切的比喻:“原本我们觉得酒香不怕巷子深,但大模型是一个需要探索创新和工程转换的普惠AI技术。2023年,我们迈出了大模型应用的第一步。2024年,希望通过日日新平台的‘酒香’,将大模型技术带出深巷子,让更多的人了解和使用这个技术。”
open AI并非不可逾越
在2024年春节之际,OpenAI的首款文生视频模型——Sora的发布,无疑为全球科技界投下了一颗重磅炸弹。“这款模型预示着视频生成技术无疑会成为2024年的爆点。我们去年做虚拟人直播,去年年底做短视频生成,今年也将发挥在3D技术方面的积累,利用3D技术的可控性、可编辑性、可交互性,积极拥抱视频生成大模型的挑战,探索属于自己的技术产品和商业化道路。”研究院杨磊以当下大热的Sora举例,对未来充满了信心。
此前,联合团队已经创造出OpenAI并非不可逾越的成绩证明:首先,成功地训练出了性能超越OpenAI的embedding模型;其次,在营销项目知识库测试中,单轮问答性能也超越了OpenAI。更值得一提的是,24年2月,商汤日日新大模型SenseNova 4.0的正式发布,不仅多项任务性能比肩GPT-4,同时还还领先推出全球首个支持不同模态下实现工具调用的Assistants API,伴随新版模型同时发布。
这一个个闪光点让大家有理由坚信理想照进现实的底气。当然,团队成员都清晰地明白:今日之新,明日之常。在日新月异、竞争激烈的人工智能浪潮中,回望三个月前的成果犹如博物馆列品一样陈旧。唯一要做的就是争分夺秒、全力以赴的奔跑。
“相信在2024年,我们一定可以打造出国民级别的超级应用。”团队一位小伙伴在采访结束时语气坚定地说出自己的心声。
写在最后
从商汤日日新SenseNova 1.0到4.0,步履未停,未来可期。我们一同见证了过去生成式人工智能的大爆发,也在商汤迈入第十个年头之际,乘着AI创新的新范式,勇于争先,向前出发。
这条路方兴未艾,艰辛却充满期待。
也许,时间会给出奔跑者最好的答案。