10月24日,由声网和RTE开发者社区联合主办的RTE2023第九届实时互联网大会在北京举办,声网与众多RTE领域技术专家、产品精英、创业者、开发者一起,共同开启了以“智能·高清”为主题的全新探讨。本届RTE大会将持续2天,开展1场主论坛及20+专场活动,包括RTE领域技术开发、趋势洞见、行业观察、创业投资等多维度内容分享,覆盖了AIGC、出海、数字化转型等时下热门话题。
图片来源于网络,如有侵权,请联系删除
在开场演讲中,声网创始人兼CEO赵斌宣布:“声网在RTE实现广播级4K超高清实时互动体验。”他说,“4K不仅仅只有分辨率一个纬度,光亮强度的动态范围、色彩的真实度、饱和度,以及色彩渐变的细腻程度,都是真正超高清体验里不可或缺的一环。”广播级超高清可以带来更加逼真的视觉效果,高对比度和丰富的色彩表现可以使影像更加生动,细节更加清晰,并以此提升观影体验。
赵斌认为,虚拟人+AIGC所创造的情感和情绪价值或将在未来解决社交供需不平衡的现状,并引领交互对象发生变化。另一层面,随着AIGC能力的进一步加强,越来越多的应用型开发将被AIGC替代,API+AI的形式将大幅提高应用开发效率。
大模型在快速发展,但交互界面仍局限于文字聊天互动方式。赵斌提到,通过过去一年的投入和打磨,声网推出了AIGC-RTC能力模块,可支持与任何大模型平台结合,实现更低延时、更自然、更沉浸的实时语音对话,为企业协作、社交 、直播、游戏等多种场景提供新玩法、新机会。
声网首席科学家、CTO钟声在技术分享中说,“大模型在带来发展机遇的同时,也带来了计算需求快速增长、算力受能源供给力限制、大模型数据资源不够、存储需求增长过快等问题。未来,我们除了要做负责任的AI之外,在端上和边缘上的分布式实时智能将成为价值公平分配的重要技术手段,这也注定会成为一个新的技术发展趋势。
钟声认为,AGI将走进实时互动,实现人人可分身,帮助在应用场景中复制名师、网红,甚至普通人也将通过AI分身丰富体验、缓解时间稀缺的瓶颈。此外,他预测,具备端边实时智能的高清实时互动能力将成新趋势和竞争焦点。
钟声介绍到,实时高清需要许多端上实时AI,在低水平视觉和音频这一需求层面,声网的SDK 4.1.x, 4.2.x版本已经可以支持1080P/4K视频的例如超分、虚拟背景、感知编码、降噪、去回声等底层计算机视觉处理和高音质的计算机听觉处理能力。在高水平视觉和音频层面,声网已经部分实现对物体、声音、场景的理解和重构能力,包括面捕、动捕、情感计算,物体识别和场景重建等,可以大力改善多种应用场景下的用户体验。
【责任编辑:周靖杰】 阅读下一篇:推荐阅读: