巨人网络AI Lab发布多模态{生成新成果,}相关技术将开源_新浪财经_新浪网
廖承宇自慰出精 - 精彩内容每日更新,互动社区畅快交流,欢迎加入交流分享
新浪科技讯 11月27日下午消息,巨人网络AI Lab与清华大学SATLab、西北工业大学联合推出三项音视频领域的多模态生成技术成果,相关研究成果将陆续在GitHub、HuggingFace等平台开源。 本次发布的三项研究成果——音乐驱动的视频生成模型YingVideo-MV、零样本歌声转换模型YingMusic-SVC与歌声合成模型YingMusic-Singer,展现了团队在音视频多模态生成技术上的最新成果。 据悉,YingVideo-MV模型实现“一段音乐加一张人物图像”即可生成一个音乐视频片段。该模型能够对音乐进行节奏、情绪与内容结构的多模态分析,从而使镜头运动与音乐的高度同步,具备推、拉、摇、移等镜头语言,并通过长时序一致性机制,有效缓解了长视频中常见的人物“畸变”与“跳帧”现象。 在音频领域,YingMusic-SVC主打“真实歌曲可用”的零样本歌声转换能力。它通过针对真实音乐场景的全面优化,有效抑制了伴奏、和声与混响对歌声转换的干扰,显著降低了破音与高音失真的风险,为高质量的音乐再创作提供了稳定的技术支撑。 而YingMusic-Singer歌声合成模型则支持在给定旋律下输入任意歌词,即可生成发音清晰、旋律稳定的自然歌声。该模型的主要特点在于能够灵活适应不同长度的歌词,并支持零样本音色克隆,提升了AI演唱在创作过程中的灵活度与实用性,降低音乐创作的门槛。 .appendQr_wrap{border:1px solid #E6E6E6;padding:8px;} .appendQr_normal{float:left;} .appendQr_normal img{width:100px;} .appendQr_normal_txt{float:left;font-size:20px;line-height:100px;padding-left:20px;color:#333;} 海量资讯、精准解读,尽在新浪财经APP 责任编辑:宋雅芳
廖承宇自慰出精 - 精彩内容每日更新,互动社区畅快交流,欢迎加入交流分享
分享让更多人看到 




9415 




第一时间为您推送权威资讯
报道全球 传播中国
关注人民网出品,传播正能量