原标题:英伟达携全新AI模型“颠覆”音频界:可创作音乐、修改人声
财联社11月26日讯(编辑 黄君芝)据报道,英伟达(Nvidia)开发了一种新型人工智能(AI)模型,可以创造声音效果,改变人的发音方式,并使用自然语言提示生成音乐。
这个模型被命名为Fugatto,即Foundational Generative Audio Transformer Opus 1,是一个研究项目。英伟达表示,它不会宣布任何发布这项技术的计划,但它可能会对从音乐、娱乐到翻译服务等行业产生广泛的影响。
英伟达应用深度学习研究副总裁Bryan Catanzaro在接受采访时表示:“Fugatto最令人兴奋的地方在于,它拥有一个模型,你可以要求它以某种方式发出声音,这真的打开了你对它应用范围的想象。”
他进一步解释说,市场上的其他模型,有些可以合成语音,有些可以为音乐添加音效,但Fugatto全部都可以做到。Catanzaro说,可以将其视为视频和图像生成模型(如Stability AI的Stable Video Diffusion或OpenAI的Sora)的一种补充。
“这里最基本的改进是……我们能够使用语言合成音频,我认为,这为人们可以用来创造惊人音频的工具开辟了新的前景。”他补充说。
根据英伟达的说法,Fugatto是第一个具有新兴特性的基础模型,这意味着它能够混合经过训练的元素,并遵循“自由形式的指令”。
具体而言,该模型可以通过标准的文字提示生成音频,也可以处理您上传的音频文件。所以,如果你有一个人说话的文件,你可以把那个人的话翻译成另一种语言,同时让它听起来像他的声音。你也可以选择一个简单的曲调,让它听起来像管弦乐表演,或者在音乐中添加不同的节拍。
此外,你也可以上传一个文档,让模型用你喜欢的任何声音朗读。更重要的是,你可以告诉模型发出带有情感分量的声音。
不过,Catanzaro也补充说,这种模型并不总是完美的。而且,就像生成图像和视频的模型一样,Fugatto也会催生艺术家、音响工程师和相关领域人员的担忧。但Catanzaro指出,他的本意是希望这项技术能帮助音乐家。
“我希望这是艺术家探索的新工具。”“我认为音频一直是一个富有成效的探索领域。你知道,当我们获得新的音频工具时,有时我们会获得新的音乐形式。”他说。
责任编辑:于健 SF069
与此同时,金砖五国GDP在最近10年占全球的比重,已经由从12%升至23%,如果再看未来20年,这个比重会可能会超过50%。
与业主的约谈传统相比快消品市场“都是洋气的套路,深感房地产市场可灵活玩转并快速成效的营销种类甚少的牛牧远,只能从挖掘需求源头入手,在远洋地产事业一部内形成约谈业主、客户的传统:自己每月至少见两组客户,通过下班之余吃饭或喝个茶,经常跟客户交流,了解客户新的需求和新的变化,来寻找产品改进与营销的灵感。
与困难作斗争,从不言弃,这是坚持的力量;要不断的追求美好的事物,怀着感恩和奉献的精神去对待工作和生活,这就是向善的力量。
与目前已有的四座南极考察站相比,第五座南极考察站承担着什么样的使命此次考察中,我国科考人员将围绕第五座南极考察站开展哪些工作未来我国南极科考能力建设有什么样的规划围绕这些问题,记者采访了有关专家。
与往年相比,今年戏剧节除了国外戏的数量和地域增加以外,最大的变化是增加了很多中国元素,《风尘三侠》《窦娥》《丁西林民国喜剧三则》《狂飙》《爸爸》《裁缝》《这辈子有过你》,从唐传奇、元杂剧,到民国知识分子的含蓄与躁动,再到中国当代社会的老龄化现象。
(来源:(百科解读))