• 英伟达携全新AI模子“颠覆”音频界:可创作音乐、修改东谈主声

  • 发布日期:2024-12-22 16:24    点击次数:58

    英伟达携全新AI模子“颠覆”音频界:可创作音乐、修改东谈主声

    财联社11月26日讯(剪辑 黄君芝)据报谈,英伟达(Nvidia)配置了一种新式东谈主工智能(AI)模子,不错创造声息戒指,改换东谈主的发音方式,并使用当然语言辅导生成音乐。

    这个模子被定名为Fugatto,即Foundational Generative Audio Transformer Opus 1,是一个商议技俩。英伟达暗示,它不会晓谕任何发布这项技巧的策画,但它可能会对从音乐、文娱到翻译行状等行业产生平日的影响。

    英伟达诈骗深度学习商议副总裁Bryan Catanzaro在领受采访时暗示:“Fugatto最令东谈主昂扬的方位在于,它领有一个模子,你不错条件它以某种方式发出声息,这简直掀开了你对它诈骗范围的思象。”

    他进一步诠释注解说,阛阓上的其他模子,有些不错合谚语音,有些不错为音乐添加音效,但Fugatto一起皆不错作念到。Catanzaro说,不错将其视为视频和图像生成模子(如Stability AI的Stable Video Diffusion或OpenAI的Sora)的一种补充。

    “这里最基本的订恰是……咱们大略使用语言合成音频,我合计,这为东谈主们不错用来创造惊东谈主音频的器具征战了新的前程。”他补充说。

    笔据英伟达的说法,Fugatto是第一个具有新兴特质的基础模子,这意味着它大略搀和经由考试的元素,并顺从“解放样式的指示”。

    具体而言,该模子不错通过圭臬的笔墨辅导生成音频,也不错惩处您上传的音频文献。是以,要是你有一个东谈主话语的文献,你不错把阿谁东谈主的话翻译成另一种语言,同期让它听起来像他的声息。你也不错采取一个简便的音调,让它听起来像管弦乐扮演,或者在音乐中添加不同的节奏。

    此外,你也不错上传一个文档,让模子用你心爱的任何声息诵读。更紧迫的是,你不错告诉模子发出带有神志重量的声息。

    不外,Catanzaro也补充说,这种模子并不老是完好的。并且,就像生成图像和视频的模子不异,Fugatto也会催生艺术家、音响工程师和关联领域东谈主员的担忧。但Catanzaro指出,他的本意是但愿这项技巧能匡助音乐家。

    “我但愿这是艺术家探索的新器具。”“我合计音频一直是一个裕如生效的探索领域。你知谈,当咱们取得新的音频器具时,巧合咱们会取得新的音乐样式。”他说。