英伟达携全新AI模子“颠覆”音频界：可创作音乐、修改东谈主声

发布日期：2024-12-22 16:24 点击次数：58

财联社11月26日讯（剪辑黄君芝）据报谈，英伟达（Nvidia）配置了一种新式东谈主工智能（AI）模子，不错创造声息戒指，改换东谈主的发音方式，并使用当然语言辅导生成音乐。

这个模子被定名为Fugatto，即Foundational Generative Audio Transformer Opus 1，是一个商议技俩。英伟达暗示，它不会晓谕任何发布这项技巧的策画，但它可能会对从音乐、文娱到翻译行状等行业产生平日的影响。

英伟达诈骗深度学习商议副总裁Bryan Catanzaro在领受采访时暗示：“Fugatto最令东谈主昂扬的方位在于，它领有一个模子，你不错条件它以某种方式发出声息，这简直掀开了你对它诈骗范围的思象。”

他进一步诠释注解说，阛阓上的其他模子，有些不错合谚语音，有些不错为音乐添加音效，但Fugatto一起皆不错作念到。Catanzaro说，不错将其视为视频和图像生成模子（如Stability AI的Stable Video Diffusion或OpenAI的Sora）的一种补充。

“这里最基本的订恰是……咱们大略使用语言合成音频，我合计，这为东谈主们不错用来创造惊东谈主音频的器具征战了新的前程。”他补充说。

笔据英伟达的说法，Fugatto是第一个具有新兴特质的基础模子，这意味着它大略搀和经由考试的元素，并顺从“解放样式的指示”。

具体而言，该模子不错通过圭臬的笔墨辅导生成音频，也不错惩处您上传的音频文献。是以，要是你有一个东谈主话语的文献，你不错把阿谁东谈主的话翻译成另一种语言，同期让它听起来像他的声息。你也不错采取一个简便的音调，让它听起来像管弦乐扮演，或者在音乐中添加不同的节奏。

此外，你也不错上传一个文档，让模子用你心爱的任何声息诵读。更紧迫的是，你不错告诉模子发出带有神志重量的声息。

不外，Catanzaro也补充说，这种模子并不老是完好的。并且，就像生成图像和视频的模子不异，Fugatto也会催生艺术家、音响工程师和关联领域东谈主员的担忧。但Catanzaro指出，他的本意是但愿这项技巧能匡助音乐家。

“我但愿这是艺术家探索的新器具。”“我合计音频一直是一个裕如生效的探索领域。你知谈，当咱们取得新的音频器具时，巧合咱们会取得新的音乐样式。”他说。