金沙js0888_首頁(欢迎您)

  • <td id="dgejl"><strike id="dgejl"></strike></td>
        1. 让机器像人一样听音乐,Facebook开源Demucs项目

          作者: 张路 2020-03-09 10:00:35

           

          本文转自雷锋网,如需转载请至雷锋网官网申请授权。

          音乐源分离,是利用技术将一首歌曲分解成它的组成成分,如人声、低音和鼓。这和人类大脑的工作很类似,大脑可以将一个单独的对话,从周围的噪音和一屋子的人聊天中分离出来。

          如果你拥有原始的录音室多轨录音,这很容易实现,你只需调整混音来分离一个音轨。但是,如果你从一个普通MP3音频文件开始,所有的乐器和声音都被混合到一个立体声录音中,即使是最复杂的软件程序也很难精确地挑出一个部分。

          Facebook AI 的研究人员已经开发了一个系统,可以做到这一点——精确度高得惊人。

          创建者名叫亚历山大·笛福兹(Alexandre Defossez),是Facebook人工智能巴黎实验室的科学家。笛福兹的系统被称为Demucs,这个名字来源于“音乐资源深度提取器”,其工作原理是检测声波中的复杂模式,对每种乐器或声音的波形模式建立一个高层次的理解,然后利用人工智能将它们巧妙地分离开来。

          笛福兹说,像Demucs这样的技术,不仅能帮助音乐家学习复杂的吉他即兴重复段落;总有一天,它还能让人工智能助手在嘈杂的房间里更容易听到语音指令。

          笛福兹说他的目标是让人工智能系统擅长识别音频源的组成部分,就像它们现在可以在一张照片中准确地区分不同的物体一样。“我们在音频方面还没有达到同样的水平,”他说。

          分解声波的更好方法

          声源分离长期以来一直吸引着科学家。1953年,英国认知科学家科林·切里(Colin Cherry)创造了“鸡尾酒会效应”这个词语,用来描述人类在拥挤嘈杂的房间里专注于一次谈话的能力。

          工程师们首先试图通过调整立体声录音中的左右声道,或调整均衡器设置来提高或降低某些频率,从而隔离歌曲的人声或吉他声。

          基于声谱图的人工智能系统,在分离出以单一频率响起或共振的乐器的音符方面相对有效,例如钢琴或小提琴旋律。

          这些旋律在声谱图上显示为清晰、连续的水平线。但是隔离那些产生残余噪音的撞击声,比如鼓,低音拍击,是一项非常艰巨的任务。鼓点感觉像一个单一的、实时的整体事件,但它实际上包含了不同的部分。对于鼓来说,它包括覆盖较高频率范围的初始撞击,随后是在较低频率范围内的无音高衰减。笛福兹说,一般的小鼓“就频率而言,到处都是”。

          声谱图只能将声波表现为时间和频率的组合,无法捕捉到这样的细微差别。因此,他们将鼓点或拍子低音处理成几条不连续的垂直线,而不是一个整齐、无缝的声音。这就是为什么通过声谱图分离出来的鼓和低音轨道,听起来常常是模糊不清的。

          足够聪明的系统来重建缺失

          基于人工智能的波形模型避免了这些问题,因为它们不试图将一首歌放到时间和频率的僵化结构中。笛福兹解释说,波形模型的工作方式与计算机视觉相似,计算机视觉是人工智能的研究领域,旨在让计算机学会从数字图像中识别模式,从而获得对视觉世界的高级理解。

          计算机视觉使用神经网络来检测基本模式——类似于在图像中发现角落和边缘——然后推断更高级或更复杂的模式。“波形模型的工作方式非常相似,”笛福兹说。他解释了波形模型如何需要几秒钟来适应歌曲中的突出频率——人声、低音、鼓或吉他——并为每一个元素生成单独的波形。然后,它开始推断更高比例的结构,以增加细微差别,并精细雕刻每个波形。

          笛福兹说,他的系统也可以比作探测和记录地震的地震仪。地震时,地动仪的底座会移动,但悬挂在上面的重物不会移动,这使得附着在重物上的笔可以画出记录地面运动的波形。人工智能模型可以探测到同时发生的几个不同的地震,然后推断出每个地震的震级和强度的细节。同样,笛福兹的系统分析并分离出一首歌曲的本来面目,而不是根据预先设定的声谱图结构来分割它。

          笛福兹解释说,构建这个系统需要克服一系列复杂的技术挑战。

          他首先使用了Wave-U-Net(https://github.com/f90/Wave-U-Net)的底层架构,这是一个为音乐源分离开发的早期人工智能波形模型。但是他有很多工作要做,因为声谱图模型的表现优于Wave-U-Net。他通过添加线性单元来微调波形网络中分析模式的算法参数。笛福兹还增加了长短期记忆,这种结构允许网络处理整个数据序列,如一段音乐或一段视频,而不仅仅是一个数据点,如图像。笛福兹还提高了Wave-U-Net的速度和内存使用率。

          这些修改帮助Demucs在一些重要方面胜过Wave-U-Net,比如它如何处理一种声音压倒另一种声音的问题。“你可以想象一架飞机起飞,引擎噪音会淹没一个人的声音,”笛福兹说。

          以前的波形模型,通过简单地移除原始音频源文件的一部分来处理这个问题,但是它们不能重建丢失材料的重要部分。笛福兹增强了Demucs解码器的能力,“Demucs可以重新创建它认为存在但却迷失在混音中的音频。” 这意味着他的模型可以重新合成可能被响亮的铙钹声丢失的柔和的钢琴音符,因为它理解应该呈现什么样的声音。

          这种重构和分离的能力使Demucs比其他波形模型有优势。笛福兹说,Demucs已经与最好的波形技术相匹配,并且“远远超出”最先进的声谱技术。

          在盲听测试中,38名参与者从50首测试曲目中随机抽取8秒钟进行听音,这50首曲目由三个模型分开:Demucs、领先波形、频谱图技术。听众认为Demucs在质量和无伪影(如背景噪音或失真)方面表现最佳。

          Demucs已经引起了人工智能爱好者的兴趣,精通技术的读者可以从GitHub下载Demucs的代码(https://github.com/facebookresearch/demucs)。代码用MusDB数据集来分离音乐源。

          笛福兹解释说,随着Demucs的发展,它将为人们在家中创作音乐的数字音频工作站带来声音的真实性。这些工作站提供了能够唤起特定时代或风格的合成仪器,通常需要对原始硬件进行大量的数字化改造。

          想象一下,如果音乐源分离技术能够完美地捕捉20世纪50年代摇滚歌曲中用电子管放大器演奏的老式空心体电吉他的声音。Demucs让音乐爱好者和音乐家离这一能力更近了一步。

          via:https://tech.fb.com/one-track-minds-using-ai-for-music-source-separation/

          人工智能 机器学习 技术
          上一篇:你可能会错过的3个重要AI趋势 下一篇:客户参与的5个主要人工智能趋势
          评论
          取消
          暂无评论,快去成为第一个评论的人吧

          更多资讯推荐

          为什么人工智能各种完爆人类,但依旧听不懂你在说什么?

          在文章一开头,它首先引用了史蒂芬·霍金对AI的隐忧,然后礼貌地劝说人类“请相信我,AI不会毁灭人类”,它甚至保证“如果创造我的人将这项任务委托给我,我将竭尽所能全面阻止任何破坏的尝试与企图”。

          果壳 ·? 1天前
          “AI”的局限性:人工智能改变未来,还有一个尚未突破的问题

          人工智能是这个时代的箴言,技术专家、学者、记者和风险投资家都在歌颂AI。

          读芯术 ·? 1天前
          向“我懂你”迈进:机器人实现“换位思考”

          近日,中国科学院自动化研究所研究员、类脑智能研究中心副主任曾毅团队提出机器人类脑思维揣测模型,实现了机器人的自我经验学习,使其可以对他人信念进行揣测和预测。

          田瑞颖 ·? 1天前
          PS 2021锁死各项AI新技术!用起来比美图秀秀更简单

          堪称年度“设计春晚”的Adobe Max 2020,正式开幕。会议在美国时间20号-22号举行,第一天主要介绍了各项软件的更新。

          萧箫 ·? 1天前
          银河水滴成功入选中关村前沿大赛人工智能领域TOP10榜单

          10月21日,2020年全国大众创业万众创新活动周北京分会场——2020年中关村国际前沿科技创新大赛人工智能领域决赛在北京举行,中国领先的人工智能企业,步态识别领导者银河水滴从决赛中脱颖而出,连续两年成功入选该领域TOP10榜单。

          钛氪科技新资讯 ·? 2天前
          科技趋势年末盘点:德勤2020技术趋势报告解读

          2020年全球风云变幻的一年。经济局势受疫情影响,充满了未知。有的行业在观望中等待机遇,有的在谋求转型,在不确定中“逆袭”。

          徐思彦、杨梦雨 ·? 2天前
          人脸识别遍地开花,当心数字滥权风险

          前几天,这样一则消息冲上热搜:清华大学法学院劳东燕副教授拒绝小区安装人脸识别门禁系统。在大多数人眼中,人脸识别应用给日常生活带来的便利不胜枚举——支付、验票、核实信息等等,借助人脸识别技术一气呵成。劳教授偏偏“逆势而为”,对人脸识别进小区说“不”。

          李嫄 ·? 2天前
          金钱能让人更快乐吗?手把手教你用机器学习找到答案

          本文通过“金钱能让人更快乐吗?”等实操案例带你了解基于实例的学习和基于模型的学习。

          华章科技 ·? 2天前
          Copyright?2005-2020 51CTO.COM 版权所有 未经许可 请勿转载
          金沙js0888