不用人类介入，AI只要观看60小时视频就能分辨超过20种乐器的声音,,MIT的电脑科学与人_今日看点

[摘要] 原标题：不用人类介入，AI只要观看60小时视频就能分辨超过20种乐器的声音 MIT发展出名为PixelPlayer的人工智能系统，由演算法自我监督观看60小时的音乐表演视频后，不需要人类介入训

原标题：不用人类介入，AI只要观看60小时视频就能分辨超过20种乐器的声音

MIT发展出名为PixelPlayer的人工智能系统，由演算法自我监督观看60小时的音乐表演视频后，不需要人类介入训练，便可以自动分辨出20种乐器的声音，并且理解声音与画面中乐器的对应关系，提供使用者独立编辑声音的能力...

MIT发展出名为PixelPlayer的人工智能系统，由演算法自我监督观看60小时的音乐表演视频后，不需要人类介入训练，便可以自动分辨出20种乐器的声音，并且理解声音与画面中乐器的对应关系，提供使用者独立编辑声音的能力，对于旧音乐再制有很大的帮助。

MIT的电脑科学与人工智能实验室（CSAIL）发展出以深度学习分辨乐器表演视频，除了能分离出特定乐器声音外，还能对这些声音进行个别编辑的系统。这个称为PixelPlayer的系统，经过60小时的音乐会视频训练，可以分辨超过20种乐器，论文第一作者Hang△Zhao提到，尽管该系统现在还无法细腻的处理类似声音之间的细微差异，像是PixelPlayer现在还分不出中音萨克斯风与男高音的差别，但只要有越多的训练资料，系统就能分辨越多种类的乐器。

PixelPlayer使用深度学习的方法，以类神经网络在视频里寻找资料的模式，系统包含3个类神经网络，其中一个用于视频的视觉分析，第二个用于视频的声音分析，第三个合成器能将特定的像素与声音关联，并独立分离出来。系统会先定位出视频中发出声音的区域，再将声音分离出来，并与这些像素关联。

研究团队提到，这个方法使用自我监督（Self-supervised）的深度学习，人工智能在没有人类介入告知声音与乐器的关联，就能自动理解之间的关系。过去分离声源的研究通常专注在声音上，而这也需要大量的人为标签，但PixelPlayer则是额外加入的视觉要素，以视觉元素取代人为标签，以达到人工智能自我接督学习的目的。

Hang△Zhao表示，他们原本预期系统的最佳案例，就只是让系统分辨不同乐器的独特声音，而现在却可以额外在空间中，以像素等级定位出乐器，这样的能力开启了更多可能，使用者可以直接通过点击视频中的乐器，进行声音编辑。

这项研究的贡献在于，有助于工程师提高旧音乐的录制音质，制作人甚至可以分开聆听不同乐器演奏的声音，除了可以单独调整个别音量外，还可以于后制阶段，更换演奏的乐器，另外，这项研究也能被应用在机器人开发上，使其能更好的理解环境物体所产生的声音，像是正在吠叫的狗或是发出引擎声的车辆。

MIT开发的AI音乐编辑系统：

橙山网（Csnd.net）简评：MIT的电脑科学与人工智能实验室（CSAIL）发展出以深度学习分辨乐器表演视频，除了能分离出特定乐器声音外，还能对这些声音进行个别编辑的系统。这个称为PixelPlayer的系统，经过60小时的音乐会

不用人类介入，AI只要观看60小时视频就能分辨超过20种乐器的声音,,MIT的电脑科学与人

相关阅读

网友评论

热门推荐

星百问

综艺节目