MP3是怎样骗过你耳朵的？

作者:admin 发表时间：2023-03-15 [浏览量：2]

摘要：现在几乎所有音乐软件都普及了 FLAC 无损格式，MP3 格式早已成为过去时。但这个记忆中最常见的音频格式，虽然大小只有别人的几分之一，音质却并不差，不免让人好奇它到底使用了哪些黑科技。本视频的部分内容引用了重轻老师在小宇宙的播客，「不在场」节目

　　现在几乎所有音乐软件都普及了 FLAC 无损格式，MP3 格式早已成为过去时。但这个记忆中最常见的音频格式，虽然大小只有别人的几分之一，音质却并不差，不免让人好奇它到底使用了哪些黑科技。

　　本视频的部分内容引用了重轻老师在小宇宙的播客，「不在场」节目的第二季第一集，在此特别感谢重轻老师的支持。

　　但在最近的 20 年里，一种音频格式的诞生却改变了人们的音乐体验。那就是 MP3 。

　　作为世界上应用最为广泛的音频格式，MP3 的诞生第一次让音乐成为一种人人可以触及的大众消费品。

　　应该有不少小伙伴拥有的第一个音乐播放器，就是 MP3 Player 吧，甚至在当年，大家都默认 MP3 就是音乐的代名词。

　　但同样是数字音频， MP3 只有标准 CD 大小的十二分之一，而对于人耳来说，这两者的区别，有，但要比图片压缩之类的要难以察觉的多了，所以它对音乐做了什么? 又丢掉了什么呢？

　　通常我们理解的压缩，都是重复压缩。比如你去超市买 5 瓶可口可乐，小票上不会写 5 次可乐，只用写“ 可口可乐*5 ”就行了。这个过程就相当于把文件里重复的部分用更短的字节编码。文件本身不会丢失数据，解码后也不会损耗任何信息，只是让文件体积变小了。

　　这是一种无损压损，实际上 MP3 的最后一步就是这么干的，它用一种叫 Huffman Coding 的算法来完成。但如果只用这种算法，MP3的体积并不会显著缩小。

　　因为声音本身是一种极其混乱，信息熵非常高的数据。所以这种方式不可能让它缩小到 CD 体积的 10 % 。

　　我们把同一段声音的 MP3 和它的无损版本并列在两条轨道上，把其中一轨反相，那如果它俩的声音是一样的，就会互相抵消，我们就应该得到一个静音效果。这也是降噪耳机的工作原理。

　　但只有这样我们还说不出 MP3 和无损的区别。如果一段音乐就是在 MP3 和无损之间不断切换的，你真的能区分的出来吗？我相信你是听不出来的。

　　这就是 MP3 算法的神奇之处，它的压缩并不是简单的丢掉声音数据，而是在丢掉数据的同时，你却察觉不到。

　　70 年代末，有一个叫迪特·塞策（ Dieter Seitzer ）的德国教授突然冒出个超前的想法。他想让大家可以坐在家里，用 ISDN 的电话线，打电话来点播音乐，就跟点唱机差不多。

　　ISDN 是当时流行的数字线路，也叫“ 一线通 ”，你可以用它打电话、收发传真之类的，但它的速率只有128kbps 。

　　所以当迪特把这个想法申报专利的时候，专利局的工作人员告诉他这事儿没戏。除非你能让 ISDN 的网络速率提高十二倍，那才够传输 CD 的数据量。

　　迪特一听，提网速这事儿估计自己干不了，但如果发明出一种只有 CD 1/12 大小的音频格式，不就可以搞这个“ 数字点唱机 ”了吗。于是他转头把这个发明工作交给了自己一个叫 Karlheinz Brandenburg 的学生。

　　Brandenburg 的硕士论文研究方向是一个叫 ATC 的语音压缩算法，迪特也是看中了这点才找到他的。但 Brandenburg 接到这个任务的时候也很郁闷。

　　心想 tnnd 你一个教授都做不出来，我小小一博士生怎么做的出来，但导师交待的任务又不能不完成，所以他就打算用几年的时间来证明这事儿不可能，然后论文一写，把博士学位混到手算球！而就在他证明“ 不可能发明一个比 CD 小 12倍的音频文件 ”的过程中，他却发现，哎，这事还真是有可能的。

　　让 Brandenburg 觉得这事儿有戏的关键，是一个极其冷门的学科，叫心理声学（ Psychoacoustics ）。

　　这是一门心理物理学的分支研究，最早源于人们对音乐和乐器的探索，后来成为了研究人的生理感官和客观声音世界之间关系的学科。听起来很复杂，其实很好理解，比如人耳的声音定位，听力范围这类研究，都属于心理声学的范畴。

　　在心理声学里有一个非常经典的研究，就是等响曲线。这个曲线告诉我们，人耳对于不同频率的声音，感知相差极大。人类的听觉范围在 20-20000Hz 之间，而在这个范围里的不同频率下，我们听到的响度是不一样的。

　　低频的声音需要更大的声压才能和中频较小的声压，所形成的声音大小听起来相等。

　　就比如贝斯就需要更大的音量，才能跟吉他声听起来差不多大。这也是为什么贝斯这类低音乐器的音箱要比其他音箱的体积大得多。

　　而图中的最低点出现在 3000Hz 左右，所以说明人对这个频率的声音最敏感，只需要比较小的声压就能听到。比如我们听到的大部分的警报声，基频都在 1000-3000Hz ，这样人耳才能更容易捕捉这些声音，从而避免危险。

　　有意思的是，随着年龄增大，我们对于声音的接收范围也在变小，大多数成年人听不到频率在 16000Hz 以上的声音。

　　沿着这个方向，等响曲线的发现者又研究出了一个更加神奇的事情，让我们意识到我们的感官和客观到底差距有多么巨大。

　　1958 年的某天下午，一个叫 Licklider 的心理学家去看牙医，他跟医生说，我不需要打麻药。然后掏出了一副耳机，开始听震耳欲聋的音乐。在巨大的音乐声中，牙医帮他搞定了三颗龋齿，而他就像被打了麻醉剂一样，竟然没有感觉到疼。

　　Licklider 把这项技术命名为 Audiac ，之后他带着这玩意和牙医一起巡诊拔牙，还帮助了不女缓解了分娩时的疼痛。

　　Audiac 用了一种强烈的听觉刺激来抑制疼痛，这就是一种跨感官的掩蔽效果。

　　在听觉系统中，一种声音也会被另一种同时发出的声音所掩盖。比如在一个乐队里，往往是吉他声在 C 位，但如果突然有相似频率的乐器加入，比如小号。那吉他的声音就会被短暂的淹没。这一过程叫作同频掩蔽。

　　我们用一个动画来举例子，当一个频率从低到高的噪音经过一个正弦音的时候，这个声音会被噪音掩盖。

　　再比如你上课的时候，想用一声咳嗽来掩盖自己放屁的声音，那你最好要满足三个条件，一是咳嗽声的时长大于等于屁声，二是咳嗽声的响度要大于等于屁声。三是要保证二者的频率接近。这三个条件都满足，才是一次出色的掩蔽。

　　那这和 MP3 有什么关系呢？MP3 的算法就是利用了人耳的这种特性，将歌曲中不同频率里被淹没的声音瞬间，给丢掉了。这样就可以在减少文件体积的条件下，最小程度的损失音质。

　　当我们听到一个噪音戛然而止的之后，实际上会有一个 100-200ms 的逐渐减弱的掩蔽效果。在噪音完全停止后的这段时间里，比他更小的声音会被掩蔽，我们是完全听不见的，就像我们的耳朵需要 200ms 的时间回复知觉一样。

　　不光如此，噪音还会掩蔽在它之前的声音，虽然只有 50ms，但对于感官来说已经是相当长的一段时间了，这意味着我们的大脑需要 50ms 的缓冲才能报告到意识里。

　　MP3 压缩算法的核心，就是利用一个精心迭代了许多年的人体听觉心理学模型，把音乐里的每一个瞬间对应在 MP3 文件格式里的每一帧（ FRAME ），检查这个帧内，上述两种掩蔽作用所发生的频率和时间段，把那些被掩盖的，我们听不到的音频信息统统丢掉。

　　在 MP3 算法测试初期，测试人员需要在海量的歌曲中找出 MP3 压缩算法的问题。它们要在各种歌曲的 MP3 和无损版本之间对比，而且每听一首歌他们都要评级，一共有四个等级，分别是：听不出区别、有一点区别、有点难听和非常难听。特别是最后两个选项，可以说是非常主观的判断了。

　　这意味着 MP3 算法的发明和改进，实际上把人的主观评判作为考量的目标之一。我们不能说这种算法是完全主观的，它也不是绝对客观的，所以它的效果也不可能在所有歌曲中都是平均的。

　　说到这，就不得不提 MP3 发明过程中的一个小故事。在 MP3 压缩算法测试的最后阶段曾遇到过一个大难题，当时 Brandenburg 和他的同事们觉得自己的算法已经非常牛逼了，几乎在所有的双盲测试中都很难听出区别。

　　有天他无意中看到杂志上说大家喜欢用 Suzanne Vega 的歌曲 Toms Diner 来测试自己的音箱，而他正好在弗劳恩霍夫实验室（ Fraunhofer ）看到了这张 CD ,于是他就把这首歌上传到了电脑上。

　　这首歌非常简单，是一个纯人声，没有伴奏的歌曲。但当他通过 MP3 的压缩算法处理这首歌之后，却得到这样一个效果。

　　在 MP3 较低的比特率下，Vega 的声音变得沙哑，不自然。于是在之后的一年时间里，研发团队又对 MP3 算法做了几千次的微小调整， Brandenburg 说自己至少听了三千遍这首歌，可能比地球上任何人听得次数都多。

　　最后他们成功压缩了这首 Toms Diner ，也通过这首歌，线的压缩算法。

　　许多年之后，Brandenburg 真的遇到了 Vega ，而且还现场听她唱了那首Toms Diner。尽管已经听了无数遍，但他说，这首歌依然很好听。

　　Brandenburg 终于在 1989 年发表了他的论文。下一步就是将这项技术推向世界。也就是在 90 年代初，业界突然出现好几种新兴技术，它们正在寻找一种新的音频编码标准来使用，这其中包括我们熟悉的“ CD-ROM ”和“ DVD ”。于是他和他的团队向动态影像专家组（ MPEG ）提交了参赛作品，他们要和另外 13 个团队竞争新的音频编码标准。而最大的竞争对手来自一个名为 MUSICAM 的组织，这个组织的背后是飞利浦，当时飞利浦手握 CD 光盘的专利，可以说是如日中天。

　　所以尽管他们团队的技术数据量更小，音质也更强，但最后还是输给了 MUSICAM 。

　　因为MUSICAM 的算法需要的处理能力更少。在当时处理器普遍不太行的时代，确实更有优势。

　　因此在当年，MP3 是一个妥妥的失败品。连它的发明者也已经开始着手研究新的音频编码。MP3 就这样被扔进了历史的垃圾堆里。

　　直到 90 年代中期，两种革命性技术的诞生，让 MP3 这颗弃子重新活了过来，那就是万维网和 Windows 95。

　　一个同样来自德国的研发团队，开发了一种用于 MP3 的软件播放器，并且发布在了 Windows 系统上。

　　当时，1 GB 大小的硬盘刚刚开始普及，存储空间非常珍贵，反而处理器有了巨大的提升。所以体积更小的 MP3 慢慢被大家接受，也意外的成为了新的音频编码标准。1995年7月14日是 MP3 的生日，Karlheinz Brandenburg 和他在弗劳恩霍夫研究所的同事们（ Fraunhofer ）决定把这个压缩算法的文件扩展名，根据行业标准的全称 MPEG-2 Audio Layer III ，命名为 .MP3。

　　到了 90 年代后期，“ MP3 ”取代“ SEX ”成为搜索引擎上查询最多的词。某次 Brandenburg 在香港出差时，看到橱窗里摆着 30 种不同品牌的 MP3 播放器，他心想，“ 好吧，我们终于赢了。”

　　MP3 的诞生比我想象的要复杂的多，它是一个耗时多年，经历了无数迭代才得到的科研成果。这个成果可以说是重塑了人类音乐产业。也正是由 MP3 开始，音乐，成了一种人人可以触及的大众消费品。

　　从黑胶、磁带，再到 CD、MP3，每一次技术革新都在改变人们的音乐体验，也在改变大家消费音乐的方式。而 MP3 在这段历史中格外的与众不同。推崇它的人认为，MP3 无比伟大，它让大家都能便捷地享受音乐；而反对它的人，视它如猛兽，因为它吞噬了唱片公司赖以生存的版权，以及唱片业曾经的黄金时代。

　　今天，数字音乐留了下来，但 MP3 已经走到了被时代淘汰的边缘。我们再也不需要把音乐下载到播放器里，再用播放器来听音乐，大家都是用手机在线G 通讯和几百G内存，让音频压缩变得更没必要，音乐平台也渐渐转向了FLAC等无损格式。

　　好了这就是今天的内容，这期视频跟平时有点不一样，我们引用了重轻老师在小宇宙的播客，「不在场」节目的第二季第一集，感谢重轻老师的支持，也希望大家能去小宇宙收听重轻老师的「不在场」节目。谢谢各位的观看，如果你喜欢的话欢迎你一键三连，如果你有什么想说的，也欢迎你在评论区和弹幕里跟我们互动，最后最后拜托拜托关注一下我们，我们下次再见。

　　MP3 走到了终点，为电话和广播而生的技术，改变了整个音乐产业 -好奇心日报

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

返回首页上一篇：合于消防给排水工程方面的图文详解绝对适用！下一篇：亚游直营网《巫师：昆特牌》确认引进邦内！盖娅互娱代庖