麦考瑞大学的研究人员推翻了有关人类如何判断声音来源的75年历史的理论,并可能揭开创造下一代更具适应性、更高效的听力设备的秘密,包括助听器和智能手机。
20 世纪 40 年代,人们开发了一个工程模型来解释人类如何根据声音到达每只耳朵时仅仅几千万分之一秒的差异来定位声源。
该模型基于这样的理论:我们必须拥有一组专门的探测器,其唯一功能是确定声音来自何处,并用专门的神经元来表示空间位置。
自那时起,它的假设一直指导和影响着音频技术的研究和设计。
但麦考瑞大学听觉研究人员在《当代生物学》上发表的一篇新研究论文最终表明,专用于空间听觉的神经网络的想法并不成立。
该研究的主要作者、麦考瑞大学杰出听觉教授戴维麦卡尔平 (David McAlpine) 在过去 25 年中一直在证明,一个又一个的动物实际上使用的是更稀疏的神经网络,大脑两侧的神经元除了其他神经元之外还执行这一功能。
在人类身上证明这一点更加困难。
现在,通过结合专门的听力测试、先进的脑成像以及与恒河猴等其他哺乳动物的大脑进行比较,他和他的团队首次证明人类也使用这些更简单的网络。
麦卡尔平教授说:“我们喜欢认为我们的大脑在各方面都比其他动物先进得多,但这只是狂妄自大而已。”
“我们已经能够证明,在这方面沙鼠像豚鼠,豚鼠像恒河猴,恒河猴像人类。
“一种稀疏、节能的神经回路执行着这一功能——如果你愿意的话,可以称之为我们的沙鼠大脑。”
研究小组还证明,相同的神经网络可以将语音与背景声音分离——这一发现对于助听器和手机中的电子助理的设计都具有重要意义。
所有类型的机器听力都面临着噪音听力挑战,即所谓的“鸡尾酒会问题”。这使得佩戴听力设备的人难以在拥挤的空间中辨别出一个人的声音,也使得我们的智能设备无法理解我们与它们交谈的内容。
麦卡尔平教授表示,他的团队的最新研究结果表明,我们不应该专注于当前使用的大型语言模型 (LLM),而应该采取一种更为简单的方法。
他说:“法学硕士非常擅长预测句子中的下一个单词,但他们想做的太多了。”
“能够找到声音的来源是这里最重要的事情,而要做到这一点,我们不需要‘深层思维’语言大脑。其他动物可以做到这一点,但它们没有语言。
“当我们在听的时候,我们的大脑不会一直追踪声音,而大型语言处理器则试图做到这一点。
“相反,我们和其他动物使用我们的‘浅层大脑’来挑选非常小的声音片段,包括语音,并使用这些片段来标记位置,甚至是来源的身份。
“我们不需要重建高保真信号来做到这一点,而是了解我们的大脑在信号到达大脑皮层的语言中心之前如何在神经上表达该信号。
“这向我们表明,机器不需要像人脑那样接受语言训练就能有效地聆听。
“我们只需要那只沙鼠的大脑。”
团队的下一步是确定声音中可以传达的最少信息量,但仍能获得最大程度的空间聆听。