想象一下,處在一個嘈雜的雞尾酒會上,同時聽到多個聲源,有多人同時說話的聲音、背景音樂聲、餐具碰撞聲、環境噪聲等等。這樣復雜的聆聽環境,在聽力學中常常被稱為“雞尾酒會難題”。
我們或許都有過這樣的經驗。盡管環境非常嘈雜,我們仍然能把注意力放在對話方說話的聲音上,忽略和過濾其他背景聲。這種選擇性聆聽的功能被稱為“雞尾酒會效應”,在1953年由英國認知科學家Edward Colin Cherry提出。
在酒會上將人聲從環境噪聲中分離出來對于正常聽力人群來說也許不困難,但當我們的聽力下降,我們還能夠自動過濾背景聲嗎?研究顯示,聽力損失人群的降噪功能和選擇性聆聽功能都會因為聽力系統損壞而下降,即使佩戴較先進的助聽器也是如此。因此,“雞尾酒會難題” 對于聽力損失人群卻是項挑戰。
生活中的“雞尾酒會難題”
將大腦功能復制到助聽器?
所幸的是,科學家距離解決“雞尾酒會難題”已經邁出了一步。2019年10月,紐約哥倫比亞大學Zukerman研究中心在《神經元》期刊發表了《關于人類聽覺皮層的不同區域如何分離和重構混合語音的研究》,并指出如何將正常聽力人群的大腦功能復制至助聽器中,就是幫助聽力損失人群克服“雞尾酒會難題”的關鍵。
這項研究的負責人Nima Mesgrani在他還是馬里蘭大學研究生時就開始了這條探索之路。Mesgrani說:“當時,我想了解如果聽眾在多聲源的場景中,大腦會重構出什么樣的聲音?我們的大腦會重建出所有的聲源,還是只關注在某個聲源呢?”
傳統方向性并不能幫助大腦識別周圍環境,使得聽力損失用戶仍然無法解決“雞尾酒會難題”
在2012年, Mesgrani和他的團隊通過研究顯示大腦負責處理聲音的區域非常敏感而強大,它可以毫不費力地過濾掉競爭聲源,只放大特定的聲音。雖然現有的助聽器能夠在放大語音的同時抑制環境噪聲,但是很難達到大腦的精準和高效。這在嘈雜的環境中,例如家庭聚會,會嚴重地阻礙助聽器用戶順暢溝通的能力,甚至會將他們與周圍的人隔離開來。
Mesgrani和他的團隊還做了另一項突破性的研究,他們將腦電波與分離的聲源信號進行比較,并放大了與腦電波較相似的信號。研究結果顯示當兩個人互相交談時,說話者的腦電波會逐漸變得與聆聽者的腦電波相似。
助聽新技術:腦電波操縱助聽器,AI識別談話人?
從不斷的探索和研究中, Mesgrani和他的團隊在2017年研究出一項實驗技術,將強大的語音分離算法和神經學結合,模仿大腦檢測和放大聲音的天生能力,將助聽器中的語音分離研究向前推進一步。
有別于現有的助聽器,這種大腦控制的助聽系統由人工智能(AI)驅動,不僅依靠外部的麥克風偵測環境聲,還能檢測助聽器用戶的腦電波并突出用戶想關注的聲音。這項新的技術會首先將單個說話者的聲音從多個聲源中分離出來,然后將每個說話者的聲音與聆聽者的腦電波進行比較,聲音與聆聽者腦電波較接近的會被放大。
雖然這項新技術的前景很好,但研究人員發現一個關鍵的限制:初版系統需要先經過訓練才能識別特定的說話者聲音。舉個例子,當你和你家人在家對話時,這個系統可以識別和分析這些熟悉的聲音,但是當家里來個客人時,這個系統會暫時失靈,沒法立即識別和分析客人說話的聲音。因此,Mesgrani和他的團隊正以初版系統為基礎,研究新算法并建立一個更復雜的系統。這個系統可以識別和分析所有聲音,讓用戶可以在任何環境下與任何人對話。
延展閱讀:為什么腦聆聽理念如此重要?
正如“雞尾酒會效應”帶給我們的啟示,大腦原本就有強大的分離處理能力。大腦的分離處理能力建立在對環境的整體感知上,區分不同聲源的細微差別,過濾出想要聽到的聲源。
這也是為什么傳統方向性技術一直難以解決復雜環境的原因。腦聆聽理念根本上來講是指助聽器輔助大腦去聆聽,在助聽器中提前處理聲音,還原細節,讓播放出的聲音更容易被大腦所識別。充分利用大腦的強大能力,才能從根源上解決噪聲下難以理解的問題。