使用稱為深度神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)系統(tǒng),麻省理工學(xué)院的研究人員創(chuàng)造了第一個能夠在聽覺任務(wù)中復(fù)制人類表現(xiàn)的模型,例如識別音樂類型。
該模型由多層信息處理單元組成,可以對大量數(shù)據(jù)進行訓(xùn)練以執(zhí)行特定任務(wù),研究人員使用該模型來闡明人類大腦如何執(zhí)行相同的任務(wù)。
(資料圖片僅供參考)
“這些模型首次為我們提供的機器系統(tǒng)能夠執(zhí)行對人類至關(guān)重要的感官任務(wù),并且在人類層面上這樣做,”Frederick A.和Carole J. Middleton神經(jīng)科學(xué)助理教授Josh McDermott說。在麻省理工學(xué)院的腦與認知科學(xué)系和該研究的高級作者。“從歷史上看,這種類型的感官處理很難理解,部分原因是我們沒有真正的理論基礎(chǔ)和開發(fā)可能發(fā)生的模型的好方法。”
這項研究發(fā)表在4月19日的“ 神經(jīng)元”雜志上,也提供了人類聽覺皮層排列在等級組織中的證據(jù),就像視覺皮層一樣。在這種類型的安排中,感官信息通過連續(xù)的處理階段,先前處理基本信息,并且在后期階段提取諸如詞義之類的更高級特征。
麻省理工學(xué)院的研究生Alexander Kell和斯坦福大學(xué)助理教授Daniel Yamins是該論文的主要作者。其他作者是前麻省理工學(xué)院訪問學(xué)生Erica Shook和前麻省理工學(xué)院博士后Sam Norman-Haignere。
當深度神經(jīng)網(wǎng)絡(luò)在20世紀80年代首次發(fā)展時,神經(jīng)科學(xué)家希望這種系統(tǒng)可用于模擬人類大腦。然而,那個時代的計算機并不足以構(gòu)建足夠大的模型來執(zhí)行對象識別或語音識別等現(xiàn)實任務(wù)。
在過去五年中,計算能力和神經(jīng)網(wǎng)絡(luò)技術(shù)的進步使得使用神經(jīng)網(wǎng)絡(luò)執(zhí)行困難的現(xiàn)實任務(wù)成為可能,并且它們已成為許多工程應(yīng)用中的標準方法。與此同時,一些神經(jīng)科學(xué)家重新考慮了這些系統(tǒng)可能用于模擬人類大腦的可能性。
“對于神經(jīng)科學(xué)而言,這是一個令人興奮的機會,因為我們實際上可以創(chuàng)建能夠完成人們可以做的事情的系統(tǒng),然后我們可以查詢模型并將它們與大腦進行比較,”Kell說。
麻省理工學(xué)院的研究人員訓(xùn)練他們的神經(jīng)網(wǎng)絡(luò)執(zhí)行兩個聽覺任務(wù),一個涉及語音,另一個涉及音樂。對于演講任務(wù),研究人員給這個模型提供了成千上萬的兩秒鐘錄音。任務(wù)是識別剪輯中間的單詞。對于音樂任務(wù),模型被要求識別兩秒音樂剪輯的類型。每個剪輯還包括背景噪聲,以使任務(wù)更加真實(并且更加困難)。
在成千上萬的例子之后,模型學(xué)會了像人類聽眾那樣準確地完成任務(wù)。
“這個想法隨著時間的推移,模??型在任務(wù)中變得越來越好,”凱爾說?!跋M菍W(xué)習(xí)一般的東西,所以如果你提出一個模型從未聽過的新聲音,它會表現(xiàn)良好,而在實踐中往往就是這樣。”
該模型也傾向于在人類犯錯最多的相同剪輯上犯錯誤。
構(gòu)成神經(jīng)網(wǎng)絡(luò)的處理單元可以以各種方式組合,形成影響模型性能的不同架構(gòu)。
麻省理工學(xué)院的團隊發(fā)現(xiàn),這兩項任務(wù)的最佳模型是將處理分為兩組。第一組階段在任務(wù)之間共享,但在此之后,它分成兩個分支用于進一步分析 - 一個用于語音任務(wù)的分支,一個用于音樂類型任務(wù)。
等級證據(jù)
然后,研究人員利用他們的模型探討了一個關(guān)于聽覺皮層結(jié)構(gòu)的長期問題:它是否是分層次組織的。
在分層系統(tǒng)中,一系列腦區(qū)域在感知信息流過系統(tǒng)時執(zhí)行不同類型的計算。已有文獻記載,視覺皮層具有這種類型的組織。早期的區(qū)域,即初級視覺皮層,對顏色或方向等簡單特征作出反應(yīng)。后期階段可以實現(xiàn)更復(fù)雜的任務(wù),例如對象識別。
然而,很難測試這種類型的組織是否也存在于聽覺皮層中,部分原因是因為沒有好的模型可以復(fù)制人類的聽覺行為。
“我們認為,如果我們能夠構(gòu)建一個可以做與人們相同的事情的模型,那么我們就可以將模型的不同階段與大腦的不同部分進行比較,并獲得一些證據(jù),證明這些部分是否與大腦可能是分層組織的,“麥克德莫特說。
研究人員發(fā)現(xiàn),在他們的模型中,聲音的基本特征如頻率在早期階段更容易提取。隨著信息的處理和向網(wǎng)絡(luò)的進一步移動,提取頻率變得更加困難,但更容易提取諸如單詞之類的更高級別的信息。
為了觀察模型階段是否可以復(fù)制人類聽覺皮層如何處理聲音信息,研究人員使用功能磁共振成像(fMRI)來測量聽覺皮層的不同區(qū)域,因為大腦處理真實世界的聲音。然后,他們在處理相同聲音時比較了大腦對模型中響應(yīng)的響應(yīng)。
他們發(fā)現(xiàn)模型的中間階段最能與初級聽覺皮層的活動相對應(yīng),后期階段最能與初級皮層外的活動相對應(yīng)。研究人員說,這提供了證據(jù)表明聽覺皮層可能以分層方式排列,類似于視覺皮層。
“我們非常清楚地看到的是初級聽覺皮層與其他一切之間的區(qū)別,”McDermott說。
作者現(xiàn)在計劃開發(fā)能夠執(zhí)行其他類型聽覺任務(wù)的模型,例如確定特定聲音的來源,探索這些任務(wù)是否可以通過此模型中確定的路徑完成,或者是否需要單獨的路徑,然后可以在大腦中進行調(diào)查。
本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!關(guān)鍵詞: