IT之家 4月11日消息,加州大學(xué)伯克利分校與舊金山分校的研究團隊在腦機接口(BCI)領(lǐng)域取得突破,成功開發(fā)出一種技術(shù),幫助重度癱瘓患者恢復(fù)自然語音表達。該技術(shù)利用人工智能(AI)模型,將大腦信號實時轉(zhuǎn)化為可聽語音,解決傳統(tǒng)語音神經(jīng)假體延遲問題。
加州大學(xué)伯克利分校與舊金山分校的研究團隊開發(fā)了一種創(chuàng)新方法,通過捕捉大腦運動皮層信號,利用AI算法實時解碼并生成語音。
研究共同負責人、伯克利分校電氣工程與計算機科學(xué)系助理教授 Gopala Anumanchipalli 表示,這種“直播”(streaming)方法借鑒了類似Alexa和Siri的語音解碼技術(shù),能顯著縮短從大腦意圖到語音輸出的時間。實驗中,患者Ann無需發(fā)聲,僅通過“默想”句子即可生成接近自然的語音。
新技術(shù)的核心在于解決傳統(tǒng)BCI語音解碼的延遲問題。以往技術(shù)單句解碼需約8秒,而新方法能在患者產(chǎn)生說話意圖后1秒內(nèi)輸出首個音節(jié)。
研究共同第一作者、伯克利分校博士生Kaylo Littlejohn介紹,團隊通過AI預(yù)訓(xùn)練文本轉(zhuǎn)語音模型,模擬患者受傷前的聲音,讓輸出更具個性化。實驗還驗證了該技術(shù)對多種腦信號采集設(shè)備(如微電極陣列和面部肌電傳感器)的兼容性,顯示其廣泛適用性。
研究團隊進一步測試了算法的泛化能力。他們讓患者Ann嘗試“說出”26個未包含在訓(xùn)練數(shù)據(jù)中的單詞,如NATO音標字母表中的“Alpha”、“Bravo”等。
結(jié)果顯示,模型仍能準確解碼,證明其不僅依賴模式匹配,而是真正學(xué)習了語音的構(gòu)成規(guī)律。另一位共同第一作者、博士生Cheol Jun Cho表示,這種能力為未來提升語音表達的語氣、音調(diào)等特征奠定了基礎(chǔ)。
患者Ann反饋,相比2023 年的早期實驗,新方法讓她感到更強的控制感和自我表達能力。研究團隊計劃繼續(xù)優(yōu)化算法,增強語音的自然度和情感表達,同時探索如何將技術(shù)應(yīng)用于更廣泛的臨床場景。
上一篇:人形機器人,困在A輪里
下一篇:沒有了