聽一遍就會彈!機械手2分鍾自學超越人類新手
通過感知他人的行為來模仿運動,是人類的本能。比如,嬰兒通過傾聽大人的聲音來咿呀學語,學徒通過觀察師傅的動作來掌握技藝。但這種根植於生物的感知-動作閉環機制,對於機器人而言,卻是難以復刻的難題。
近日,南加州大學(USC)的科學家們開發了一只四指機械手,它只需經過 2 分鍾的鍵盤自學練習,聽一遍陌生的旋律,就能將其完美演奏出來,完全不依賴樂譜或預設程序的指導。相關論文發表在 Journal of the Royal Society Interface 期刊。
領導這項研究的是 USC 維特比工程學院的弗朗西斯科·瓦萊羅-奎瓦斯 (Francisco Valero-Cuevas) ,他的實驗室致力於研究復雜神經肌肉系統(例如人手)的生物力學、神經肌肉控制和臨床康復。
這套被稱為“音樂家之手”(Musician Hand)的系統,包括由肌腱驅動的四指機械手,以及一套全新的感知學習算法。
機械手采用輕量化 3D 打印結構,四個手指由微型電機控制的肌腱驅動。手指上安裝了彈簧,能像人體肌肉張力一樣被動回位,確保動作靈活且富有彈性。指尖還包裹了泡沫材料,模擬人類指腹的柔軟觸感,對在力度敏感的鋼琴鍵盤上演奏較為重要。其內置的神經網絡會分析旋律的聲音,並將其轉化為重現該旋律所需的運動指令。
與依賴大量編程和海量訓練數據集的傳統機器人不同,這款機械手的訓練過程類似於嬰兒時期的“咿呀學語”。在 2 分鍾的時間裡,機械手會在琴鍵上隨機亂按。在亂按的過程中,它的內部算法會記錄下什麼樣的按鍵動作(力度和時間)會產生什麼樣的聲音(頻率和強度)。
經過 2 分鍾的訓練後,再次聽到一段全新的旋律時,系統會將這段聲音轉化為聲譜圖,並直接調用之前積累的經驗,推導出需要哪些手指動作來重現這段旋律,全程不需要任何試錯糾正。
為了驗證效果,研究團隊專門請兩位作曲家創作了三首只使用四個相鄰琴鍵(C4、D4、E4、F4)的簡單旋律,每首時長約 20-30 秒,節奏統一在每分鍾 90 拍。
團隊選擇了9 位人類參與者,包括 4 位訓練有素的鋼琴手(3 位專業演奏者和 1 位業余愛好者,均有鋼琴演奏的訓練和經驗)和 5 位無任何鋼琴基礎的新手,他們被允許“咿呀學語”5 分鍾,然後練習 3 分鍾,最後有 1 分鍾時間正式演奏。機械手則只經過 2 分鍾隨機探索,就直接聽一遍演奏。研究主要評估了他們在復刻旋律 1(有 37 個音符)上的表現。
結果顯示,在音符識別准確率上,機械手達到了 100%,完整復現了三首旋律的所有音符;而新手參與者僅能正確彈出前 2-3 個音符,准確率僅 6%-9%,無法完成完整演奏。專業鋼琴演奏者的音符准確率為 92%-100%,一位演奏得完美無缺,其他人在演奏 37 個音符時犯了 1 到 4 個錯誤。
在力度還原度上,機器人得分 68%,專業演奏者為 78%-100%,略勝一籌;節奏時差方面,機器人控制在 150 毫秒左右,專業演奏者低於 120 毫秒,同樣小幅領先。
研究人員還對機械手和 5 位鋼琴家彈奏的音樂片段,進行了感知相似性、聽覺相似性和節奏相似性的量化。對於所有三個指標,得分為 0 表示無相似性(特征完全不同),0.5 表示中等相似性(有一些共享特征,但在頻譜圖和短期功率譜上有重大差異),1 表示完全相似(特征相同)。
對於旋律 1,“音樂家之手”在所有三個指標上取得了與四位人類鋼琴家相當的相似性得分,兩者的得分均在 0.9+ 范圍內。

不錯的新聞,我要點贊
無評論不新聞,發表一下您的意見吧
近日,南加州大學(USC)的科學家們開發了一只四指機械手,它只需經過 2 分鍾的鍵盤自學練習,聽一遍陌生的旋律,就能將其完美演奏出來,完全不依賴樂譜或預設程序的指導。相關論文發表在 Journal of the Royal Society Interface 期刊。
領導這項研究的是 USC 維特比工程學院的弗朗西斯科·瓦萊羅-奎瓦斯 (Francisco Valero-Cuevas) ,他的實驗室致力於研究復雜神經肌肉系統(例如人手)的生物力學、神經肌肉控制和臨床康復。
這套被稱為“音樂家之手”(Musician Hand)的系統,包括由肌腱驅動的四指機械手,以及一套全新的感知學習算法。
機械手采用輕量化 3D 打印結構,四個手指由微型電機控制的肌腱驅動。手指上安裝了彈簧,能像人體肌肉張力一樣被動回位,確保動作靈活且富有彈性。指尖還包裹了泡沫材料,模擬人類指腹的柔軟觸感,對在力度敏感的鋼琴鍵盤上演奏較為重要。其內置的神經網絡會分析旋律的聲音,並將其轉化為重現該旋律所需的運動指令。
與依賴大量編程和海量訓練數據集的傳統機器人不同,這款機械手的訓練過程類似於嬰兒時期的“咿呀學語”。在 2 分鍾的時間裡,機械手會在琴鍵上隨機亂按。在亂按的過程中,它的內部算法會記錄下什麼樣的按鍵動作(力度和時間)會產生什麼樣的聲音(頻率和強度)。
經過 2 分鍾的訓練後,再次聽到一段全新的旋律時,系統會將這段聲音轉化為聲譜圖,並直接調用之前積累的經驗,推導出需要哪些手指動作來重現這段旋律,全程不需要任何試錯糾正。
為了驗證效果,研究團隊專門請兩位作曲家創作了三首只使用四個相鄰琴鍵(C4、D4、E4、F4)的簡單旋律,每首時長約 20-30 秒,節奏統一在每分鍾 90 拍。
團隊選擇了9 位人類參與者,包括 4 位訓練有素的鋼琴手(3 位專業演奏者和 1 位業余愛好者,均有鋼琴演奏的訓練和經驗)和 5 位無任何鋼琴基礎的新手,他們被允許“咿呀學語”5 分鍾,然後練習 3 分鍾,最後有 1 分鍾時間正式演奏。機械手則只經過 2 分鍾隨機探索,就直接聽一遍演奏。研究主要評估了他們在復刻旋律 1(有 37 個音符)上的表現。
結果顯示,在音符識別准確率上,機械手達到了 100%,完整復現了三首旋律的所有音符;而新手參與者僅能正確彈出前 2-3 個音符,准確率僅 6%-9%,無法完成完整演奏。專業鋼琴演奏者的音符准確率為 92%-100%,一位演奏得完美無缺,其他人在演奏 37 個音符時犯了 1 到 4 個錯誤。
在力度還原度上,機器人得分 68%,專業演奏者為 78%-100%,略勝一籌;節奏時差方面,機器人控制在 150 毫秒左右,專業演奏者低於 120 毫秒,同樣小幅領先。
研究人員還對機械手和 5 位鋼琴家彈奏的音樂片段,進行了感知相似性、聽覺相似性和節奏相似性的量化。對於所有三個指標,得分為 0 表示無相似性(特征完全不同),0.5 表示中等相似性(有一些共享特征,但在頻譜圖和短期功率譜上有重大差異),1 表示完全相似(特征相同)。
對於旋律 1,“音樂家之手”在所有三個指標上取得了與四位人類鋼琴家相當的相似性得分,兩者的得分均在 0.9+ 范圍內。

| 分享: |
| 注: | 在此頁閱讀全文 |



聽一遍就會彈!機械手2分鍾自學超越人類新手