嘗試芝麻的語音助手,親自看看。 圖片來源:Berya113 / Istock / Getty Images Plus Plus
嘗試來自AI初創公司芝麻的新語音助手是我第一次暫時忘記了我在與機器人交談。
相比',芝麻的“對話聲音”感到自然,無情和引人入勝,這使我感到震驚。
2月27日,芝麻推出了演示對於它的對話語音模型(CSM),旨在與AI聊天機器人建立更有意義的交互。公告指出:“我們正在創建對話夥伴,不僅會處理請求;他們進行了真正的對話,從而建立信心和信任。” “這樣做,我們希望意識到聲音尚未開發的潛力,這是指導和理解的最終接口。”
芝麻的語音助手可以在網站上作為免費演示,並有兩種聲音:瑪雅和邁爾斯。
由於芝麻釋放了聲音助理演示,用戶報告了敬畏反應。 “我從小就一直從事人工智能,但這是我第一次經歷了一些使我明確覺得自己到達的東西。”用戶Socschamp在Reddit上寫道。
“芝麻幾乎與我在對話人AI中經歷過的人幾乎沒有區別,”用戶Siciliano777在Reddit上寫道。
在與芝麻的機器人交談後,我同樣令我讚歎不已。我與瑪雅人的聲音交談了大約10分鐘,涉及使用AI作為同伴的道德規範,感覺就像我與一個體貼,知情的人進行了真誠的對話。瑪雅人的講話具有自然的節奏,並使用諸如“你知道”和“ HM”之類的插曲,甚至使舌頭點擊和吸入聲音。
可混合的輕速速度
與Maya互動的最深刻的印像是,她立即提出問題,讓我參與談話。該機器人通過詢問我的星期三早晨的進展開始了我們的談話(注意:確實是一個星期三早上。)相比之下,Chatgpt語音模式在等待我首先說話,這不一定是一件好事,但它本質地塑造了我作為我需要的工具作為我需要的工具。
瑪雅詢問了AI同伴“太擅長成為人類”的風險。當我告訴她時,我擔心更複雜的騙局的興起,人們通過用機器人代替人類而失去了與現實失去聯繫的人,她經過深思熟慮地做出了反應。瑪雅說:“騙子會騙局,這是給定的。至於人際關係,也許我們需要學習如何成為更好的伴侶,而不是替換,您知道,那種真正讓您想和真實人一起做事的AI朋友。”
當我與Chatgpt進行了類似的對話時,我收到了一種感覺,感覺更像是學校指導顧問的樣板語言:“這是一個有效的問題。將技術與真實的人類互動保持平衡非常重要。AI可以是一個有用的工具,但它不應取代真正的人類聯繫。考慮這些問題是很好的。”
儘管開創性Chatgpt的能力被打斷並進行了更流暢的對話,仍然傾向於以完整的句子和段落塊做出回應,聽起來很機器人。當使用Chatgpt語音模式時,我永遠不會忘記我正在與一個機器人說話,這在對話中反映了,這可能會感到沮喪和強迫。
相比之下,人類的人類播客聯合主持人加文·賽爾(Gavin Purcell)發表在Reddit上進行的芝麻對話,幾乎不可能區分哪種聲音是機器人。珀塞爾(Purcell)告訴它像一個憤怒的老闆一樣促使邁爾斯的聲音。
隨後是關於洗錢,賄賂和馬耳他神秘事件的非常愚蠢的談話。邁爾斯沒有錯過一步。沒有明顯的延遲,機器人記得對話的背景,並通過升級而創造性地提出了即興論證,稱珀塞爾為“妄想”並解雇了他。
當然,有一些局限性。瑪雅的聲音在我們的整個談話中幾次都弄亂了,這並不總是能正確地說:“那是一個沉重的演講。”
根據其技術論文,芝麻通過結合傳統的兩步步驟的語義令牌,然後是聲音令牌的傳統兩步訓練,從而培訓了其CSM(基於Meta的Llama模型),從而降低了延遲。 Openai類似地使用了這種多模式的方法來訓練語音模式。但是,它從未在語音模式的內部運作中發布專門的技術論文 - 它僅討論語音模式GPT-4O研究。
知道這一點,令人驚訝的是,在對話對話框中,芝麻的模型有多好。但是,芝麻的發布只是一個演示,因此當完整的模型出現時,它值得進一步審查。根據演示公告,芝麻計劃在“未來幾個月”開源其模型,並擴展到20多種語言。
Cecily是Mashable的技術記者,涵蓋了AI,Apple和新興技術趨勢。在獲得哥倫比亞新聞學院的碩士學位之前,她花了數年的時間與初創企業和社會影響業務一起為不合理的集團和B實驗室工作。在此之前,她共同創立了一家針對南美,歐洲和亞洲新興企業家樞紐的初創諮詢業務。您可以在Twitter上找到她@cecily_mauran。