| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

新聞資訊

論壇

溫哥華地產

大溫餐館點評

溫哥華汽車

溫哥華教育

黃頁/二手

旅游

ChatGPT已經開始入侵物理的世界了

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!



OpenAI,又悄咪咪地放大招了。

當地時間 9 月 25 日,OpenAI 在官網更新博客,宣布 ChatGPT 已經具備看、聽、說的能力。這是 GPT-4 大型語言模型推出以來最大的一次功能更新。


從官方放出的應用案例來看,通過手機攝像頭和麥克風,ChatGPT 現在已經能幫助人們解決實際問題。例如用手機拍一下共享單車的照片,並且詢問人工智能助手如何調節座椅,ChatGPT 就可以看懂圖片,並且給出相應步驟。

隨著技術的快速迭代,生成式 AI 競賽正在進入了一個全新的階段——多模態之爭。在這個階段,各大科技公司紛紛推出了一系列新產品和功能,通過人工智能技術打破傳統搜索引擎和聊天機器人的局限性的同時,也為用戶帶來更加豐富和精准的交互體驗。

那麼,“升級”了的 ChatGPT,是否能成為“賈維斯”一樣的 AI 助理,幫助人們打點生活了?而 OpenAI 又是怎麼做到的?

01

ChatGPT

長了眼睛和嘴巴

生成式 AI 競賽的下一個階段正在來臨——多模態之爭。


最近,Meta 推出了 AudioCraft,用於通過 AI 生成音樂;谷歌 Bard 和微軟 Bing 的聊天體驗也已部署了多模態功能;亞馬遜也在借助 LLM 的力量來增強其 Alexa 數字助理(為 Echo 系列智能設備提供支持)的功能,9 月 25 日剛剛宣布斥資 40 億美元投資 OpenAI 的競爭對手 Anthropic,後者是 Claude 2 聊天機器人的制造商;蘋果也在試驗通過 AI 生成語音,即 Personal Voice。

而在上周發布支持文本和排版生成的最新圖像生成模型 DALL-E 3 之後,當地時間周一晚,OpenAI 發布了《ChatGPT 現在能看、能聽、能說了》的公告,宣布對 ChatGPT 進行重大更新,使其 GPT-3.5 和 GPT-4 人工智能模型能夠分析圖像,並作為文本對話的一部分對圖像做出反應。

此外,ChatGPT 移動應用程序還將增加語音合成選項,與現有的語音識別功能搭配使用時,將實現與人工智能助手的完全語言對話。

根據官網,ChatGPT 現在已經具備了如下功能:


語音功能

OpenAI 在公告中稱語音功能由一個新的文本轉語音模型(text to speech)驅動,只需要文本和幾秒的語音樣本就可以生成類似人聲的音頻。一方面,OpenAI 與專業配音演員合作創建了語音條,另一方面,OpenAI 還使用了自己開源的語音識別系統 Whisper,可以將用戶的語音轉錄為文字。

ChatGPT 已經有了語音交互能力|OpenAI

該功能推出後,用戶可以在應用的設置中選擇語音對話,然後從“Juniper”、“Sky”、“Cove”、“Ember”和“Breeze”等五種不同的合成聲音中選擇一個,說出他們想要的內容,機器人就會使用所選的語音提供答案。例如,人們可以詢問睡前故事,或者就餐桌上正在進行的談話提出問題。

不過,語音對話功能的使用可能面臨有一些限制。OpenAI 表示,該模型在轉錄英文文本方面表現出色,但在一些其他語言,特別是使用非羅馬字母的語言中表現不佳。因此,建議非英語用戶使用 ChatGPT 來進行此類用途時要慎重。

圖像理解
覺得新聞不錯,請點個贊吧     還沒人說話啊,我想來說幾句
上一頁12下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0312 秒 and 4 DB Queries in 0.0016 秒