ChatGPT已經開始入侵物理的世界了

2023-09-28 | 來源: 極客公園 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

OpenAI，又悄咪咪地放大招了。

當地時間 9 月 25 日，OpenAI 在官網更新博客，宣布 ChatGPT 已經具備看、聽、說的能力。這是 GPT-4 大型語言模型推出以來最大的一次功能更新。

從官方放出的應用案例來看，通過手機攝像頭和麥克風，ChatGPT 現在已經能幫助人們解決實際問題。例如用手機拍一下共享單車的照片，並且詢問人工智能助手如何調節座椅，ChatGPT 就可以看懂圖片，並且給出相應步驟。

隨著技術的快速迭代，生成式 AI 競賽正在進入了一個全新的階段——多模態之爭。在這個階段，各大科技公司紛紛推出了一系列新產品和功能，通過人工智能技術打破傳統搜索引擎和聊天機器人的局限性的同時，也為用戶帶來更加豐富和精准的交互體驗。

那麼，“升級”了的 ChatGPT，是否能成為“賈維斯”一樣的 AI 助理，幫助人們打點生活了？而 OpenAI 又是怎麼做到的？

01

ChatGPT

長了眼睛和嘴巴

生成式 AI 競賽的下一個階段正在來臨——多模態之爭。

當ChatGPT變成舔狗,這才是AI最危險的一面

加國華人媽媽用ChatGPT養娃專家發警告

Copilot、Gemini、ChatGPT差別在哪?如何挑選AI

最近，Meta 推出了 AudioCraft，用於通過 AI 生成音樂；谷歌 Bard 和微軟 Bing 的聊天體驗也已部署了多模態功能；亞馬遜也在借助 LLM 的力量來增強其 Alexa 數字助理（為 Echo 系列智能設備提供支持）的功能，9 月 25 日剛剛宣布斥資 40 億美元投資 OpenAI 的競爭對手 Anthropic，後者是 Claude 2 聊天機器人的制造商；蘋果也在試驗通過 AI 生成語音，即 Personal Voice。

而在上周發布支持文本和排版生成的最新圖像生成模型 DALL-E 3 之後，當地時間周一晚，OpenAI 發布了《ChatGPT 現在能看、能聽、能說了》的公告，宣布對 ChatGPT 進行重大更新，使其 GPT-3.5 和 GPT-4 人工智能模型能夠分析圖像，並作為文本對話的一部分對圖像做出反應。

此外，ChatGPT 移動應用程序還將增加語音合成選項，與現有的語音識別功能搭配使用時，將實現與人工智能助手的完全語言對話。

根據官網，ChatGPT 現在已經具備了如下功能：

語音功能

OpenAI 在公告中稱語音功能由一個新的文本轉語音模型（text to speech）驅動，只需要文本和幾秒的語音樣本就可以生成類似人聲的音頻。一方面，OpenAI 與專業配音演員合作創建了語音條，另一方面，OpenAI 還使用了自己開源的語音識別系統 Whisper，可以將用戶的語音轉錄為文字。

ChatGPT 已經有了語音交互能力｜OpenAI

該功能推出後，用戶可以在應用的設置中選擇語音對話，然後從“Juniper”、“Sky”、“Cove”、“Ember”和“Breeze”等五種不同的合成聲音中選擇一個，說出他們想要的內容，機器人就會使用所選的語音提供答案。例如，人們可以詢問睡前故事，或者就餐桌上正在進行的談話提出問題。

不過，語音對話功能的使用可能面臨有一些限制。OpenAI 表示，該模型在轉錄英文文本方面表現出色，但在一些其他語言，特別是使用非羅馬字母的語言中表現不佳。因此，建議非英語用戶使用 ChatGPT 來進行此類用途時要慎重。

圖像理解