OpenAI、谷歌“掰手腕” 大模型給人工智能裝上“眼睛耳朵嘴巴”
發布時間:
2024-05-15
央廣網北京5月15日消息(記者 牛谷月)北京時間15日凌晨1點,谷歌召開年度I/O開發者大會。根據谷歌官方統計,在這場110分鐘演講中,谷歌CEO桑達爾·皮查伊(Sundar Pichai)提及AI的次數高達121次,同時推出了一系列以AI為核心的產品和服務。而就在前一天,ChatGPT的開發公司OpenAI的首席技術官米拉·穆拉提(Mira Murati)進入直播室,發布了OpenAI的春季大更新,包括桌面版本的ChatGPT,以及可實時進行音頻、視覺和文本推理的最新旗艦大模型GPT-4o。Google新發布的“AI全家桶”,更被視作是對GPT-4o的回擊和“叫板”。
央廣網北京5月15日消息(記者 牛谷月)北京時間15日凌晨1點,谷歌召開年度I/O開發者大會。根據谷歌官方統計,在這場110分鐘演講中,谷歌CEO桑達爾·皮查伊(Sundar Pichai)提及AI的次數高達121次,同時推出了一系列以AI為核心的產品和服務。而就在前一天,ChatGPT的開發公司OpenAI的首席技術官米拉·穆拉提(Mira Murati)進入直播室,發布了OpenAI的春季大更新,包括桌面版本的ChatGPT,以及可實時進行音頻、視覺和文本推理的最新旗艦大模型GPT-4o。Google新發布的“AI全家桶”,更被視作是對GPT-4o的回擊和“叫板”。
人類對AI的探索如火如荼,人機交互再次大邁步,打破了傳統“語音助手”的桎梏。大模型就像給AI裝上了“眼睛耳朵嘴巴”,從此你的快樂傷悲它都能“體會”。未來已經來臨了嗎?
“讀取人類情緒”——向更自然的人機交互邁進一步
在OpenAI的春季發布會上,雖然大家沒能見到GPT-5,但GPT-4o的出現仍然驚艷。據OpenAI官網介紹,GPT-4o中的“o”代表“Omni”,這是一個基于GPT-4之上的多模態大模型。
OpenAI稱,它向更自然的人機交互邁進了一步,因為它接受文本、音頻和圖像的任意組合作為輸入內容,并生成文本、音頻和圖像的任意組合輸出內容。
值得注意的是,GPT-4o能夠與用戶進行多樣化的語氣交互,并精準捕捉到用戶的情緒變化。發布會上,OpenAI前沿研究部門主管陳信翰(Mark Chen)讓GPT-4o聆聽他的呼吸,聊天機器人偵測到他急促的呼吸,并且建議他不要“像吸塵器那樣呼吸”,要放慢速度。隨后Mark深呼吸一次,GPT-4o表示這才是正確的呼吸方式。同時,研究員巴雷特·佐夫(Barret Zoph)還演示了GPT-4o是如何通過前置攝像頭觀察用戶的面部表情,分析其情緒的。
“GPT-4o不僅能夠理解用戶的語氣,還能做到恰到好處的反應。”DCCI互聯網研究院院長劉興亮感慨道,“想象一下,GPT-4o在你緊張的時候能夠安慰你,讓你深呼吸,甚至開個小玩笑緩解你的壓力。這種情感識別能力使得人機交互變得更加自然和親切,仿佛我們身邊有了一個懂我們心情的貼心朋友。”
而在一天后的谷歌I/O開發者大會上,谷歌緊跟其后,發布了一款名為Project Astra的谷歌AI助手。這款通用模型通過智能手機的攝像頭捕捉并分析周圍環境,還能與用戶進行實時對話。在演示視頻中,用戶手持手機,將攝像頭對準辦公室的不同角落,并通過語言與系統進行交互。例如,當用戶發出指令“請告訴我智能眼鏡在哪里”時,Astra能夠迅速識別物體,并與用戶進行實時的語音交流。同時,當用戶看向窗外,智能助手立刻就說出了用戶的詳細地址:“這兒顯然是倫敦的國王十字路口區域。”它也可以理解繪畫和圖像,如可以對一個寫在白板上的系統流程圖給出意見“在服務器和數據庫間添加緩存可以提高速度”。
DeepMind聯合創始人兼首席執行官德米斯·哈薩比斯(Demis Hassabis)稱,Project Astra是自己期待了幾十年的AI助手的雛形,是通用AI的未來,“AI個人助理可以通過連續編碼視頻幀、將視頻和語音輸入組合到事件時間線中,并緩存這些信息以進行有效回憶,從而更快地處理信息。”
劉興亮指出:“雖然OpenAI的GPT-4o在自然語言處理能力上表現強大,但谷歌在多模態理解、數據豐富性和開發者支持方面也展現了強勁的競爭力。兩者在各自擅長的領域均有顯著優勢,并不斷推動人工智能技術的發展。”
快速響應!——接近人類對話時的響應時間
從“你的快樂傷悲它能體會”到“你的快樂傷悲它能體會并給出及時回應”,人工智能大模型的響應時間的縮短讓人機交互更加絲滑。
在OpenAI發布會上,人們見到了GPT-4o更快的響應速度:能夠在短至232毫秒內響應音頻輸入,平均響應時間為320毫秒,與人類在對話中的反應速度幾乎一致。“我們可以說GPT-4o是AI界的‘閃電俠’,速度快到令人發指。”劉興亮分析,“相比之下,傳統語音助手如Siri、Alexa以及各種‘同學們’在處理語音輸入時,需要經過繁瑣的音頻轉文本再轉回音頻的過程。而GPT-4o通過端到端的訓練,直接處理所有輸入和輸出,實現了真正的毫秒級響應。”
記者了解到,在GPT-4o之前,使用ChatGPT的語音模式時,需要多個模型的接力處理:先將音頻轉換為文本,再進行“輸入并輸出文本”的處理,最后再將文本轉換回音頻。這種處理方式常導致信息的大量丟失,例如無法捕捉到語調、識別多個說話者或背景噪音,也無法生成笑聲、歌唱或其他情感表達。而GPT-4o是OpenAI的首個整合文本、視覺和音頻多模態輸入與輸出的模型。通過端到端地訓練一個統一的新模型,實現了所有輸入和輸出的處理都由同一個神經網絡完成。
360集團創始人、董事長周鴻祎在其發表的視頻中感慨:“這就帶來了一個全新的體驗,時延大概只有300毫秒左右,達到了人類和人類談話的響應速度,這樣不僅能聽得懂你話里的情緒,在輸出回答的時候也可以伴隨著高興、悲傷、失望、興奮或者是更復雜的感情。”
國泰君安15日研報表示,GPT-4o作為基礎性工具為更多創新應用提供了生長土壤。研報認為,對圖像和視頻的理解和高效的實時互動,一定程度對其他單一功能的AI軟件有替代的可能性,GPTStore有望推出更多便捷應用,豐富應用商城生態。同時隨著GPT在桌面端和移動端的持續滲透,AI助理應用有望更快普及,新型商業模式或將逐步推出。
更多精彩資訊請在應用市場下載“央廣網”客戶端。歡迎提供新聞線索,24小時報料熱線400-800-0088;消費者也可通過央廣網“啄木鳥消費者投訴平臺”線上投訴。版權聲明:本文章版權歸屬央廣網所有,未經授權不得轉載。轉載請聯系:cnrbanquan@cnr.cn,不尊重原創的行為我們將追究責任。