超負荷 Google I/O：AI 大滿貫更新在前，沒人關注 Pixel 手機了視焦點訊

2023-05-11 10:06:52來源：ZAKER科技

在 AI 上積累了 7 年的谷歌，迎來了一場真正以 AI 為核心的 I/O 發布會。

比起去年，強調「整合全球信息，使人人都能從訪問中受益」的使命，谷歌 CEO Sundar Pichai 今年以「Making AI helpful for everyone」總領整個發布會。AI 將成為工具，幫助每一個人。這既包括了谷歌一貫強調的整合信息、學習，還包括 AI 成為創作力輔助、幫助企業更好地創新產品。

模型、產品、功能、平臺、硬件，一個接一個 demo，一個接一個 trailer，掌聲和歡呼一刻也沒有停下。

【資料圖】

如果沒有 OpenAI 和微軟帶來的競爭，我們可能永遠看到不到這樣一場，超負荷的 Google I/O 發布會。

在這兩個半小時里，山景城的海濱露天劇場，渴望成為世界中心。

開場三個 Demo

開場前的表演即是一個生成式人工智能實驗。

音樂家丹 · 迪肯使用谷歌的 MusicLM、Phenaki 和 Bard Al 制作。「在制作這個節目的過程中，沒有鴨子受到傷害。」

Sundar Pichai 登臺，「機會終于來了，」他說，「這是 AI 的好年」。

在大模型及一系列產品功能更新前，他先上了三碟前菜。

Gmail 發布新功能「幫我寫」（Help Me Write），根據郵件內容，用自然語言命令 AI 撰寫對應的回復。

比如，航空公司發來航班取消的郵件，表示會送上代金券作為補償，這時候你可以讓 AI 幫你寫一個全額退款的郵件，它就會結合具體郵件內容，撰寫全文。

Google Maps 將街景與導航結合，發布新功能「沉浸式路線視圖」（Immersive View for routes）。

用戶可以在導航時，直接提前看到整個路線的動態街景視角。

在這一視圖中，用戶還能查看路線中的交通、天氣情況。Google Photos 推出「魔法編輯器」（Magic Editor）。這是編輯前的圖片，僅僅使用拖拽和一鍵優化，孩子的位置移動了，天空變得更藍了。PaLM2 取代了 LamDA，

分化出四個版本

如今談 AI 技術，必須先亮出大模型，谷歌也不例外。

在 I/O 之前，關于谷歌最新模型的消息就陸續傳出。此前支持 Bard 的模型是一個輕量級的對話模型 LamDA，Pichai 在三月份采訪中就表示，將把背后的模型升級為更大規模的 PaLM 模型。

I/O2023 上，最新最強的 PaLM2 終于露出了廬山真面目。PaLM2 是 PaLM1 的升級版。PaLM2 在數學、編碼、推理、多語言翻譯和自然語言生成上的表現都更加出色。

Pichai 現場展示了一個修改 Bug 后，用韓語對代碼進行解釋的例子：

PaLM 是谷歌于 2022 年 4 月份推出的大語言模型，有 5400 億參數。這次介紹的 PaLM2 是在此基礎上的升級版。PaLM 是 Pathways Language Model 縮寫。可以理解為，在 Pathway 架構上訓練的模型。

Jeff Dean 曾經專門撰文介紹 Pathway 架構，這個架構是為了可以處理多任務的通用模型而設計，采用了一種新的異步分布式數據流，這使得并行計算和運行更加高效。Pathways 還可以支持包含視覺、聽覺和語言理解的多模態模型。

PaLM2 使用谷歌自主研發的 TPU 進行計算，具體使用了多少算力計算 PaLM2 目前尚未公布，但可以參考訓練 PaLM1 的數據，使用了 6144 塊 TPU。

使用谷歌最新的 TPU 架構來訓練模型，意味著在基礎工程上，谷歌進行了整合計算、優化縮放、改善數據集組合和模型架構等各項工作，這些也能夠使得模型能力靈活被調用進各種產品、服務中。谷歌能夠將模型的能力按照需求進行蒸餾和提煉。

為了讓模型的能力更靈活地服務于產品，Pichai 特地強調，PalM2 有四種不同的尺寸，分別以動物的名稱命名：壁虎、水獺、野牛和獨角獸。其中壁虎（Gecko）最輕量級的版本。

Gecko is so lightweight that it can work on mobile devices and is fast enough for great interactive applications on-device, even when offline. This versatility means PaLM 2 can be fine-tuned to support entire classes of products in more ways, to help more people.

Gecko 是如此輕量級，以至于它可以在移動設備上工作，而且速度足夠快，可以在設備上運行交互式應用程序，即使在離線時也是如此。這種多功能性意味著可以對 PalM2 進行微調，以便以更多的方式支持整個類別的產品，從而幫助更多的人。

最輕的模型可以在移動設備上運行交互應用程序，而在最新的三星 Galaxy 上，它能夠每秒處理 16 個 Token。

此外，pathway 架構的設置，也利于在特定領域對模型進行微調。健康研究團隊在此基礎上進一步發展，創建了 Med-PaLM 2，它可以檢索醫學知識、回答問題、生成有用的模板，解碼醫學行話。

在上一代 AI 視覺技術中，AI 已經被訓練能夠看懂 X 光片等圖像，現在結合語言生成能力，模型能夠根據提供的

搜索新體驗：升級 Bard 之外，

又加了一個 Search Lab

之前為了應對 NewBing 的挑戰，谷歌匆匆上線了對話機器人 Bard。但是從各種用戶反饋來看，許多人都覺得作為搜索助手的 Bard 不如 NewBing 好用。

對話與生成將更新搜索體驗，已經成為新的共識，但是具體的產品形態依舊在探索的路上。谷歌也不想用 Bard 這個產品完全定義自己未來的搜索產品形態，因此關于搜索功能的升級，Keynote 中分為兩個部分來展示：Bard 產品升級，Search Lab 的新功能測試。而這些新的功能，都由最 PalM2 來支持。

Bard 的基本功能點升級比如支持更多語言，能夠識別圖像信息，都屬于規定動作，并無意外。讓人感到驚喜的地方是，Bard 將接通谷歌自己的應用程序，以及一些外部的應用，來實現更強大的功能。

比如，有著驚艷語言生成圖像能力的 Adobe firefly，在未來幾個月將直接集成到 Bard 中。這樣在和 Bard 的對話中，就能夠設計圖片，比如請柬的封面、想象中的蛋糕。

谷歌地圖、圖表能力也能夠直接在 Bard 中調用。現場演示給了一個例子，用戶通過提問得到了幾所符合自己報考目的大學名單，讓 Bard 在地圖中將這幾個學校的地址標出來，再讓 Bard 根據學習的專業、排名、地址等相關信息生成對比表格。

關于復雜問題的搜索，則在 Search Lab 的環節中進行演示。Search Lab 是一個探索性的產品，目前還沒有全部開放，需要申請 Waitlist 才能使用。

新的搜索體驗試圖幫助人們更好地分析一個復雜、或者有些模糊的問題。在人們開始搜索的時候，往往問題并不明確，而是知道一個大致的方向，又或者是問題能夠再被拆分為子問題。

現場演示了對比景點、購買 ebike 兩個例子。搜索即是決策過程，AI 生成要點提供了思考的框架，并提供相關鏈接，用戶可以通過對話深挖信息。

有 3 歲以下的孩子和狗狗的家庭，Bryce Canyon 和 National Parks 哪個更適合？在這個案例演示中，Generative AI 匯總提煉了兩個景點的優劣，并且提供了幾篇參考鏈接，如果用戶有需求，可以打開參考鏈接閱讀，而且鏈接文章也會根據不同的內容重點進行分類。在另外一個演示案例中，用戶需要選購一輛支持通勤 5 英里和山路的 ebike，AI 會提煉設計、電池、減震裝置等關鍵的選購因素。對話模式下，AI 會記住用戶之前的一些選擇，對信息做進一步的處理。比如用戶想要「紅色的 Ebike」，AI 會繼續基于「通勤 5 英里、支持山路」等條件繼續進行篩選。谷歌的 AI 副駕駛，叫「Duet AI」

不出意外，有了新模型，對內，能升級的產品升級；對外，向企業提供服務，幫助他們更好地用上模型能力。這也符合 Pichai 在開場后不久提到的「AI helpful everyone」。

Google Workspace 是谷歌推出的多人協作軟件，現在無論是寫作文案、故事寫作、制作幻燈片、制作表格，都可以用上 AI 了，形式類似于微軟的 Copilot，在工作的主界面右側有一個邊欄，谷歌將其稱為「sidekick」，AI 會在這里提出文章的修改意見、建議生成配圖、表格的樣式，用戶選擇合適的結果，就可以將 AI 生成的內容移入主界面。

「sidekick」樣式

「Help Me Write」的寫作輔助功能，同時出現在 Workspace 和 Gamil 里。據谷歌介紹，目前在 Workspace 最受歡迎的用例是「給出幾個關鍵詞，完成招聘要點」。

閱讀室、豌豆莢創始人，同時也是谷歌前員工的王俊煜對此吐槽，這個產品設計就是沿用了 Microsoft 365 Copilot 的思路，但是換了個「Duet AI」的名字。

形式上看起來的確差不多，不過使用體驗如何涉及很多細微的因素，比如根據 prompt 的生成內容是否令人滿意，根據文章內容生成的配圖效果如何，是不是可以直接使用。這些都需要等待用戶們使用了一段時間后，給出反饋。

就像各處出現的「Help Me Write」，「Duet AI」也出現在給開發者的云工具上，在 Cloud Console 出現的「Duet AI」，功能是用語言改善開發者與云平臺上工具的交互體驗。利用生成式 AI 提供實時的上下文代碼完成、代碼函數生成、基于代碼庫的建議，甚至協助進行代碼審查和檢查。

面面俱到的服務：

平臺、模型、計算設施

谷歌面向企業的 AI 平臺叫做 vertex AI，企業用戶可以在這個平臺上調用需要的模型、按照需求對模型的參數權重進行微調、根據內部數據建立企業版本的搜索引擎。

除了語言模型，谷歌還提供了其它三個專業能力模型供選用：圖像生成模型、代碼生成模型、以及文本轉語音模型 Chirp。

在現場展示的合作伙伴中，Replit、Character AI、Canvas 等明星公司都在其中，當然還有谷歌自己投資的 Antropic，也在使用谷歌提供的模型云服務。

現場還公布了一個基礎設施層面的消息，谷歌和英偉達合作，搭建了基于 H100 的下一代 A3 圖形處理器超級計算機。

基于 H100 的 A3 虛擬機，網絡帶寬比上一代 A2 虛擬機多 10 倍。當然，PalM 的 API 也將在不久開放。

可以說，在對外輸出模型能力上，谷歌確實拿出了實力雄厚的大廠做派，從開發工具平臺、到基礎模型、到基礎設施、開放 API，一整個做了全套。

硬件：三款新產品，

Android 14 未登場

這次 I/O 大會上 Google 也發布了一系列的硬件。除了在 2022 I/O 上預告的 Android 平板、新機 Pixel 7a，谷歌也終于發布了自己的折疊手機。

今年 5 月 4 日星戰日，Google 的一段視頻泄露了折疊手機 Pixel Fold 的存在。

對標三星的 Galaxy Z Fold 系列，目前有黑白兩種配色，官方價格 1799 美元，已同步上架，預定送 Pixel Watch，6 月開始配送，默認不包含充電器。

為了實現折疊的形態，谷歌重新設計了長焦鏡頭模組、電池組件等等，使其保持相對的輕薄，官方號稱是最薄的折疊屏手機。

雙屏除了我們常見的桌面模式和懸停模式之外，谷歌考慮的「內外屏」同時顯示功能是『實時翻譯』，內外屏顯示兩種翻譯的語言（感覺并不是什么有用的功能，語音翻譯不是更實用？）。

總結

在微軟的 NewBing、Office 365 全家桶、Notion AI 輔助寫作功能面世之后，再看谷歌的產品似乎都給人一種似曾相識之感，很難耳目一新。大模型給產品形態上帶來的第一輪沖擊，已經基本完成了。

值得注意的是，雖然產品展示了識別圖片的能力，但是谷歌似乎還沒有一個像 GPT-4 這樣的擁有文字、圖像多模態的基礎模型。Pichai 只是預告了一個叫做 Gemini 的多模態模型，正在研發之中，不久后會公布。

拋開 Duet AI 與 Copilot 類似的產品形態，谷歌在介紹時，強調了其自動優化 Prompt 語言表述，以及自動根據文章內容提出寫作建議的特點，似乎更加用戶友好。是否用起來也會如此，還需要等待用戶反饋。同理，最新的模型 PaLM2 所支持的搜索功能，和 NewBing 相比，究竟體驗如何？PaLM2 支持的 Bard，比之前 LamDA 支持的 Bard，使用感能夠提升多少？

在 I/O 的媒體預溝通會上，有人提問，看起來谷歌將模型的能力分散到了各個產品里，重點不明確。來自谷歌研究部門的工作人員回答道，「這似乎是一種分散策略，但在谷歌，我們支持大量的產品，我們將其視為模型的靈活性，來支持不同的用例和受眾群體。這也是我們能夠同時在許多不同方向上測試模型能力的好方法。」

長期來看，大模型的最終競爭壁壘不在于技術，而在于產品是否會被用戶真正接納，圍繞技術能否實現開發者生態。從這次發布來看，谷歌布局了所有能布局的產品與服務，而在其進入的領域中，是否能夠真正形成優勢，所有人將拭目以待。

關鍵詞：

責任編輯：hnmd003