本文來自于微信公眾號 頭號AI玩家(ID:AIGCplayer),作者:麥飛。
最近一周,網上關于谷歌AI overview(AI概覽)的討論沸沸揚揚,簡直快要扛起X平臺科技區的流量大旗。
這款在2023年5月就推出測試版的AI搜索,在正式上線前已處理了超十億次查詢,卻依舊沒能逃過翻車的命運,原因是它仍無法判斷“人能不能吃石頭、喝膠水”。
5月30日,谷歌副總裁、谷歌搜索負責人利茲·里德 (Liz Reid)在官方博客撰文回應,側面承認了AI overview存在問題,并簡要概述了谷歌為改善這個系統將會采取的相關措施。
回顧一下,AI概覽功能于5月15日在谷歌I/O大會上正式官宣,是谷歌為其最盈利的搜索業務進行的重磅升級。當用戶使用AI概覽搜索某話題時,可直接在頁面頂部看到AI生成的答案,無需再一個個地點開相關網頁。
例:詢問谷歌“如何減肥”
然而,AI概覽并非是知識源,它只能從網絡上抓取曾由人類發布的信息,然后再進行匯總以生成某種看似連貫且智能的東西。如果它檢索到的某個前排信息恰好是錯誤的,那它完全有可能生成出不合理乃至啼笑皆非的答案。
比如“通過添加膠水來防止奶酪從披薩上滑落”。
“鯊魚比月球還要蒼老。”
“孕婦每天可吸2-3根煙。”
“美國前總統約翰·亞當斯從大學畢業了21次。”
“互聯網上一切信息都是真的。”
諸如此類。
由于谷歌頻頻出現事實錯誤,公眾對其的信任度一再滑坡。如果AI概覽連常識都無法具備,那它所表現出的創造性都是假象嗎?
谷歌AI概覽為什么總是出錯?
讓我們先回到利茲·里德5月30日發表的那篇博客:“AI概覽,關于上周”。
里德首先了回應了關于大模型幻覺的問題,直言AI概覽出錯并非因為幻覺。為什么這么說呢?因為AI概覽的工作原理要求它一切回復都要有據可查。
AI概覽的工作方式不同于其它大語言模型,如果說其他LLM更擅長輸出,那么AI概覽則堅持了谷歌的本心,“更擅于搜索”。谷歌一直以提供高質量結果著稱,這要求AI概覽的回復不僅包括文本,還要附上信息源鏈接。
里德據此認為,如果將出現幻覺的可能性排除,那么AI概覽出錯的原因只能是:“誤解查詢、誤解網絡上的語言細微差別,或者沒有大量可用的有用信息”,最后一種也被稱作信息鴻溝。
細心網友很快發現了里德回復中的漏洞,即谷歌所稱的“高質量結果”到底是什么?作為科技公司,支撐谷歌檢索質量的一直就只有算法。也就是說,所謂的“高質量結果”不過是先基于算法假設進行推演(且不總是精準),然后再由AI概覽在算法推薦的前排信息中匯總出來的。
所以,AI概覽的致命缺陷是它只覆蓋到算法推薦的頂端網頁所發布的內容,而對其他信息視而不見。
里德也提到,在谷歌內部測試中,AI概覽會在每700萬次查詢中出現一次錯誤。置換到網絡量級下,每天數十億次的查詢必然會發生更多異常。
除此之外,在網友發布的很多AI概覽笑話中,問答平臺Reddit也難以隱身。比如本次事件的起源,就是網友Gizmodo在5月22日詢問谷歌“如何防止奶酪從披薩上滑落”。事情的后續大家也都知道了——AI概覽援引了Reddit上一篇11年前的搞笑答案,推薦網友使用“無毒膠水”。
Reddit可理解成美版知乎,近年來,它多次被外國網友奉為“比谷歌更好的搜索引擎”。
而之所以如此,是因為越來越多的人會在使用谷歌時附上“site:Reddit.com”,直接將谷歌架空只看Reddit答案。
據悉,谷歌已占據全球搜索引擎90%以上的份額,幾乎達到了它所能達到的最大規模。如果想要保持利潤,它需要增強用戶粘性,滿足用戶喜好。所以在今年二月,谷歌壕擲6000萬美元,與Reddit達成合作。
然而從AI概覽的表現來看,谷歌這一步并不高明,因為Reddit的信息總是“人性使然”。
網友心水Reddit的一大原因正是這個平臺上都是活人,且有很多權威人士。在產品測評和人生經歷等方面,Reddit更能為網友提供真實建議,且遠比谷歌中立(因為谷歌廣告太多)。同時,Reddit的內容排名也更為公道,依據是轉評贊,不會出現谷歌把中等質量的內容放在優質內容前的情況。
但Reddit同樣在很多方面充滿爭議和矛盾,尤其是該平臺的內容充斥著大量垃圾帖子和陰謀論。當真人在Reddit上敞開心扉時,Reddit勢必要同時接受人類最好和最壞的一面。
一時間,AI概覽口碑崩壞,加上谷歌本身不允許用戶禁用該功能,關閉AI概覽的教程也就在網上紛至沓來。
如科技媒體The verge就提供了三種關閉方法:
重新配置瀏覽器的默認搜索引擎,在“名稱”部分為您的無AI版本Google添加昵稱,添加快捷方式,然后粘貼以下網址:{google:baseURL}search?q=%s&udm=14。
通過下載瀏覽器的uBlock擴展程序來避免該功能。
還可以嘗試“Bye Bye,Google AI”,這是由Tom's Hardware的Avram Piltch創建的Chrome擴展程序。
主打一個面面俱到,唯恐網友學不會。
AI概覽的語言天賦強悍,
但在智力上還只是半成品
當前市面上的大模型太多,很容易在內卷中卷出鄙視鏈。“頭號AI玩家”也只需微微一試,便可知哪家大模型更懂常識。
既然谷歌標榜自己搜索結果的質量高,“頭號AI玩家”專門搬出了能檢索中文語庫高質量陣地——微信公眾號的騰訊元寶,來與之一較高下。
不出所料,元寶給出的答案的確更好。
為控制變量,“頭號AI玩家”問了元寶相同的問題:如何防止奶酪從披薩上滑落。
很讓人驚喜,元寶不僅頓時讀懂了我的用意,還在回答里加入了“三分譏笑”,明說谷歌AI概覽的建議是錯誤,并給出了符合科學且完全可行的建議,如“使用不粘披薩石或烤盤”、“調整烤箱溫度”、“在披薩上撒一層薄薄的面粉或玉米淀粉”。
兩相比較之下,AI概覽的確顯得不夠聰明了,也難怪它扛不住網友們的釣魚執法。
然而,對于谷歌此次的公開出丑,多位內部人士表示早已想到。
AI概覽原型Beta前測試員Lily Ray接受采訪時稱,Beta階段的漏洞百出讓AI概覽很難不翻車。
谷歌前UX設計員Scott Jenson也在一周前發表領英動態,指出谷歌在AI項目上毫無動力,倉皇推出AI概覽不過是競爭壓力使然。
5月31日,《麻省理工技術評論》發表文章,稱AI概覽中的Gemini模型大概率使用了RAG(檢索增強生成)技術,試圖使AI概覽更聰明。雖然谷歌發言人沒有證實這一點,但RAG對AI的智商幫不上大忙。
RAG技術可以使AI在調取信息時更具相關性,同時也會使AI認為相關即正確,省去了質疑信息這一環。當RAG 系統遇到相互矛盾的信息時,它也無法判斷哪個版本更好。相反,它可能會將兩個回答雜糅,生成一個極具誤導性的答案。
可以說,這篇文章似乎更坐實了AI概覽是谷歌獻祭給商戰的犧牲品。
其實,谷歌在AI戰略上的乏力早有端倪。在上月谷歌和OpenAI的兩場直播中,相比OpenAI搶先一步的直播時機和干貨滿滿的26分鐘,谷歌的兩小時顯得過于冗長。同時,谷歌選擇用ppt對抗OpenAI的實操演示,也在策略上略顯被動。其所承諾的許多即將上線的新功能,也因發布日期的模糊不清被質疑為“畫餅”。
谷歌的這份緊迫感也不難理解,在AI的步步緊逼之下,傳統搜索引擎的市場正在遭受侵襲。一旦用戶習慣了AI的便捷,很可能會減少對搜索引擎的依賴。尤其是ChatGPT已不斷拓展其免費的邊界,積累了過億的周活躍用戶,進一步加劇了這一趨勢。
但谷歌并非無一技之長,它始終對語言學表現出熱情。
早在2017年,谷歌的一支技術團隊就前瞻性地創新了優化神經網絡和深度學習的方法,旨在從繁復的長文本中提煉出精準精悍的答案,而這次努力竟不經意間催生了后續Chatgpt和谷歌AI等所依賴的大語言模型。
不過正如我國那句諺語,“熟讀唐詩三百首,不會作詩也會吟”。相較于開發創造性思維,培養語言能力則要簡單得多,谷歌大概率押錯寶了。
谷歌無論如何也不會想到,穿上谷歌嫁衣的GPT會搶先乘風起。
AI不可能解決一切問題
多家大模型都曾翻過車,不止是谷歌Gemini。
此前,The Verge主編Nilay Patel在完成對谷歌CEO的深度訪談后,嘗試將完整版錄音一次性喂給chatgpt,讓其輔助整理。遺憾的是結果并不理想,Chatgpt生成的內容出現了明顯的偏差,編造出了雙方未曾提及的多個話題。
無獨有偶,Meta于2022年推出Galactica AI系統,也因鼓勵用戶如采取吃玻璃等危險行為而草草收場。
AI頻繁被指存在幻覺,但人類期許AI能百分百解決問題又何嘗不是一場幻覺。
知名AI專家、紐約大學神經科學名譽教授加里·馬庫斯(Gary Marcus)曾深刻指出,AI實現80%的正確率或許簡單,因為這80%的數據可以由人為標注,但追求余下20%的完美度將無比艱難。
人類需要承認,LLM根本不適合所有地方。
大語言模型如Gemini和Chatgpt在許多應用場景中顯得格格不入,LLM也不會是提供具體、事實答案的可靠工具。如果人類強行將其植入不適配的領域,只會對我們造成不必要的負面影響。但也需要承認,它們在處理清晰界定的數據分析、精煉文本和其他相對低級且客觀明確的任務時,又能表現出驚人的創造力。
AI的非全能性恰恰也是其安全性所在。以谷歌AI概覽為例,谷歌目前的回答里附帶著網頁鏈接的做法,既是在輔助用戶搜索,也是在維護廣告商和出版商的利益。
如果AI真能無所不能,由人創作的內容界面將會受到更嚴峻的流量挑戰。比如 Meta就已經公開拒絕向任何新聞網站發送流量,明確表達了其減少新聞支持的傾向。
然而,即便是知道了這一點,也難以挽回谷歌成為眾矢之的的現狀。畢竟,現在它連承認“圣誕老人不存在”也要被指控,因為這可能會“澆滅孩子們的童心”。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。