2023 年是 AI 發展的關鍵一年,ChatGPT 以及 GPT-4 的發布引發了全社會對于大模型以及生成式 AI 的關注。
科技巨頭微軟、亞馬遜、谷歌、Meta 等紛紛發力 AI;文本生成、文生圖以及文生視頻 AI 工具進展迅速;國內的「百模大戰」;各國對于 AI 的監管逐漸加強;科學家們還在研究「涌現」的原理;還有年底的 OpenAI Drama 事件……
科技博客 Everypixel Journal 整理了 2023 年 AI 行業的產品以及商業進展,他們還梳理總結了由風投公司 Air Street Capital 發布的《2023 人工智能現狀報告》,Founder Park 一并進行了編譯。
01
2023 的 AI:有突破、有落地、有爭議
研究:技術突破及其能力
GPT-4:OpenAI 最新模型 GPT-4 脫穎而出,成為功能最強大的 AI 模型,其顯著優于 GPT-3.5,并在編碼能力方面表現出色。
自動駕駛:Wayve 的 LINGO-1 為駕駛增加了視覺-語言-動作維度,有可能提高自動駕駛系統的透明度和推理能力。
文本到視頻生成:VideoLDM 和 MAGVIT 引領文本到視頻生成的競賽,各自使用不同的方法——diffusion 和 transformer。
圖像生成:諸如 InstructPix2Pix 和 Genmo AI 的「Chat」之類的助手通過文本指令實現更受控和直觀的圖像生成和編輯。
3D 渲染:3D 高斯散射——NeRF 領域的新競爭者,通過計算來自數百萬個高斯分布的貢獻,帶來高質量的實時渲染。
小型模型與大型模型:微軟的研究表明,經過專門數據集訓練的小型語言模型 (SLM) 可以與大型模型相媲美。TinyStories 數據集代表了這一方向的新方法:在 GPT-3.5 和 GPT-4 的幫助下,研究人員生成了一個非常簡單的短篇故事的合成數據集,其中包含英語語法和一般推理規則。在這些 TinyStories 上訓練 SLM 后發現,用于評估的 GPT-4 更喜歡由 28M SLM 生成的故事,而不是由 GPT-XL 1.5B 生成的故事。
AI 在醫學中的作用日益增強:像 Med-PaLM 2 這樣的模型展示了 AI 在醫學中的重要性日益增強,甚至在特定任務中超過了人類專家。谷歌的 Med-PaLM 2 通過 LLM 改進、醫學領域微調和提示策略實現了新的*進的結果。多模態數據集 MultiMedBench 的集成使 Med-PaLM 能夠將其功能擴展到基于文本的醫學問答之外,展示了其適應新醫學概念和任務的能力。此外,最新的計算機視覺技術在疾病診斷中顯示出有效性。
RLHF:人類反饋強化學習仍然是一種主要的訓練方法。這種方法在增強 LLM 安全性和性能方面發揮了重要作用,OpenAI 的 ChatGPT 就是一個例子。然而,研究人員正在探索減少對人類監督需求的替代方法,以解決與成本和潛在偏差相關的擔憂。這些替代方法包括從自己的輸出中學習的自我改進模型以及減少對 RLHF 依賴的創新方法,例如使用精心設計的提示和響應來微調模型。
水印標識:隨著人工智能的內容生成能力的進步,對人工智能生成輸出進行水印或標記的需求不斷增長。例如,馬里蘭大學的研究人員正在努力將微妙的水印插入語言模型生成的文本中,而谷歌 DeepMind 的 SynthID 將數字水印嵌入圖像像素中,以區分人工智能生成的圖像。
數據限制:人們擔心耗盡人類生成的數據,有預測表明到 2030 年至 2050 年可能會出現短缺。然而,語音識別系統和光學字符識別模型可能會擴大數據可用性。
LLaMa-2:雖然商業模型主導著該領域,但正在進行的努力集中于通過開源方法來生產高性能模型,Meta 的 LLaMa 系列就是一個例子。
不披露:經濟利益和安全問題不斷增加,導致圍繞前沿研究形成了一種不透明的文化。OpenAI 和 Google 已轉向不披露有關其*模型(如 GPT-4 和 PaLM-2)的詳細信息。
行業:AI 的商業應用和業務影響
NVIDIA 的主導地位:NVIDIA 實現創紀錄的 23 年第二季度數據中心收入 103.2 億美元,并進入 1 萬億美元市值俱樂部。
生成式 AI 的主導地位:最突出的趨勢是生成式 AI(GAI)的興起。此外,生成式 AI 在穩定 2023 年的 AI 投資方面發揮了至關重要的作用。如果沒有生成式 AI,AI 投資將大幅減少。
受益于 AI 的主要行業:企業軟件、金融科技、醫療保健。
公開市場動態:公開估值顯示出復蘇跡象。蘋果、微軟、NVIDIA、Alphabet、Meta、特斯拉和亞馬遜等集成 AI 的巨頭在提振股市指數方面發揮著至關重要的作用。
私人市場趨勢:美國在全球私人 AI 領域占據主導地位,2023 年的資本投資占 70%。相比之下,歐洲 AI 企業的資本支持大幅下降。
主要并購:并購市場仍然活躍,出現了 MosaicML + Databricks(13 億美元)、Casetext + Thomson Reuters(6.5 億美元)和 InstaDeep + BioNTech(5 億歐元)等重大收購。
企業投資動態:2023 年所有企業風險投資的 24% 投向了 AI 公司。
資金動態:生成式 AI 公司主導大型融資輪次,通常用于獲取云計算能力以進行大規模 AI 系統訓練。2023 年,生成式 AI 公司明顯獲得比其他初創公司更大的種子輪和 A 輪融資。
政治:AI監管、經濟影響和不斷演變的地緣政治
英國和印度的輕觸式監管:英國和印度采用支持創新的方法,投資于模型安全并確保早期獲得先進的 AI 模型。
歐盟和中國的嚴格立法:歐盟和中國已采取嚴格措施朝著人工智能特定立法邁進,尤其是在基礎模型方面。
美國的混合監管:美國尚未通過聯邦 AI 法律,各個州頒布了自己的法規。批評者認為這些法律過于嚴格或過于寬松。
監管和透明度:即將到來的 2024 年美國總統選舉引發了人們對 AI 在政治中的作用的擔憂,促使美國聯邦選舉委員會呼吁公眾對政治廣告中的 AI 法規發表評論。谷歌對 AI 生成的選舉廣告免責聲明的政策就是一個透明度努力的例子。
AI 和偏見:AI 偏見指控,特別是來自美國保守派團體,表明文化沖突正在蔓延到 AI 領域。OpenAI 正在通過審核和用戶微調來解決這些問題。
就業市場影響:研究表明,人工智能的進步可能會導致法律、醫學和金融等行業的職位大量流失。然而,人工智能也可能使專業知識民主化,并在基于技能的工作中實現公平競爭。
McKinsey 近日公布了一幅內容豐富的圖表,全面概括了 2023 年人工智能(AI)治理領域內最關鍵的政策和監管動向。該圖表以直觀的視覺形式展示了 2023 年對 AI 法律框架塑造做出的顯著貢獻。

安全性:識別和減輕高度智能未來 AI 系統帶來的災難性風險
呼吁解決安全問題:對高性能 AI 系統的擔憂促使未來生命研究所發出公開信,呼吁暫停比 GPT-4 更強大的 AI 開發,以解決安全問題。然而,對于具體風險或其可能變得相關的時間范圍尚未達成共識。
緩解工作:AI 實驗室正在實施自己的緩解策略,包括用于評估危險能力的工具包和具有安全承諾的負責任的擴展政策。此外,基于 API 的模型(例如來自 OpenAI 的模型)具有檢測和響應濫用的基礎設施,以遵守使用政策。
開源與閉源 AI:關于開源或閉源 AI 模型是否更安全的爭論仍在繼續。開源模型促進研究,但存在濫用風險,而閉源 API 提供更多控制,但缺乏透明度。
使用人類偏好預訓練語言模型:研究人員建議將人類反饋直接納入 LLM 的預訓練,而不是傳統的三個階段訓練。這種方法已在較小的模型上得到證明,并被谷歌部分采用在他們的 PaLM-2 上,已被證明可以減少有害內容的生成。
憲法 AI 和自我對齊:一種新方法依賴于一套指導原則和最少的反饋。模型生成自己的批評和修改,這些批評和修改用于進一步的微調。這可能比 RLHF 更好的解決方案,因為它通過明確遵守設定的約束來避免獎勵黑客攻擊。
越獄和模型安全性:解決與繞過安全協議的提示制作相關的問題仍然是一個挑戰。
02
AI產品的進展
在今年的 AI 進展方面,重點在于改善現有技術,而非引入類似于去年的 ChatGPT 或圖像生成器那樣的革命性創新。雖然沒有令人震撼的效果,且真正的通用人工智能(AGI)尚未實現,但今年標志著從之前的重大突破向更強大的未來過渡的中間階段。為了展示這種發展趨勢,我們制作了一個視覺時間線,強調了今年在 AI 領域最為顯著的進展:

圖像生成
Adobe Firefly: Adobe 的 Firefly 和 Generative Fill 推動了多樣化視覺內容的創作,如插畫、藝術構思和照片編輯。集成到 Photoshop 中的 Adobe Firefly 使 AI 技術普及化,讓更多用戶能夠輕松使用。其發布的文本效果功能也是一個重要進展,它允許用戶給文字和短語添加風格或紋理。
Midjourney: Midjourney 的 V.5 模型在圖像生成領域達成了重要里程碑,展現了更高的效率、連貫性和分辨率。它的最新 alpha 版本,Midjourney V.6,進一步增強了功能,比如更精準地響應用戶輸入(prompt)、提高了模型的知識水平和簡易的文本繪制能力。
DALL·E 3:基于 ChatGPT 的 DALL·E 3 簡化了圖像生成過程,避免了復雜的用戶輸入(prompt)設置。此外,ChatGPT 還推出了一項功能,幫助用戶優化輸入內容,并根據反饋調整圖像。
Shutterstock.AI:知名庫存圖片平臺 Shutterstock.AI 加入了 AI 功能,使用戶能將輸入內容轉換成可授權的圖像。Shutterstock 在推動倫理 AI 方面邁出了重要一步,對貢獻的藝術家給予認可和獎勵。

文本到圖像算法的演變,2007 對比 2023
視頻生成
Stability AI:Stability AI 推出了 Stable Video Diffusion,這是一個具有里程碑意義的視頻生成(generative video)模型,可在 GitHub 上開源訪問。類似于 AI 圖像生成的趨勢,Stable Video Diffusion 模型很可能在 AI 生成視頻領域發揮核心作用。
HeyGen:這家 AI 創業公司推出了 一款用于語音克隆的工具,能夠調整視頻中的唇部運動并進行語言翻譯。
Runway Gen-2:Runway 發布了 Gen-2 模型,使用戶僅需通過文本提示、圖片或其他視頻即可輕松生成完整視頻。下面的例子就是一種展示。
Pika 和 Pika 1.0:在首次發布時,Pika 吸引了超過五十萬用戶,每周生成數百萬視頻。在 Pika 1.0 中,升級后的 AI 模型使用戶能夠以多種風格(包括 3D 動畫、動漫、卡通和電影)創作和編輯視頻。
Meta 的像素編解碼頭像(PiCA):Meta 的 Pixel Codec Avatars(PiCA)模型為視頻中的 3D 人臉提供了更加逼真的遠程傳輸體驗。
文本生成
Bard 和 Gemini:谷歌的 Bard 為聊天機器人注入了仿人類的情感和情緒。Bard 聊天機器人采用多模態數據集訓練,而谷歌的 Gemini 以「最有能力」的 AI 模型身份嶄露頭角,成為與 OpenAI 的 ChatGPT 齊名的競爭者。
Grok:埃隆·馬斯克的創業公司 xAI 展現了其對 AI 發展的承諾,并有可能與 OpenAI 競爭。他們推出了「Grok」——一款具備幽默感、反叛特質,并能通過
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。