AI元年-2023年的人工智慧發展回顧

2023年，AI毫無疑問在各個領域都產生了巨大影響。在今年AI技術上的重大進步方面，值得注意的是現有技術的精進，而不是類似ChatGPT或以往的影像產生器這樣的創新。雖然沒有太大的驚艷效果，真正的通用人工智慧（AGI）仍遙不可及，但今年標誌著先前的重大突破和更強大技術之間的中間階段。為了展示這種演變，我們設計了一個視覺化時間線，突出今年最顯著的AI進步，它們塑造了AI的這一年。

圖像生成

Adobe Firefly: Adobe Firefly 和 Generative Fill 現在可創建各種視覺內容，包括插圖、藝術概念和圖片處理。Firefly 已與 Photoshop 整合，使 AI 的力量能廣泛運用，立即擴展到數以千計的用戶。此外，文字效果功能的推出讓用戶能對詞語和短語應用樣式或紋理。
Midjourney: Midjourney 的 V.5 模型標誌著圖像生成的一個里程碑，展示了更高的效率、連貫性和更高的分辨率。而最新的 alpha 版本 Midjourney V.6 帶來了額外的增強功能，如更準確的提示遵循、更豐富的模型知識，以及文字生成繪製功能。
DALL·E 3: 建立在 ChatGPT 內，DALL·E 3 簡化了圖像生成，消除了複雜的提示詞的需要的使用門檻。此外，ChatGPT 持續根據用戶的反饋來改善提示和調整圖像。
Shutterstock.AI: 這家圖庫網巨頭整合了 AI 功能，允許用戶將提示轉換為可授權的圖像。Shutterstock 跨出了 AI 倫理方面的第一步，承認並獎勵貢獻藝術家。

(驚)

影片生成

Stability AI 推出了全新的 Stable Video Diffusion，這是一個超厲害的生成式視頻模型，現在已經在 GitHub 上開源了。這個 Stablility Video Diffusion 模型可能在 AI 視頻生成領域扮演關鍵性的角色，與目前的 AI 圖像生成趨勢相呼應。

初創公司 HeyGen 推出了一款語音克隆、嘴唇動作調整以及視頻語言翻譯工具。
Runway 推出了 Gen-2 模型，使用者可以輕鬆透過文本提示、圖像或其他視頻來快速生成完整的視頻。

Runway之Gen2依據《咒》阿清嫂嚇死人那幕生成的影片

Pika 在最初發佈後吸引了 50 萬用戶，每周就生成了數百萬個視頻。而 Pika 1.0 則升級了 AI 模型，使用戶能夠以各種風格創建和編輯視頻，包括 3D 動畫、動漫、卡通和電影式。
Meta 推出的像素編碼器頭像 (PiCA) 模型用於視頻中 3D 人臉，讓我們更貼近逼真的遠程交流。

文字生成

Bard 和 Gemini:Google的Bard為聊天機器人注入更多人性化的情感和感情。Google的Gemini被引入Bard聊天機器人並在多模態數據集上接受了訓練，成為了「最具能力」的AI模型，是OpenAI ChatGPT的最接近競爭者。

Grok:馬斯克的初創公司xAI通過發佈「Grok」(一個具有幽默感、叛逆性，並能獲得即時知識的聊天機器人)來表達對AI發展的承諾，有潛力與OpenAI競爭。xAI聲稱Grok旨在解決其他AI系統拒絕回答的挑釁性問題。

OverflowAI:Stack Overflow的OverflowAI透過AI驅動的搜尋加強了知識管理，在Visual Studio Code和Slack中支援相關答案的提供。
Lama 2:Meta發佈了下一代開源大語言模型Llama 2，展現了提高效率。Meta調優過的LLM也改進了對話應用案例的性能，並在大多數基準測評中擊敗其他開源模型。

GPT-4:OpenAI的GPT-4現在可以處理圖像輸入，生成字幕、分類、聽和回應對話，並支持實時網絡瀏覽。OpenAI還擴展了插件支持，豐富了開源競爭對手的生態圈。GPT-4是OpenAI在開發AGI道路上的下一步。
Mistral 7B:估值約20億美元的Mistral AI今年發佈了Mistral 7B，一個與GPT-4和Claude 2媲美的大型語言模型。Mistral AI強調開放技術方法，並免費提供其模型。
Mistral AI 最新推出 Mixtral 8x7B，一個擁有 46.7 億參數的高品質由專家混合的模型 (SMoE)。其開放權重強調了在真實性和減少偏見方面的具有先驅性的意義。
電科智 IP：“01.AI” 創辦人李開復的新刷公司 YI-34B 估值已達到 10 億美元。該公司發佈了開源神經網絡 YI-34B，在參數計數上超越競爭模型，並強調其成本效率轉換率極佳。

其他創新領域:

Segment Anything Model (SAM): 由 Meta AI 推出的 SAM 是一個分割模型，無需額外訓練即可對圖像中的物體進行「剪裁」，展現了其高適應性。SAM 經過大規模數據集訓練，展示了其在物體分割中的穩健性能。
Direct Preference Optimization (DPO): DPO 成為穩定且高效的方法，可優化大規模無監督語言模型和將文本教導到圖像模型。它實現了復雜強化學習 (RLHF) 從人類反饋中的精確控制。
Zephyr 直接調和 LM 對齊: Zephyr-7B 通過直接偏好優化 (dDPO) 成果，為 7 億參數的聊天模型確立了基準，並且無需大量訓練。
自主 AI 代理: 自主 AI 代理展現了明顯趨勢，向先進和自主 AI 系統轉型。研究表明，AI 代理被認為是AGI的第一個曙光，因為它們能夠根據用戶目標生成自定義任務和指令，並自主工作直到目標完成。
EvoDiff: 微軟的開源 AI 框架 EvoDiff 可用於快速、經濟高效的蛋白質生成，有望推進治療和工業應用。
穩定音頻: Stability AI 推出了一款工具，可從簡單的文本提示詞中生成短且高質量的音頻片段。

OpenAI 推出新服務

OpenAI 推出了 GPT 商店，以售出客製化 GPT 機器人，同時推出了版權護盾來支付侵權索賠相關的法律費用，以及無需程式碼的 ChatGPT 機器人構建器。

Stability AI 開源重要模型

Stability AI 開源了其 StableLM-Alpha 和 Stable Vicuna 模型，這兩個模型在生成文本和代碼方面表現出色。Stable Vicuna 是首個透過人類反饋強化學習（RLHF）訓練的開源聊天機器人。此外，Stability AI 還推出了 SDXL Turbo，一種即時文本轉圖像生成模型。

重要合作夥伴關係

在這快速發展的領域中，行業領先者間不斷涌現的重要合作塑造了未來的發展軌跡。以下是今年最重要的 AI 合併和合作關係:

Stability AI 與 Init ML

Stability AI 通過收購知名編輯應用 ClipDrop 的公司 Init ML，邁出了重要的一步。他們的目標是將 Stability AI 的先進技術整合到 ClipDrop 生態系統中。這項合作已促成 SDXL Turbo 的開發。

Runway 與 Getty Images

Runway 與 Getty Images 達成戰略合作夥伴關係，並推出了「Runway 和 Getty Images 模型」（RGM），一個新的視訊生成模型。這個模型結合了 Runway 的 AI 能力和 Getty Images 的授權創意內容庫。合作的目標是創新內容創作工作流，使公司能夠生成高品質、量身訂做的影片，以符合其品牌形象。

Snowflake 和 Neeva

大數據平台 Snowflake 主要參與者買下了以使用生成式 AI 增強搜尋體驗而聞名的初創公司 Neeva。Neeva 最近關閉了其訂閱式無廣告搜尋引擎，Neeva 的創始人還坦承說服用戶嘗試新搜尋引擎的挑戰。

OpenAI 和 Shutterstock

Shutterstock 與 OpenAI 達成了為期 6 年的合作夥伴關係擴展協議。OpenAI 獲得了 Shutterstock 提供的高品質數據以豐富其模型培訓數據集，包括圖像、視頻和音樂庫的各種內容。同時 Shutterstock 繼續利用 OpenAI 的技術，推出了 Shutterstock 的 AI 圖像生成工具。

對於人工智慧法律方面…

在不斷發展的 AI 法律領域，2023 年處於一個充滿不確定性和持續爭論的格局中。隨著新問題的出現，有關版權、公司政策和更廣泛的監管框架的討論仍在繼續，塑造著 AI 法律格局的輪廓。以下是 2023 年最重要的法律問題：

歐盟 AI 法案

歐盟推出了世界上第一套全面規範 AI 使用的法律——AI法案。該法案根據 AI 系統造成的風險將其分類並據此規範。雖然 AI 法案已經獲得臨時協議，但其實施面臨延遲，執法不會在 2025 年之前開始。

美國版權局對 AI 生成內容註冊的立場

美國版權局採取了果斷立場，拒絕為 Midjourney AI 算法生成的圖像註冊版權。這一決定確立了先例，宣稱完全由 AI 生成的藝術品在沒有人類參與的情況下不符合版權保護的資格。同樣，美國版權局就AI輔助作品發佈了指導意見，澄清人類使用 AI 工具創建的作品可能符合版權保護的資格。該指導意見確認，應根據人類在創作過程中作用的決定性來評估使用AI工具創建的作品是否符合版權保護。

目前，現有的法律體系尚未準備好承認 AI 生成作品的版權，因為 AI 是從現有數據中學習的，而這些數據的權利屬於其他人，這給歸屬權的確定帶來了挑戰。預計明年將通過國家進行的調查推動公眾參與來制定處理此問題的慣例。在沒有更廣泛的公眾參與的情況下，現在獨立解決這個問題很難。

Everypixel企業律師 Daria Kuznetsova說:

麥肯錫還發佈了一個全面圖表，捕捉了2023年AI治理相關政策和監管工作的最重要內容。這一視覺呈現突顯了2023年在塑造AI法律格局方面的重大貢獻。

關於人工智慧興起的辯論

2023年瀰漫著迷人的辯論和討論，在不確定性和AI格局不斷發展的規範中摸索前進。隨著行業塑造其軌跡，這些辯論變得不可避免，承諾著更多發人深省的對話和未來的挑戰。以下是今年最值得注意的辯論:

企業對ChatGPT的限制

包括摩根大通、花旗集團、美國銀行、德意志銀行、高盛和富國銀行在內的主要金融機構已因安全和隱私問題而限制ChatGPT的使用。這反映了一個更廣泛的趨勢，即公司正就AI應用程序在企業環境中的法律考量向員工發出警告。

OpenAI僱用低薪工人

《時代》的調查揭露了OpenAI與Sama的合作，後者僱用肯尼亞的低薪工人為ChatGPT篩選敏感內容。這一發現引發了人們對工人待遇和內容審核對精神健康影響的道德問題。

OpenAI的領導層變動

Sam Altman的離任和迅速歸來上個月成為頭條新聞。在與董事會在交流上存在不一致的情況下，OpenAI的領導層變動拉開了帷幕，Sam Altman卸任臨時CEO。臨時CEO Mira Murati及大多數員工主張Altman歸職。這一前所未有的情況引起了廣泛關注，讓人對領導變動背後的真正原因和未來影響存有疑問。

Adobe放棄以200億美元收購Figma的計劃

因為該交易遭遇了歐盟委員會和英國競爭與市場管理局的反壟斷調查。交易的影響也超出了設計的考量，因為Adobe在客戶數據平臺方面的主導地位引起了CIO對其潛在影響雲軟件支出的擔憂。由於在歐洲和英國獲得反壟斷批准的挑戰，Adobe向Figma支付了10億美元的終止費。

攝影師Boris Eldagsen以AI生成的藝術作品擾亂了索尼世界攝影大獎。

Eldagsen拒絕接受獎項引發了有關AI生成圖像在傳統攝影比賽中的地位、真實性和創造力感知的辯論。

預計2024年的AI發展將聚焦於以下幾個關鍵領域：

深度學習與自然語言處理的進步：隨著算法和計算能力的進一步提升，預期將看到更加精準和靈活的語言模型，這些模型能夠更好地理解和生成自然語言。
AI在醫療領域的應用擴展：預期AI在診斷、治療計劃、藥物開發等領域的應用將進一步深化，幫助提高醫療效率和準確性。
增強現實和虛擬現實的結合：隨著AI技術的進步，預計增強現實和虛擬現實將提供更加沉浸式和互動式的體驗，尤其在教育、娛樂和零售領域。
道德和法律框架的建立：隨著AI技術的快速發展，預計將有更多的討論和法律框架的建立，以解決隱私、資料使用、決策透明度等問題。
人工智能與人工合作的新模式：隨著AI更加深入日常生活和工作，預期將出現新的合作模式，其中人類和AI能夠更有效地協同工作。

本文由Guenter RSS蒐集文章撰寫而成。亦同時發表於本人個人方格子。