image

您有玩過下幾個文字指令,就可以透過網路幫你創造一個繪圖的雲端工具嗎?  話說最近網路社群掀起一股用 AI 人工智慧繪圖的熱潮,原理是 AI 經過大數據深度學習後,根據電腦輸入的指令或關鍵字,畫出相關的圖片,雖然畫出來的東西有些詭異、粗糙,像是手指頭變不到5隻,但仍有些圖片幾可亂真。

像是底下這篇推特網友分享的圖片,如果不說是透過 AI 技術所製作,乍看之下,可能會以為是真的照片。

image

看好生成式 AI ,創投業者估產值數兆美元

這項技術稱為「生成式 AI (generative AI),最近引起國內外廣泛討論, PTT 希洽板也有許多鄉民分享相關作品,從中可以看出 AI 繪圖技術頗具成熟度。現在也被認為將是未來重要趨勢,吸引科技巨頭微軟、Meta、Google 等企業爭相投入,矽谷知名創投紅杉資本形容是「強大的新型語言模型,使機器能夠寫碼、編碼、繪圖,和創造可信的、甚至是超乎人類的結果。」紅杉資本更估計,生成式 AI 將帶來數兆美元的經濟產值

AI 技術這幾年蓬勃發展,主要是透過大數據的深度學習訓練,具備「辨識」的能力,近一步應用在日常生活,例如辨認照片內是不是有貓、有多少人、地點在哪。但生成式 AI 技術令人驚艷之處,則是從辨識到了「創造」的階段,而不僅止於分析。AI 不再是翻譯文字,而是可以把文字轉換成圖片。

目前有許多資源提供 AI 繪圖,其中一款 Stable Diffusion 透過外掛程式,可以直接在 Photoshop 進行 AI 繪圖操作,根據《富比士》報導,Stable Diffusion 的公司 Stability AI 正在洽談一筆高達 10 億美元的投資案。

生成式 AI 可能「徹底改變」晶片應用,新創公司更趁勢而生

投資者將生成式 AI 視為一種革命性的轉變,就像智慧型​​手機或網絡帶來的影響一樣,NVIDIA 執行長黃仁勳也認為,生成式 AI 將是該公司最新晶片的關鍵應用,「將徹底改變通訊技術」

許多新創公司也應運而生,更被視為未來有機會挑戰微軟、Google、Meta 等龍頭。但這些科技巨頭除了招攬相關人才,Meta 更在9 月宣布 Make-A-Video 的 AI 技術,讓 AI 能夠更進一步地製作出影片,難度更高。

但生成式也帶來一些嚴肅議題,首先是對相關產業人力的衝擊。生成式 AI 比起一般藝術創作者,或是圖像、影像方面的工作者,速度更快、成本更便宜,將影響到他們工作權益。

另外,版權問題也是相當複雜。圖庫業者 Getty Images 也禁止上傳使用 AI 繪圖的作品,執行長 Craig Peters 直言是考量該圖片合法性的問題。

Reference: https://buzzorange.com/techorange/2022/11/09/generative-ai-business/

 

生成式AI為何?

生成式AI所指的是通過讓機器學習模型研究歷史數據的模式,並且先進的深度學習技術去創造出一個全新生成的成品,其可以是一段文字、一張圖像、一個音訊檔、抑或是一部影片。

同許多人工智慧技術一樣,生成式AI不僅是在研究領域中積極的科學家們探索新的訓練方式、神經網路設計、以及新的發展,同時也在商業領域中,廣受許多企業與新創們探索新的用例、優化許多商業既有之流程等。

在眾多用例當中,最為貼近我們生活的就包含許多假冒為名人的影像在YouTube等平台上出現;同時還有自2019年開始就出現在網路上的「ThisPersonDoesNotExist」網站,可以生成出全新的臉;再者,還有一些更為先進的應用,譬如AI寫手、音樂生成、圖像與影像生成等,雖然這些技術在處理許多邊緣案例、以及誠品錯誤率中,仍然有許多進步空間,但不難看到生成式AI蘊含的潛力。

當然也有一些聚焦在個別產業的應用,而這一類型的應用中,有許多已然創造出充分的商業價值,並且預計也將成為生成式AI價值最龐大的領域。譬如在藥物探索階段中,通過化學物質在吸收、分配、代謝、排泄、以及毒性等的活動特性中,由生成式AI根據要求與特徵,生成出模板讓研究人物測試(這一類型的應用也泛稱為3D形狀生成)。

生成式AI如何運作?

生成式AI通常是依賴兩個主要的ML框架去運作,其中之一為GANs(Generative Adversarial Networks),也就是生成對抗網路,GANs也是生成式AI的第一波主流應用,其中前面所提到的生成不存在人類的網站,就是以GANs技術為背景。

簡單來說,GANs分別是由鑑別網路(Discriminating Network)與生成網路(Generative Network)構成,透過兩者相互對抗產生結果是運作的原理。

所以在圖像應用上的訓練方式,就是給予真實圖片,並且讓模型從圖像中採樣隨機的噪音向量(Noise Vectors),並以此為基礎生成,並在以真實與生成出來的圖片訓練出鑑別者(Discriminator),並讓兩者互相比較。

而近期在更加主流的應用則是以Transformer為基礎的技術的GPT(Generative Pre-trained Transformer),如字面上的意思,GPT指的是已經訓練好的模型,而這一模型是以Transformer為基礎。Transformer模型即是一種神經網路,藉由追蹤序列資料中的關係,學習上下文之間的脈絡及意義,就如同一個句子中的每一個字,也可以理解為一種具有自我注意力(Self Attention)機能的編碼/解碼的架構(Encoder-decoder Architecture)。

GPT相關的技術在近年間不斷的進化,從Google發佈的BERT、再到RoBERTa、GPT-2、T5、TuringNLG、以及最近在語言上稱霸整個領域,由Open AI發佈的GPT-3。

In Detail

生成式AI科技Snapshot

生成式AI的潛在價值為何?

生成式AI許多產業都有龐大的應用層面,而應用場景橫跨運營、客戶體驗、以及產品與服務創新。譬如在汽車產業中,製造商即開始嘗試以生成式AI來設計汽車部件。

而在生命科學當中、化學、材料科學當中,生成式AI在3D建模的龐大潛能也讓其在探索階段(Discovery Phase)擁有龐大的應用。

而聚焦在創意、行銷、設計、以及客戶體驗中,生成式AI則是近乎所有大廠的競爭重點,從Meta的影片製作(Make-a-video)、到Google同樣的影片製作解決方案Phenaki;還有在圖像生成中,微軟也推出了Designer與Canva競爭,其中的功能即包含以文字敘述創造出專業的圖像設計。而在語言端,也有相關技術聚焦在各個領域的發展去自動化企業內運營、以及提高客戶體驗。

有哪些驅動因素?

  • 以Transformer為基礎的技術不斷的取得更多突破,不論是在文字、圖像、化學物質、還是電腦程式碼(Github Copilot)的生成,而結合其他技術其更是能賦能更龐大的應用,譬如OpenAI所推出的DALL·E 2即是結合了CLIP以及改版的GPT-3,使其可以從文字敘述中生成圖像。
  • 生成式對抗網路相關技術(GANs)、變分自動編碼器(VAE)、自我迴歸模型 (Autoregressive model)、以及zero/one/few-shot學習方式等技術的突破,也讓訓練的成本大幅降低,並且提高了其生成的正確性。
  • 許多雲端平台,包含AWS、Azure等也逐漸提供生成式AI的套件與開發框架,支援開發者能夠更加容易、且無痛的落實相關模型的訓練與部署。

 

Reference: https://zh.oosga.com/docs/generative-ai/

 

 

元宇宙的內容推手 生成式AI

image

在元宇宙的生成過程上,生成式AI Generative Artificial Intelligence)將起到極其重要的作用。成為多模內容生成的關鍵技術力量。通過將 AI 與內容結合,由 AI 自動生成新的數位內容,讓文字、音樂、圖像、語音、視頻、商品、場景等都可由 AI 演算法自動生成。

生成式AI,從資料中透過各種機器學習方法如生成對抗網路(Generative Adversarial Networks, GANs),學習隱含特性,進而生成如圖片的全新資料,這些生成的資料與訓練資料保持相似,但不是複製。

從過去透過人工設計特定特徵與生成規則,到近年從大量資料中透過生成式模型 Generative models),如以 GANs手法生成擬真資料。其中相關應用,從深偽(Deepfake)換臉應用、賽門鐵克(Symantec)報告提及Deepfake聲音詐騙、Deepfake影片生成湯姆克魯斯彈奏吉他短影片,到AI完成貝多芬10號交響曲等,顯示新一代AI系統逐步從辨識任務走向生成任務,未來應用範圍也更將廣泛。

生成式AI應用案例

生成式AI是人工智慧領域近期的熱門話題。2022年Gartner 發布未來 3 到 5 年將促進數位營運和創新的重要戰略技術趨勢。其中生成式AI為12項重要戰略之一[1]。Gartner預計到2025年,生成式AI將占所有生成資料的10%,而目前此比例還不到1%。 生成式 AI 可使用現有多模內容(如音訊、圖像或文字)來建立新內容。可用於多種應用,如軟體開發、藥物研發和廣告行銷,但該技術也會被濫用於詐騙、政治造謠、偽造身份等。目前生成式AI已廣泛應用在各種產業,如生命科學、醫療保健、製造、材料科學、媒體、娛樂、汽車、航空、國防和能源等。

 

近期相當火紅的應用案例,例如台灣網紅小玉換臉應用。其主要針對影像或影片中人臉進行替換除了負面應用之外,目前也正廣泛用在影音娛樂、遊戲等場域。該應用本質上屬於一種影像翻譯任務(Image-to-Image Translation),其中用到大量的生成對抗網路相關延伸技術[2]

人臉替換生成應用

近期相當火紅的應用案例,例如台灣網紅小玉換臉應用。其主要針對影像或影片中人臉進行替換除了負面應用之外,目前也正廣泛用在影音娛樂、遊戲等場域。該應用本質上屬於一種影像翻譯任務(Image-to-Image Translation),其中用到大量的生成對抗網路相關延伸技術[2]

聲音模擬生成與控制應用

美國演員方基墨,因喉癌需透過電子人工發聲器才能說話,在2021年也宣布和Sonantic公司合作[3],透過人工智慧生成其嗓音,近期也展示在《捍衛戰士:獨行俠》電影中。Amazon 2022 6月發表Alexa新功能,可透過一分鐘聲音資料訓練後合成特定聲紋,其主要應用在於模擬去世親人的聲音,讓使用者與已故親人對話互動[4]2022 Meta公布的新技術包括語音生成元宇宙場景的Builder Bot、超級AI助手CAIRaoke等可以讓使用者透過口說描述所需環境樣貌,系統會透過模型建構虛擬世界如「Let’s go to a park.」、「Actually let’s go to the beach.」等指令, Builder Bot生成如公園、海灘等。

文字生成應用

文字生成應用,常見的應用有Bot自動回覆生成、語句生成、文件摘要等,其核心為自然語言生成技術,在自監督式學習(Self-Supervised Learning)成功應用在NLP領域,基於Transformer語言模型也被廣泛應用於文字生成。其中Open AI GPT 3可生成多種文體內容格式,如產品說明書、新聞稿,歌詞、劇本等。其中華盛頓大學所提出可控的文字生成模型Grover被用來生成假新聞與偵測假新聞[5]可模擬紐約時報作家的寫作風格;此外也被用來產生《為什麼川普一天要做 100 個伏地挺身》文章,有趣的是該文章可掌握川普性格和言論風格。而Alibaba也進一步將技術推廣至電商場域商品廣告文案生成助手,可根據商品特性產生廣告文案;除文字之外Alibaba也進一步整合圖文等多模態(Modality)資料源,積極投入中文大型多模態視覺語言預訓練(Visual Language Pretraining)模型研發,目前廣泛用於產品文宣生成、搜尋、推薦與外觀設計等。

生成式AI於元宇宙應用

未來的幾年裡,每個人都會慢慢由只聽過變成感覺到元宇宙將有如電影中科幻的虛擬環境呈現在眼前,朝向身臨其境發展,虛擬環境充滿看起來與聽起來有如鏡像當前世界的寰宇;對於不熟悉元宇宙的人們來說,只是一個虛擬世界,可在其中戴上虛擬實境的眼鏡,並透過擬真的虛擬工廠、機台的維護組裝、通訊基地台如何配置、娛樂場所和許多活動來投射自己進入與現實近乎相同的世界,進入元宇宙就像是一個身歷其境網路版本的虛擬現實世界,具有互動功能,使用不同的技術,如5G高速低延遲通訊、擴增實境 AR)、虛擬實境 VR)、2D轉化3D技術、人工智慧 AI),將個人化的數位內容擴展到大眾面前,這具前瞻性的技術就是生成式人工智慧,即利用現有資料學習使用,再利用人工智慧演算法來模擬創造新內容的過程。

2021年秋季的NVIDIA GTC 大會中,NVIDIA CEO生成互動式人工智慧虛擬化身的 NVIDIA平台,這個平台整合包含語音 AI、自然語言、電腦視覺、推薦引擎和模擬等不同領域的技術,融合光線追蹤與 3D 繪圖,藉由這些AI工具,打造出具有語意理解對話能力的虛擬化身[6](如圖1)。

image

生成式AI技術,在元宇宙中,知名晶片大廠NVIDIA與汽車大廠 BMW 已透過 NVIDIA Omniverse 創造出數位孿生(Digital Twin)技術配合,在虛擬環境中導入所有真實物理參數設定,由生成式AI設計、模擬、操作和維護所有生產流程,轉而建構出極具未來性的真實生產工廠,可降低人們在設計生產廠房配置缺失[7] (如圖2)。

image

知名電信商愛立信則是在元宇宙中,打造整個城市規模的數位孿生技術,配合匯入模型、建築物材質和植被等細節,同時利用 NVIDIA 光線追蹤視覺化效果,透過生成式AI陣列式計算並呈現城市內 5G 基地台的無線電波放射情況,並調整放置點,達到最佳覆蓋率與網路效能,可有效降低在5G基地台需要大量電力的消耗,也可同時獲得節能與減少碳排[6] (如圖3)。

image

想得到高品質的AI生成結果,往往需要大量的訓練資料,才能訓練出逼真的生成結果。自適性鑑別增強技術(Adaptive Discriminator Augmentation, ADA),可大幅減少訓練所需的影像數量,約可減少 10~20 倍的資料量。利用大都會藝術博物館提供不到 1500 張的圖片,將ADA技術套用於熱門的 NVIDIA StyleGAN 2的模型上,生成以假亂真的藝術作品[8](如圖4)。

image

元宇宙充滿許多創造可能性,但也有許多目前法規無法規範的挑戰,元宇宙將示現著真實世界和虛擬世界碰撞的未來生活,隨著生成式人工智慧技術不斷蓬勃發展,無法容易分別新型擬真虛擬世界及我們所處的實際現實,或許只是時間的問題,是一個充滿無限創造但又帶著一絲擔憂的異世界。未來可透過對生成式人工智慧演算法的控制和創造性技術使用,在不超越倫理等相關規範情況下,組合以實現更具包容性和多樣化虛擬空間,目前正如具爆發性發展的種子。

生成式AI技術現況

人臉替換生成

人臉替換生成目前主流為透過GAN網路架構,其中CycleGAN就是將GAN應用,無監督圖像翻譯(image-to-image translation)的知名演算法,其主要來特點在於訓練資料不需要成對,只要不同域(domain)之間的圖像,就能訓練模型進行圖像翻譯任務。其中CycleGAN架構圖如圖5所示。

image

(a)表示模型包含G : X → Y 與F : Y → X兩個生成器(generator),並搭配兩個鑑別器 (discriminator)DY and DX;DY 功用在於讓 G 生成一個讓DY難以分辨的圖像,反之, DX與F的關係亦然。(b) 表達forward cycle-consistency loss也就是 F(G(x)) ≈ x;(c) 則表達backward cycle-consistency loss: G(F(y)) ≈ y。應用到人臉生成與成果比較[9]則如圖6、7所示。

image

文字生成技術

基於Transformer之語言模型應用到文字生成任務,最早可從2018 OpenAI GPT[10]模型架構如下圖8所示,其中採用Transformer的Decoder,搭配自回歸語言模型(Autoregressive LM),從文章上文內容,預測下一個詞彙。後續經過GPT2 GPT3陸續加入更大型模型與更大量訓練資料,其中GPT3模型參數到達1,750億,並使用45TB資料進行模型訓練。

image

而近期則是NVIDIA與微軟合作,提出Megatron-Turing NLG[11],參數量來到 5,300億,其中為了提升訓練效率,除引入稀疏化模型方法,如mixture-of-experts,也針對資料與模型進行平行化設計。在少量資料情境下,如zero-, one-, and few-shot learning,與多種NLP任務上,如Completion Prediction、Reading Comprehension、Commonsense Reasoning、Natural Language Inference等皆超越之前的SOTA效能。而Google也提出5,400億參數量的Transformer語言模型(Pathways Language Model, PaLM)[12],同樣訴求訓練效率提升,並在自然語言、code生成、數學推理等任務達到優異表現。

人工智慧之3D影像生成技術

元宇宙的目標是建立一個使用者可即時互動的沉浸式虛擬三維空間,使用者透過頭戴式眼鏡可看到在虛擬空間其他使用者的影像替身(Avatar)並可與之交談互動,也可用不同視角查看虛擬空間中的物體,或隨位置移動,看到不同的虛擬空間景象。
以建立沉浸式三維空間體驗的影像生成來說,這是屬於程序化內容生成(Procedural Content Generation, PCG)問題,其牽涉整合大量多媒體內容,包含影像3D模型、2D影像和360度影片。在電腦科學領域,程序化生成是一種利用很小的函式和源數據,便可製造出很多和源數據有關或類似但存在不同的新數據。在電腦圖學中,它也被稱為隨機生成,常用於製作材質貼圖和三維模型資源,並在電子遊戲領域中用於自動製造大量遊戲內容。程序化生成有著減小檔案體積、擴大內容量、增強遊戲隨機性等優點。傳統上的3D PCG包含了人工建立少量3D組裝塊資材,其可用於重組成數個不同的新物件。以3D PCG創造沉浸式虛擬空間的元宇宙建造者,若無相關工具和程序的深刻認識,將極端地限制其所能創造的內容[13]。
近年來人工智慧技術的發展已證實其是可降低程序化生成3D影像內容成本的有力工具(3D procedural content generation, PCG),不過此影像生成技術的進展目前仍處於它們的嬰兒期[14]。人工智慧3D影像生成技術開始受到人們矚目起於2020年神經輻射場(Neural Radiance Fields, NeRF)技術的論文發表,NeRF技術可從視角稀鬆取樣的固定2D輸入影像資料合成數個不同新視角的影像,如圖9所示,這些輸入影像內容可以是複雜的景物合成的新視角影像,依然保有精細的紋路。

image

NeRF利用5D的連續函數來描述靜態景物,該函數是根據輸入的空間座標(x, y, z)和觀測視角(θ, ϕ),輸出光線色值(r, g, b)和光線照過空間座標(x, y, z)之後的阻斷比例(volume density) [15]。NeRF採用全連接多層感知器(fully-connected multilayer perceptron, FC MLP)神經網路來模擬此連續函數,其輸入是一組5D向量,包含一組3D空間座標(x, y, z)和一組2D視角(θ, ϕ),其網路輸出是4D向量,包含3D的RGB色值和一個volume density值。NeRF渲染出指定視角景物影像的步驟如下:(1)從攝影機掃過景物的輸入光線取樣一組3D點集合;(2)將那些點的座標和相應視角輸入前述神經網路以得到一組顏色RGB值和volume densities;(3)採用傳統的立體渲染法(volume rendering)累積那些顏色RGB值和volume densities以得到一張2D影像。

image

NeRF在MLP神經網路訓練階段採用梯度下降法(gradient descent)調整網路權重參數,以最小化輸出值產生之渲染圖與目標圖的誤差值,如圖10所示。從同一景物但取樣視角不同的數張影像,訓練一個MLP神經網路有助於得到高品質的立體渲染參數,使得合成圖的品質更接近真實。

以上是NeRF主要的基本方法和概念,原論文中也提到當此基本方法運用於高複雜度景物時,網路的輸出無法收斂到足夠的高解析度,且從攝影機每一輸入光線取得所需的樣本數沒有效率。為改善此問題,論文中提出將網路5D輸入向量先做帶有位置編碼訊息的轉換,使得MLP網路可以模擬較高頻變化的函數,並採用階層式取樣步驟,可降低高頻變化景物所需的光線取樣數。

image

NeRF合成新視角影像的結果非常令人驚豔,特別是在金屬或有光澤物體的結果,視覺的真實性真的非常高。NeRF在2020年發表後短短不到一年內就累積了300多個 citation以及眾多知名後繼方法,包含結合 GAN獲得 2021 CVPR best的 GIRAFFE,算是為學術界開啟一個新的研究方向。

2021年發表的論文GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields[16]特點是可以經由生成對抗網路(Generative Adversarial Networks, GANs)的訓練方法將景物中的物件和背景做3D的分離,在合成影像階段可控制物件的視角和位置,以組合特徵域參數而渲染成一張影像,如圖12所示。此論文方法訓練過程中的生成部分類似NeRF,和一般GAN不同的地方在於使用多個模型分別表示同一影像中的物件和背景。

image

另外有數種NeRF的變形以加速訓練和合成新視角影像的研究發表,例如2021年發表的論文PlenOctrees for Real-time Rendering of Neural Radiance Fields[17],採用NeRF-SH(球面諧波SH, spherical harmonic)的MLP架構,輸出用spherical harmonic 係數k取代RGB色值,輸入的部分也不需視角(θ, ϕ)資訊,如圖13所示。NeRF-SH的MLP完成訓練後,藉由密集取樣所有訓練目標體的NeRF-SH模型輸出值以建立一存放volume density和SH係數的PlenOctree。此PlenOctree可另外進行內部參數最佳化以改善其品質。後續合成影像所需的RGB值則由加總那些係數k加權SH基底在視角(θ, ϕ)的函數值得到。所以此方法的訓練過程實際上包含NeRF-SH(MLP)訓練和PlenOctree參數最佳化的訓練,原論文提及由於發現NeRF-SH(MLP)的訓練並不須達到完全收斂的程度,所以此方法所需的整體訓練時間較原NeRF短。該論文的實驗結果顯示,以此PlenOctree技術合成800×800影像的速度超過150FPS,是原NeRF合成速度的3,000倍,而且保留NeRF可合成不同視角和幾何形狀景物的自由度,以及獲得更高的影像解析度品質。

image

image

生成式AI工具平台

NVIDIA 推出了Omniverse平台,是一個實現元宇宙易於擴展的平台,圖14是它的平台架構。利用Omniverse可進行 3D 設計協作和多 GPU 可擴充模擬,以及即時真實模擬。此平台改變了創作與開發,及團隊合作的方式,為團隊中帶來更多創意可能性與效率。在元宇宙中建立數位孿生,讓 BMW、Ericsson等公司能夠創作符合真實物理情況的虛擬環境,其中包含各種物件、流程或環境,而且這一切都能透過生成式人工智慧技術讓虛擬與真實世界的資料輸入內容持續同步。藉由 NVIDIA Omniverse平台、數位孿生、5G通訊網路,正以爆炸性的速度與更高的擬真度以實現元宇宙。

生成式AI技術實例

本章節我們將介紹實作人工智慧之3D影像生成技術時蒐集訓練資料方法及參數設定,NeRF實驗程式碼可從原論文作者提供的(https://www.matthewtancik.com/nerf)取得。以NeRF論文裡提到的合成實驗資料庫為例,其訓練影像資料由以目標物件為中心的上半圓球平面100個隨機分布攝影機朝中心拍攝取得,這些影像資料的尺寸為800×800像素且附有相機拍攝角度和內部參數資訊。若所取得的目標物件影像並非正好填滿全影像,則需提供矩形物件框的座標位置給訓練程式,以便進行訓練時隨機取樣的拍攝光線可集中在目標物件。訓練NeRF MLP所需的遞迴次數約100k到150k之間。模型訓練過程中的影像生成誤差收斂後即完成訓練步驟,之後給予影像的視角即可使用此模型的輸出參數渲染出影像。因此若合成視角為環繞物件的圓形軌跡,即可產生360度環視物體的效果,如圖15所示。NeRF的合成效果在包含背景複雜的真實影像依然可維持紋路細緻影像的效果,如圖16所示。

image

image

未來發展方向與相關議題

相較於早期的生成式AI偏向透過規則方法與小型模型,現在則透過大量網路資料搭配大型深度網路模型建構而成的大型預訓練模型,將讓生成式AI開始有了新典範。未來幾個面向值得注意:

創造性:從音樂圖片到文章與設計生成等應用案例,生成式AI方法似乎可達到不錯的成效,未來生成式AI是否可朝向與真人合作完成更具創造性的工作?為了達成此目標,過去訓練AI模型的目標函數(objective function)是否也要考慮加入創造性的元素,如novelty。

可控制性:透過真人與AI系統交互合作過程,讓生成內容的過程可被有效的控制,避免讓生成式AI一步到位產生內容,透過真人互動回饋,可減少AI生成過程中錯誤遞移現象導致失效。

此外,目前主流透過巨量資料訓練而成的大型預訓練模型,是否適合須產生具備創意元素之生成式AI應用?或者應透過不同的機制設計,如prompt composition,透過重構生成內容,得到更具創造性的內容?此外當大型預訓練模型中存在資料偏誤(Bias),是否影響生成內容?如何衡量與改善,都是目前尚待解決之問題。

結論

元宇宙是下一個世代的網際網路,未來人們可以在元宇宙裡進行各式各樣的互動,不過,目前仍處於發展的早期階段。生成式AI對建構豐富的元宇宙內容扮演關鍵的角色,目前在各個領域都有了初步的一些進展,隨著元宇宙的發展,未來生成式AI的技術值得持續關注。

Reference: https://ictjournal.itri.org.tw/xcdoc/cont?xsmsid=0M236556470056558161&qcat=0M236615929154970794&sid=0M264366207303132265

 

 

生成式 AI 逐步落地,人類在「AI 創作時代」如何另謀高就?

image

創新點:AI 已能根據簡單的文字指令來創作文字、圖片、影音、設計。原本做這些事的人怎麼辦?

2022 年末,網路上最受討論的,是一隻聊天機器人——「ChatGPT」。由美國人工智慧研究機構「OpenAI」發表,短短兩週內吸引了上百萬人使用。專家認為,「ChatGPT」的出現,跟智慧型手機、網際網路的出現一樣,將根深蒂固地改變人類的工作和生活。

「ChatGPT」的「生成式 AI」(Generative AI)技術,讓任何人都可以用簡單的自然對話(而非程式語言),指揮 AI 創作各種內容。

什麼是「生成式 AI」?如何爆紅?目前有哪些應用?而人類在 AI 創作時代如何「另謀高就」?

 

這篇文章的首圖是我用 AI 繪圖工具「Stable Diffusion」完成的,而文字是由我和「ChatGPT」一起完成。猜得出哪些是 AI 寫的?哪些是真人寫的嗎?謎底在文章最後揭曉。

「生成式 AI」的發展歷程

生成式 AI,是指讓「機器學習模型」研究類似作品的數據,然後去創造一個全新的作品,可以是文字、圖像、音訊檔、影片、程式碼、甚至建築設計。過去七年,Google、Meta 等科技巨頭、以及微軟投資的 OpenAI,都在打造 Generative AI 的「語言模型」(Language Model)。這三家先驅者用大量電腦運算能力和數據「訓練」這些「語言模型」,讓它們能自己創作內容。訓練過程,可分成三個階段:

A. 萌芽期(2015 年之前)

只有小型模型。這些模型在「數據分析」上表現出色,如預測外送抵達時間、詐騙訊息分類…等。但在模仿人類語言的「內容創作」上並不及格,無法像真人一般寫作、寫程式、畫圖。

 

B. 突破期(2015 年至 2022 年)

2017 年,Google Research 發表「Transformer 模型」,是自然語言運算(Natural Language Processing, NLP)領域的里程碑。Transformer 模型需要被訓練的時間比以往少,產出的品質卻大幅提高,並且容易針對各應用領域的需求客製化。(詳細可參考維基百科之介紹)

如 Google 開發出 BERT、LaMDA。Meta 開發的 OPT-175B、BlenderBot。微軟投資的 OpenAI 開發出 GPT-3(用於文字)、DALL-E2(用於繪圖)、Whisper(用於語音辨識)。

為什麼都是富可敵國的大公司?因為訓練這些模型的成本很高。

例如,GPT-3 最初在 45TB 的數據上進行訓練、運用了高達 1,750 億個參數來預測結果,單次訓練就要 1,200 萬美元。中國的悟道預訓練模型,則使用了 1.75 兆個參數進行訓練,動員了清華大學、北京大學、中國科學院等機構的資源。

2015 年到 2020 年之間,訓練這些模型的計算量增加了六個數量級,使得這些模型能夠以近乎、甚至超越人類的水平,來執行任務。

只不過在這個階段,這些模型並未進入大眾視野。因為他們需要龐大資源才能運轉,成本也還沒降低到可以供大眾在雲端使用。

C. 業界落地期(2022 年~)

隨著電腦運算成本降低、新技術如擴散模型(Diffusion Model)出現,訓練和營運行逐漸降低。Google 等公司陸續公開這些模型,讓開發者可以試用。

當核心的生成模型被訓練出來後,不用太大量的數據,就可依據各領域進行客製化調整。於是 Google 開發的 BERT 便有專注生醫領域的模型 BioBERT、法律領域的模型 Legal-BERT。這讓很多專業人士也開始試用。

然後在 2022 年,生成式 AI 在一般大眾之間爆紅。

文字影音等多種內容,AI 都可以做得比人更好

2022 年,生成式 AI 出現了殺手級應用,讓一般大眾開始使用。如繪圖領域的 Midjourney、Stable Diffusion、DALL·E2,以及聊天機器人 ChatGPT。

同時,先驅者公開它們的語言模型(如 OpenAI 開放 GPT-3),讓新創公司省掉耗費金錢和時間的訓練階段,直接在各專業領域推出應用產品。

這些新創涵蓋的範圍,不僅是透過文字生成文字、圖片、聲音、程式、音樂、影像、3D、NFT,甚至可以反向操作,用語音生成文字(如逐字稿應用)、圖片生成圖片(如快速去背、圖像編輯)、連結生成文字(如快速擷取 url 網頁內文產出腳本)、影片生成影片(如從會議影片快速生成部落格文章、推特推文、精彩花絮..等等)。這裡有網友整理出的生成式 AI 的各類型應用。

以商機龐大的行銷產業為例,生成式 AI 的商業應用潛力已經相當驚人。

從部落格文章撰寫、SEO 優化、影片編輯、社群行銷文案產生、廣告素材生成…等,全部有 AI 可幫你代勞。各賽道都塞滿競爭者:

部落格文章點子產生器: Hubspot Blog Ideas Generator, Portent Idea Generator
部落格文章、社群貼文、email文案、SEO 優化內容產生器: Jasper, Writesonic, TextCortex
文字生成廣告素材圖片: Memorable
文字生成行銷影片: Synthesia, Movio

從點子發想,到實際撰寫內容、拍攝圖片、拍攝影片,如今生成各式各樣的行銷素材,都可以坐在電腦前面一鍵完成。不需抓耳撓腮、腸枯思竭,也不必為了打光跑進跑出,NG 重來數遍。

美國已有許多公司開始採用這類的 AI 工具。如雲端運算大廠 VMWare 的內容行銷人員,就運用 Japser 產出行銷郵件內容、廣告文案、社群內容。當 AI 已經可以執行大部分的寫作任務時,寫手就可以專注於尋找更好的寫作題材、研究內容方向、制定內容策略方向。這種跟 AI 玩「大風吹,換位子」的現象,已經在大企業發生。

另外,如摩根士丹利(Morgan Stanley)銀行也透過 GPT-3,來為客戶創造客製化金融內容。由真人用特定字眼來「提示」(prompt)AI,然後由 AI 創造初稿,然後再由真人來編輯、審稿。

行銷領域,只是生成式 AI 應用的冰山一角。根據美國知名創投公司——紅杉資本(Sequoia Capital)的分析,生成式 AI 也可用於自動創作程式語言、藝術作品、遊戲、產品設計等。

AI 百花齊放,人類何去何從?大風吹之後,還有我們的位子嗎?

AI 創作時代,人類如何「換位子」?

當生成式 AI 產出可以大量、快速、客製化創作優質內容,人類的價值何在?

幾個趨勢已經注定「回不去」了:

1. AI 將成為多數「功能性」內容撰寫的主力

這類內容有明確架構、重複性高,目的在於傳遞訊息、提供清晰、必要的說明。不需傳達個人風格、品牌、形象。不需感性或闡釋。例如促銷訊息、折扣碼說明、產品說明書、社群貼文、教育訓練影片、廣告企劃案、研究報告、白皮書、業務企劃書、說明書,

這些內容都可以透過 AI 工具快速做出草稿,微調後即可發送。也就是說,行銷、業務、營運、客服都能透過AI節省大量人力。換句話說,在這領域,AI最容易取代人類的價值。

2. 把 AI 當手,人類當腦

內容人才的價值已經不在於「寫」,而在於捕捉市場趨勢、時事動態、客戶心態,制定最符合當下時空背景的內容策略。目前的 AI 雖然能高效產出內容,但還無法分析受關注的時事議題、市場趨勢,找出可切入的內容策略。另外,AI 也還無法同理、模擬客戶的心理,也不能推測客戶可能會想看的文章。AI 也還無法統整公司內部的資料庫,從中挖掘有價值的主題產製成內容。進入 AI 創作時代,人類的最大勝算是換位子當大腦,把手的工作都讓給 AI。

3. 洞悉觀賞者的情緒與需求,才能在新的內容混戰中殺出血路

生成式 AI 加速了內容產製,會讓內容更為氾濫。亂軍中,能吸引到眼球的內容,有可能在於內容更緊貼時事、更迎合觀賞者的心理狀態,更能貼近社會上瀰漫的各種情緒,或更具備個人獨特的風格與特色。

生成式 AI 還在以兇猛的態勢發展——2022 年爆紅,2023 年將預計將多點開花。生成式 AI 的「軍火供應商」——OpenAI,因 ChatGPT 一夕爆紅。據傳將得到微軟新一輪高達 100 億美元的融資,讓公司估值高達的 290 億美元。微軟看好無數的第三方公司將可透過 OpenAI 的 API 打造全新應用服務,用 AI 改變商業運作流程。

AI 創作引領的新時代就在眼前。或許我們害怕的是,這一切都才剛開始而已。

Ref: https://fc.bnext.com.tw/articles/view/2706?bx_heid=8080349749

 

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 BENEVO 的頭像
    BENEVO

    BENEVO台灣部落格 之 科技應用。創新與分享

    BENEVO 發表在 痞客邦 留言(0) 人氣()