谷歌微軟阿里華為都愛上大模型,AI開發邊界被打破
蛋白質折疊問題被認為是人類在21世紀需要解決的重要科學前沿問題之一。理解蛋白質的結構有助于確定蛋白質的功能,了解各種突變的作用。
谷歌旗下的人工智能超大模型DeepMind在2021年準確地預測了蛋白質折疊成的結構AlphaFold2,解決了一個延續了50年的“重大挑戰”,為更好地了解疾病和藥物發現鋪平道路。
大模型悟道1.0在推出時在醫療方面的一個應用方向是癌癥早篩,如上傳乳腺癌圖像,找到乳腺癌相關預測亞類,通過影像識別宮頸癌亞類等。
而另一個超大規模AI模型GPT-3 所表現出來的零樣本與小樣本學習能力,則刷新了人們的認知。基本的生成、分類、搜索、問答應用都已經被開發成對應的API,一個模型,對應解決不同用戶的不同問題。
AI超大模型正在不同的領域表現出驚人的智能水平,給企業帶來更多的希望。谷歌、亞馬遜、微軟、英偉達、智源人工智能研究院、阿里、百度、華為、浪潮等國內外科技巨頭紛紛展開大模型研究和探索。
2021年,預訓練大模型迎來大爆發,引爆AI大模型研究的熱潮。那么,2022年,AI大模型會給人們帶來哪些驚喜呢?
01 2021年,超大規模預訓練模型爆發
過去三年來,國外超大規模預訓練模型參數指標不斷創出新高,“大模型”已成為行業巨頭發力的一個方向。
國外的超大規模預訓練模型起步于2018年,2021年進入“軍備競賽”階段。
2018年,谷歌提出3億參數BERT模型,驚艷四座,由此大規模預訓練模型開始逐漸走進人們的視野,成為人工智能領域的一大焦點。
2019年2月,OpenAI推出了15億參數的GPT-2,能夠生成連貫的文本段落,做到初步的閱讀理解、機器翻譯等。
緊接著,英偉達推出了83億參數的Megatron-LM,谷歌推出了110億參數的T5,微軟推出了170億參數的圖靈Turing-NLG。
2020年6月,大模型迎來了一個分水嶺,OpenAI以1750億參數的GPT-3,直接將參數規模提高到千億級別。而作詩、聊天、生成代碼等無所不能。
之后,微軟和英偉達在2020年10月聯手發布了5300億參數的Megatron-Turing自然語言生成模型(MT-NLG)。
2021 年 1 月,谷歌推出的Switch Transformer模型以高達1.6 萬億的參數量打破了GPT-3作為最大AI模型的統治地位,成為史上首個萬億級語言模型。
2021年,12月,谷歌還提出了1.2萬億參數的通用稀疏語言模型GLaM,在7項小樣本學習領域的性能超過GPT-3。
國內,超大模型研發厚積薄發,充分展示了中國企業的技術實力和應用需求。
2021年是中國超大規模AI模型的爆發年。在國內超大模型研發比國外公司晚,但是發展卻異常的迅速。
4月,華為云聯合循環智能發布盤古NLP超大規模預訓練語言模型,參數規模達1000億;聯合北京大學發布盤古α超大規模預訓練模型,參數規模達2000億。
阿里達摩院發布270億參數的中文預訓練語言模型PLUG,聯合清華大學發布參數規模達到1000億的中文多模態預訓練模型M6。
6 月,北京智源人工智能研究院發布了超大規模智能模型“悟道 2.0”,參數達到 1.75 萬億,成為當時全球最大的預訓練模型。
7月,百度推出ERNIE 3.0 知識增強大模型,參數規模達到百億。10月,浪潮發布約2500億的超大規模預訓練模型“源1.0”。
12月,百度推出ERNIE 3.0 Titan模型,參數規模達2600億。而達摩院的M6模型參數達到10萬億,將大模型參數直接提升了一個量級。
AI超大模型爆發的原因是什么?
中國軟件網認為,AI超大模型爆發的原因有三:
一是需要且必要。AI對企業的滲透率逐年提升,正在加速進入不同的行業。但AI的短板如AI應用的碎片化等卻越來越凸顯。
具體而言,一個團隊開發了一個AI模型,但在應用過程中,往往會因為場景的多樣性、復雜性,無法達到“以一敵十”的效果。
強悍地自我學習、應萬變的能力,正讓大模型“需要且必要”。
二是預訓練模型技術問題被化解。2018年出現的預訓練模型成功激活了深度神經網絡,以及對大規模無標注數據的自監督學習能力,并在一定程度上打開了深度學習模型規模與性能齊飛的局面,尤其是自然語言處理。
同時,大模型對一些復雜性問題的解決帶來了希望。國際巨頭們在嘗到預訓練模型帶來的“甜頭”之后,開始展開了激烈的競爭,競相追逐模型規模和性能的新高度。
三是更多示范應用案例出現。在商業落地方面成果豐碩的大模型GPT-3,已經有300多個衍生應用,其相關創業公司也有好幾十個,有些公司還拿到了融資。
在“悟道2.0”的基礎上,OPPO小布助手建設了直接給出開放域長尾問題答案的能力。
智源研究院院長、北京大學信息科學技術學院教授黃鐵軍表示,近年來人工智能的發展應該從家家戶戶“大煉模型”的狀態,逐漸變為把資源匯聚起來,訓練超大規模模型的階段,通過設計先進的算法,整合盡可能多的數據,匯聚大量算力,集約化地訓練大模型,供大量企業使用。
02 預訓練大模型技術與應用難題正在被破解
預訓練大模型發展的首要特點就是降低了AI應用的門檻。
作為當前人工智能發展的重要方向,預訓練大模型已成為AI領域的技術新高地。
據介紹,目前行業內的AI技術應用存在兩大困難:一是數據標注非常昂貴,特定場景內無法完成大批量數據批注;二是行業自身的知識積累相對較弱。
預訓練大模型降低了AI應用的門檻,解決了AI 應用的數據和行業知識兩個難題,既不需要大量的標注數據,又保障了基礎底座。
預訓練大模型的推出,則能夠在不具備大量數據標注的同時保證了技術基礎底座,疊加行業“基本功”,便能夠實現AI技術的快速落地。
AI預訓練大模型的規模和性能不斷推向新的高度,打開了深度學習模型規模與性能齊飛的局面。
在GPU多機多卡算力和海量無標注文本數據的雙重支持下,預訓練模型打開了深度學習模型規模與性能齊飛的局面,成為人工智能和深度學習領域的革命性突破,引發了國際著名互聯網企業和研究機構的激烈競爭,將模型規模和性能不斷推向新的高度。
預訓練語言模型是讓AI具備認知能力的關鍵技術,突破了傳統深度學習方法的瓶頸,是一種新型AI訓練思路。
預訓練語言模型即首先自動學習大量語言文字和圖像數據,記憶和理解人類豐富的先驗知識,再進一步學習專業領域信息,從而讓AI同時掌握常識和專業知識。
目前,谷歌、微軟和 Facebook等企業已投入該技術的研發。
與經典的機器學習流程相比,預訓練語言模型具有參數規模大、模型通用能力強、模型綜合性能好等優勢。
因此,大規模預訓練模型成為自然語言處理甚至整個人工智能領域的重要技術突破,有望將數據驅動的深度學習技術推向新的發展階段。
AI預訓練大模型的參數不斷飆升,采用單體模型和混合模型兩種技術路線。
在2021年1月,谷歌發布了全球首個萬億級模型Switch Transformer。11月,阿里巴巴達摩院的多模態大模型M6的參數規模更是躍升至10萬億級別。參數數量成為AI預訓練大模型規模的一個衡量指標。
現在業界提高模型參數數量主要有兩種技術路線:
一種是單體模型,將所有數據中學習得到的規律都記錄在一張網絡內,使用時網絡上的任何點位都會被計算到。
浪潮的源大模型、華為的盤古大模型、百度的文心大模型、英偉達聯合微軟發布的自然語言生成模型MT-NLG等走的都是單體模型路線。
另一種是混合模型,由多個不同網絡通過門控機制集成在一起,在單次計算中可能只會使用部分子網絡的參數。智源的悟道模型、阿里M6等走的就是混合模型路線。
03 國內5大AI預訓練大模型風采各異
阿里達摩院M6三連跳:萬億、商用、低功耗。
2021年1月,阿里達摩院M6達成百億參數,3月達成千億參數,5月在全球范圍內首次大幅降低了萬億參數超大模型的訓練能耗,12月參數達到10萬億。
其中達摩院訓練出萬億參數模型M6,僅僅使用了480卡V100 32G GPU,節省算力資源超80%,且訓練效率提升近11倍。
M6擁有超越傳統AI的認知和創造能力,擅長繪畫、寫作、問答,在電商、制造業、文學藝術等諸多領域擁有廣泛應用前景。
M6還是國內首個實現商業化落地的多模態大模型。例如,經過一段時間的試用,M6將作為AI助理設計師正式上崗阿里新制造平臺犀牛智造。
百度ERNIE 3.0 Titan:知識增強體現出學習效率更高、學習能力更強的優勢。
鵬城實驗室與百度共同研發的鵬城-百度·文心(ERNIE 3.0 Titan)模型參數規模達到2600億。
知識增強是該大模型的最大特點,在學習過程中融入知識,進而實現將海量知識與海量數據融合學習。
同時,在融入知識的基礎上,該模型也會進行跨語言學習、跨模態學習,從而體現出學習效率更高、學習能力更強的優勢。
ERNIE 3.0 Titan在包括機器閱讀理解、文本分類、語義相似度計算等60多項任務上取得好的效果,并在30余項小樣本和零樣本任務上刷新基準。
浪潮人工智能研究院“源1.0”,以開放API、開放數據集、開源代碼等多種形式開放合作。
浪潮人工智能研究院的浪潮源1.0大模型在算法、數據、算力三個層面上實現超大規模,其中在算法上,大模型總共用了 2457億的參數,超過1750億參數的GPT-3。
在數據上,研制高質量文本分類模型,形成新中文數據集生成方法,最終獲得5000GB高質量數據集,是迄今業界最大的高質量中文數據集。
在算力上,共4095PD(PetaFlop/s-day)的計算量,獲得高達2457億的參數量,相對于GPT-3消耗3640PD計算量得到1750億參數,源1.0大模型計算效率大幅提升。
2021年10月,源1.0宣布開源開放計劃,將以開放API、開放數據集、開源代碼等多種形式為業界提供開放合作,用戶可基于“源1.0”模型探索算法創新以及開發各類智能化應用。
華為云盤古大模型:實現人工智能工業化開發。
于2021年4月亮相的華為云盤古大模型括中文語言(NLP)、視覺(CV)大模型,多模態大模型、科學計算大模型,旨在建立一套通用、易用的人工智能開發工作流,實現人工智能工業化開發。
未來,華為云盤古預訓練大模型將上線華為云AI資產共享社區(AI Gallery)。
盤古研發團隊將繼續對盤古多模態大模型進行迭代演進,持續開發上游通用能力。
同時也會將把大模型拓展到更多的行業領域,讓盤古多模態大模型演化成諸多盤古行業多模態大模型,加速盤古系列預訓練大模型的“上天”(通用能力打造)與“入地”(行業落地)步伐。
悟道:大模型變得更加好用、易用。
北京智源人工智能研究院自2020年10月啟動大模型研究,2021年3月發布我國首個超大規模智能信息模型“悟道1.0”,訓練出包括中文、多模態、認知、蛋白質預測在內的系列模型,并在模型預訓練范式、規模和性能擴增技術、訓練語料數據庫建設等方面取得了多項國際領先的技術突破。
2021年6月參數規模高達1.75萬億“悟道2.0”推出。智源正在做的即是將悟道的應用門檻降下來,將AI的效率和情商提起來,給更多人帶來便利。
無論是降低AI大模型開發門檻的悟道開發平臺,還是“一卡頂四卡”的高效推理工具包、4倍提速4倍清晰的AI文圖繪畫、最大中文對話模型等技術創新,都讓悟道大模型變得更加好用、易用。
04 克服挑戰,預訓練大模型往哪兒走?
那么,在預訓練大模型發展中,面臨最大問題是什么,未來的發展方向又在哪兒呢?
隨著模型規模擴大的是訓練對資源的消耗越來大,而參數數量增加所帶來的性能提升與消耗提升不成比例。
在這方面,不少研究開始對“模型參數越多,性能也越好”是否始終成立提出了質疑。
例如,谷歌的研究人員開發了一個參數量遠小于GPT-3的模型——微調語言網絡(fine-tuned language net, FLAN),這個1370億個參數的模型在許多有難度的基準測試中性能都大幅超過GPT-3。
阿里達摩院在發布的報告里認為,未來大模型的參數規模發展將進入冷靜期,大模型與相關聯的小模型協同將是未來的發展方向。
其中,大模型沉淀的知識與認知推理能力向小模型輸出,小模型基于大模型的基礎疊加垂直場景的感知、認知、決策、執行能力,再將執行與學習的結果反饋給大模型,讓大模型的知識與能力持續進化,形成一套有機循環的智能系統。參與者越多,模型進化的速度也越快。
大模型正在誕生不同應用領域的小模型或者應用。
阿里達摩院預測,在未來的三年內,個別領域將以大規模預訓練模型為基礎,對協同進化的智能系統進行試點探索。
在未來的五年內,協同進化的智能系統將成為體系標準,讓全社會能夠容易地獲取并貢獻智能系統的能力,向通用人工智能再邁進一步。
對預訓練大模型的性能優化仍在持續推進中。
相對而言,大量研究在預訓練模型的落地能力上將持續努力,壓縮、剪枝、蒸餾的工作仍起到重要作用。不止于算法本身,編譯、引擎、硬件等方面的優化也在大步邁進。
整體而言,現在大規模預訓練模型的研究,包括模型結構的演進和落地仍處在探索階段,各家的持續探索正在不斷擴大對大規模預訓練模型的認知邊界。
毫不諱言,AI超大模型應該成為普惠性的科技進步力量,讓行業用戶甚至是中小用戶也能使用超大模型尋求深度創新,促進業務可持續健康發展。
這一成果的取得必須依靠更多的產、學、研、用機構和開發者,從技術創新、場景融合、應用開發等不同維度,共同促進AI超大模型的健康發展與產業落地。
本文來自微信公眾號“中智觀察”(ID:Hapiweb-soft6),作者:趙滿滿,編輯:小瑞瑞,36氪經授權發布。