衝擊現有遊戲規則:Llama2顛覆語言模型生態!

  • 大數軟體
快速摘要

Llama二代是Meta於二〇二三年七月推出的新一代開源大型語言模型,支援限制性商業授權(使用者數不超過七億),是繼初代之後的重大升級。模型共有七十億、一百三十億與七百億三個參數版本,其中七百億版本在多項基準測試中表現與GPT三點五相當,部分指標甚至更勝一籌,但在程式撰寫能力上仍略遜於商業版本。訓練流程採用三個階段:以約二十拍位元組公開文本進行預訓練(資料量較初代增加百分之四十),以三萬條人工標注資料進行監督式微調,再以人類反饋強化學習優化模型對齊,白皮書明確強調高品質人類回饋的重要性。訓練成本依版本不同介於二十七萬六千至一百七十萬美元,整體研發預算估計逾兩千萬美元。此次發布對現有語言模型生態造成衝擊,開源商用化趨勢壓縮多家新創公司的定位空間,同時進一步鞏固微軟在商業部署領域的領先地位。

Llama2

不落OpenAI之後,Meta繼開放開源大型語言模型Llama之後,再一次重磅推出新一代開源大型語言模型Llama2 ,並打著可直接商用的號召,希望重新奠定 Meta 在 AI 中的武林地位。我們今天就來深度解析Llama2 背後的關鍵技術細節是否到位:

 


1. 不輸ChatGPT的生成能力:

此次公布的 Llama2 包含了7B、13B與70B的三個版本(34B 的版本並未公布),經過測試,所有版本的模型都優於 Llama1,而70B的模型在多項基準測試上與GPT-3.5相若,部分評測指標上更勝一籌,達到開源語言模型的最高水平。只不過在寫程式這塊與ChatGPT相比,ChatGPT還是技高一籌。

 


2. 人類反饋強化學習(RLHF)重返榮耀?!:

Llama2 採用了三個步驟:預訓練、監督式微調與人類反饋強化學習,進行訓練:
(1). 預訓練(Pre-training):使用公開數據約20PB的文本進行預訓練(相較於初代的Llama1,Llama2 使用的數據量增加了40%)
(2). 監督微調(Supervised Finetuning):採用人工標注的數據約三萬條進行監督式微調,著重在答案的優化而不是提示詞的優化
(3). 人類反饋強化學習(Reinforcement Learning from Human Feedback):搜集人類偏好,並利用強化學習進行模型優化

之前許多團隊在訓練開源大型語言模型時,認為人類反饋強化學習(RLHF)不重要,只需要做監督微調(SFT) 即可,但根據Llama2 技術白皮書,強化學習(RLHF)相當重要,而人類回饋的品質至關重要,品質越高,模型能力就越顯著!

 


3. 高昂的訓練成本:

按照AWS A100的價格計算($1.50 / A100),7B模型的訓練成本为$276,480、13B模型的訓練成本为$552,960、34B模型的訓練成本为$1.03M、70B模型的訓練成本为$1.7M。Llama2 研發預算很可能超過2,000萬美元。這反映了要開發一定能力的大規模語言模型仍然需要相當大的資本。

不過對馬克而言,似乎只要多裁掉40 ~ 50 個工程師,好像一年就省了2,000萬了?!

 


4. 衝擊現有遊戲規則:

Llama2的強大性能與靈活的商業化許可(Meta官方公告:有限制的可商用規範,只要使用人數不超過7億人),將對現有的大型語言模型生態格局產生衝擊。許多
新創公司(如Mosaic、Red Pajama)可能會會失去定位;客製化訓練優勢可能被削弱;其他開源項目(如Falcon, MPT, Vicuna)也面臨更高的要求。要與這些科技巨頭競爭,將需要有更明確的業務定位與優勢。

其實看之前的Threads 到現在的 Llama2 ,就可以看出來以Meta 這頭網路巨獸而言,只要馬克想涉及哪塊領域,必定能掀起波瀾,小公司與其跟這些巨獸正面對抗,不如專注於用戶的需求,才有辦法在神仙打架的局面下生存!

另外,Llama2的發布雖然吹皺OpenAI 一池春水,但卻進一步鞏固了微軟在該領域的主導地位。微軟與OpenAI和Meta這兩家LLM領域的頂尖力量建立了獨家合作關係,便能鞏固其在商業部署領域的領先優勢。

 


5. 推動業界進化,邁向開放

Llama2 有力地展示了開源社群合作的力量,不但壓縮了OpenAI 的領先優勢,也促使AI 業界邁向更開放透明的方向。這波開源語言模型的新浪潮,必將推動AI全面進步!

開源連結:https://github.com/facebookresearch/llama

體驗連結:https://www.llama2.ai/

論文連結:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/