從Meta的LLaMA發(fā)展出的羊駝家族一系列大模型,已成為開源AI重要力量。
但LLamA開源了又沒全開,只能用于研究用途,還得填申請(qǐng)表格等,也一直被業(yè)界詬病。
好消息是,兩大對(duì)標(biāo)LLaMA的完全開源項(xiàng)目同時(shí)有了新進(jìn)展。
可商用開源大模型來了,還一下來了倆:
MosaicML推出MPT系列模型,其中70億參數(shù)版在性能測(cè)試中與LLaMA打個(gè)平手。
Together的RedPajama(紅睡衣)系列模型,30億參數(shù)版在RTX2070游戲顯卡上就能跑。
對(duì)于這些進(jìn)展,特斯拉前AI主管Andrej Karpathy認(rèn)為,開源大模型生態(tài)有了寒武紀(jì)大爆發(fā)的早期跡象。
MPT,與LLaMA五五開
MPT系列模型,全稱MosaicML Pretrained Transformer,基礎(chǔ)版本為70億參數(shù)。
MPT在大量數(shù)據(jù)(1T tokens)上訓(xùn)練,與LLaMA相當(dāng),高于StableLM,Pythia等其他開源模型。
支持84k tokens超長(zhǎng)輸入,并用FlashAttention和FasterTransformer方法針對(duì)訓(xùn)練和推理速度做過優(yōu)化。
在各類性能評(píng)估中,與原版LLaMA不相上下。
除了MPT-7B Base基礎(chǔ)模型外還有三個(gè)變體。
MPT-7B-Instruct,用于遵循簡(jiǎn)短指令。
MPT-7B-Chat,用于多輪聊天對(duì)話。
MPT-7B-StoryWriter-65k+,用于閱讀和編寫故事,支持65k tokens的超長(zhǎng)上下文,用小說數(shù)據(jù)集微調(diào)。
MosaicML由前英特爾AI芯片項(xiàng)目Nervana負(fù)責(zé)人Naveen Rao創(chuàng)辦。
該公司致力于降低訓(xùn)練神經(jīng)網(wǎng)絡(luò)的成本,推出的文本和圖像生成推理服務(wù)成本只有OpenAI的1/15。
RedPajama,2070就能跑
RedPajama系列模型,在5TB的同名開源數(shù)據(jù)上訓(xùn)練而來(前面提到的MPT也是用此數(shù)據(jù)集訓(xùn)練)。
除70億參數(shù)基礎(chǔ)模型外,還有一個(gè)30億參數(shù)版本,可以在5年前發(fā)售的RTX2070游戲顯卡上運(yùn)行。
目前70億版本完成了80%的訓(xùn)練,效果已經(jīng)超過了同規(guī)模的Pythia等開源模型,略遜于LLamA。
預(yù)計(jì)在完成1T tokens的訓(xùn)練后還能繼續(xù)改進(jìn)。
背后公司Together,由蘋果前高管Vipul Ved Prakash,斯坦福大模型研究中心主任Percy Liang,蘇黎世聯(lián)邦理工大學(xué)助理教授張策等人聯(lián)合創(chuàng)辦。
開源模型發(fā)布后,他們的近期目標(biāo)是繼續(xù)擴(kuò)展開源RedPajama數(shù)據(jù)集到兩倍規(guī)模。
One More Thing
來自南美洲的無峰駝?lì)悇?dòng)物一共4種,已被各家大模型用完了。
Meta發(fā)布LLaMA之后,斯坦福用了Alpaca,伯克利等單位用了Alpaca,Joseph Cheung等開發(fā)者團(tuán)隊(duì)用了Guanaco。
以至于后來者已經(jīng)卷到了其他相近動(dòng)物,比如IBM的單峰駱駝Dromedary,Databricks的Dolly來自克隆羊多莉。
國(guó)人研究團(tuán)隊(duì)也熱衷于用古代傳說中的神獸,如UCSD聯(lián)合中山大學(xué)等推出的白澤。
港中文等推出的鳳凰……
最絕的是哈工大基于中文醫(yī)學(xué)知識(shí)的LLaMA微調(diào)模型,命名為華駝。