知名百科  > 所屬分類  >  其他科技   

百川大模型

百川大模型是百川智能推出的一款大模型產(chǎn)品。它結(jié)合了意圖理解、信息檢索和強(qiáng)化學(xué)習(xí)技術(shù),將監(jiān)督微調(diào)與人類意圖對齊相結(jié)合,支持多輪對話、內(nèi)容生成、文章摘要、知識問答、代碼生成、指令跟隨、數(shù)學(xué)和邏輯推理等多種場景。百川智能是中國擁有大型模型的獨角獸公司。截至2023年12月,其已發(fā)布7款大型機(jī)型,包括4款開源機(jī)型百川-7B/13B和兩款閉源機(jī)型百川-53b、百川-53B和百川2-192K-192k。

百川系列是世界上下載量最多的開源模型之一。截至2023年12月,百川模型的下載量已超過500萬次。自百川-53B模型發(fā)布以來,已有200多家企業(yè)申請部署和試用百川開源模型。

目錄

發(fā)展歷史 編輯本段

2023年4月10日,搜狗創(chuàng)始人兼前CEO王小川在社交媒體上發(fā)布消息稱,大型語言模型公司百川智能成立,主要業(yè)務(wù)方向是開發(fā)和提供通用人工智能服務(wù)。

2023年6月15日,百川智能發(fā)布了一款名為百川-7B的大型開源車型。基于Transformer結(jié)構(gòu),該模型已在約1.2萬億個代幣上進(jìn)行訓(xùn)練,其中包含70億個參數(shù)。它還支持中文和英文,上下文窗口長度為4096。

2023年7月11日,百川智能正式發(fā)布了兩個量化版本,分別是通用大語言模型百川-13B-Base、對話模型百川-13B-Chat及其參數(shù)為130億的INT4/INT8。

2023年8月31日凌晨,百川智能宣布其大模型已通過《生成式人工智能服務(wù)管理暫行辦法》備案,并向公眾開放。9月20日,百川智能大模型API上線。

2023年9月6日,百川智能舉辦了以“百川會海,開源共贏”為主題的大模型發(fā)布會。會上,百川智能宣布百川2-7B、百川2-13B、百川2-13B-Chat及其4-4bit量化版本正式開源并進(jìn)行微調(diào),它們均可免費商用。

2023年9月25日,百川智能發(fā)布了百川2-53B閉源大模型,該模型顯著提升了數(shù)學(xué)和邏輯推理能力,并通過建立高質(zhì)量數(shù)據(jù)系統(tǒng)和增強(qiáng)搜索功能成功減少了模型錯覺的發(fā)生。此外,百川智能還開放了百川2-53B的API接口。通過開放API,百川智能將為各界合作伙伴提供大規(guī)模模型能力,推動企業(yè)智能化發(fā)展。

2023年10月17日,百川智能宣布完成3億美元A1輪戰(zhàn)略融資。阿里巴巴、騰訊小米等知名科技公司和多家頂級投資機(jī)構(gòu)均參與了本輪融資。加上此前的5000萬美元天使輪投資,百川智能累計融資金額已達(dá)3.5億美元(約25.43億元人民幣)。目前,百川智能的團(tuán)隊規(guī)模超過170人,其中R&D人員占80%以上。

2023年10月30日,百川智能宣布推出百川2-192K大機(jī)型。該模型具有很長的上下文窗口,長度為192K,可以處理大約350,000個漢字。百川2-192K的發(fā)布不僅在大模型技術(shù)領(lǐng)域取得了重要突破,還驗證了長上下文窗口的可行性,為提升大模型性能開辟了新的研究路徑。

基礎(chǔ)設(shè)施 編輯本段

百川2系列是一個大規(guī)模多語言模型,其模型架構(gòu)基于主流的Transformer。百川2有兩個獨立的模型:百川2-7B有70億個參數(shù),百川2-13B有130億個參數(shù)。

分詞器單詞分隔符:在分詞設(shè)計中,需要平衡兩個關(guān)鍵因素:一是高效推理所需的高壓縮率,二是大小合適的詞匯量。為了充分訓(xùn)練每個單詞的嵌入,百川團(tuán)隊采用了來自SentencePiece的字節(jié)對編碼,并且沒有對輸入文本進(jìn)行歸一化處理。為了更好地對數(shù)字?jǐn)?shù)據(jù)進(jìn)行編碼,并對包含額外空格的數(shù)據(jù)進(jìn)行編碼,百川團(tuán)隊還在單詞分隔符中添加了僅包含空格的標(biāo)記,并將數(shù)字分成單個數(shù)字。此外,為了考慮到中文中存在一些長短語,百川團(tuán)隊將最大token長度設(shè)置為32。在位置編碼上,百川2-7B采用繩索,而百川2-13B采用不在場證明。

百川大模型百川大模型

激活功能和標(biāo)準(zhǔn)化:百川2在激活功能和標(biāo)準(zhǔn)化方面采用了SwiGLU+xFormers(注意力和偏離能力結(jié)合ALiBi以減少內(nèi)存開銷)+RMSNorm(層歸一化變壓器塊的輸入)。

激活功能:百川2使用SwiGLU激活功能。SwiGLU具有“雙線性”層并包含三個參數(shù)矩陣,這與包含兩個矩陣的傳統(tǒng)變壓器前饋層不同。因此,百川團(tuán)隊將隱藏大小從4倍減少到了8倍,并進(jìn)行了適當(dāng)調(diào)整。

注意層:百川2采用xFormers2實現(xiàn)記憶高效注意。通過利用xFormers優(yōu)化注意力和偏差的能力,我們可以將ALiBi基于偏差的位置編碼集成到模型中,并減少內(nèi)存開銷。這為百川2的大規(guī)模訓(xùn)練提供了性能和效率優(yōu)勢。

歸一化:百川2將層歸一化應(yīng)用于Transformer block的輸入,這對于預(yù)熱更加魯棒。此外,該模型由RMSNorm實現(xiàn),該模型僅計算輸入特征的方差以提高效率。

功能服務(wù) 編輯本段

百川模型目前處于開發(fā)階段,部分功能尚未完善。普通用戶可以通過百城2-53b機(jī)型體驗知識問答、文字創(chuàng)作等功能。百川智能表示,百川-53B在文本創(chuàng)作的創(chuàng)意、風(fēng)格模仿和實用性方面都可以做到足夠出色,并且可以對大多數(shù)任務(wù)給出良好的響應(yīng)。但大模型似乎不認(rèn)為它有能力獲得實時消息。

數(shù)據(jù)概述

培訓(xùn)數(shù)據(jù)源:百川2模型訓(xùn)練是在通用、法律、醫(yī)療、數(shù)學(xué)、代碼和多語種翻譯六個領(lǐng)域的權(quán)威中英和多語種數(shù)據(jù)集上對模型進(jìn)行全面測試。百川智能團(tuán)隊通過各種渠道收集數(shù)據(jù),包括互聯(lián)網(wǎng)頁面、書籍、研究論文、代碼庫等。,以建立全面的世界知識體系。

數(shù)據(jù)規(guī)模:百川2的數(shù)據(jù)是基于數(shù)萬億的互聯(lián)網(wǎng)數(shù)據(jù),它也是從健康和法律等垂直行業(yè)中選擇和采用的。此外,該模型建立在世界知識體系之上。在數(shù)據(jù)處理階段,《百川2》利用超大規(guī)模內(nèi)容聚類系統(tǒng)對千億級數(shù)據(jù)進(jìn)行清洗和過濾,并對章節(jié)、段落和句子進(jìn)行多粒度的質(zhì)量評估。《百川2》使用2.6TB的超大規(guī)模語料庫進(jìn)行訓(xùn)練,支持中文、英語、西班牙語和法語等數(shù)十種語言。這些技術(shù)手段和數(shù)據(jù)資源的采用,為“百川2號”的訓(xùn)練提供了有力支撐。

數(shù)據(jù)處理:百川團(tuán)隊在數(shù)據(jù)處理中注重數(shù)據(jù)的頻率和質(zhì)量。為了確保數(shù)據(jù)頻率的高效率和準(zhǔn)確性,他們設(shè)計了一個大規(guī)模重復(fù)數(shù)據(jù)刪除和聚類系統(tǒng),該系統(tǒng)支持類LSH特征和密集嵌入特征。該系統(tǒng)可以在短時間內(nèi)對數(shù)萬億數(shù)據(jù)進(jìn)行群集和重復(fù)數(shù)據(jù)消除。基于聚類結(jié)果,系統(tǒng)還可以復(fù)制文檔、段落和句子,并計算用于采樣預(yù)訓(xùn)練數(shù)據(jù)的分?jǐn)?shù)。

應(yīng)用領(lǐng)域 編輯本段

截至2023年9月,已有超過200家企業(yè)申請部署百川模式,覆蓋云廠商、科技行業(yè)、制造、消費等多個行業(yè)的企業(yè)。

相關(guān)合作 編輯本段

AI黑客馬拉松:2023年8月28日,百川智能、亞馬遜云科技、上海ai客廳聯(lián)合舉辦AI黑客馬拉松。本次大賽以“AGI更美好”為主題,開辟了醫(yī)療健康和游戲娛樂的雙軌賽道,為所有技術(shù)精英提供了一個同場競技的平臺,共同探索大模型在醫(yī)療健康和游戲娛樂領(lǐng)域的前沿應(yīng)用。

百川英博基金:2023年9月,百川智能攜手中國計算機(jī)聯(lián)合會、北京英博數(shù)學(xué)科技有限公司共同成立CCF-百川英博榜樣基金,旨在支持高校和科研院所的青年學(xué)者,為他們提供產(chǎn)學(xué)研合作和學(xué)術(shù)交流的優(yōu)質(zhì)平臺。基金擬設(shè)置大規(guī)模模型基礎(chǔ)能力和創(chuàng)新應(yīng)用兩大專題:大規(guī)模模型基礎(chǔ)能力專題涵蓋大規(guī)模模型預(yù)訓(xùn)練、對齊、安全、架構(gòu)、Agent等;創(chuàng)新應(yīng)用主題涵蓋垂直和跨學(xué)科應(yīng)用(如醫(yī)療和游戲等垂直領(lǐng)域)。

與鵬城實驗室合作:2023年11月16日,百川智能與鵬城實驗室宣布將共同探索大規(guī)模模型的訓(xùn)練與應(yīng)用,并基于國內(nèi)算力聯(lián)合開發(fā)128K大規(guī)模模型“鵬城-百川心智33B”。百川智能表示,希望通過與合作伙伴的開源共創(chuàng),助力中國大模型創(chuàng)新,繁榮本土大模型生態(tài)。

附件列表


0

詞條內(nèi)容僅供參考,如果您需要解決具體問題
(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域?qū)I(yè)人士。

如果您認(rèn)為本詞條還有待完善,請 編輯

上一篇 Airbnb    下一篇 蜂窩網(wǎng)絡(luò)

標(biāo)簽

同義詞

暫無同義詞
主站蜘蛛池模板: 日韩在线视频网| 青青草原综合久久大伊人| 欧美精品stoya在线| 在线播放免费播放av片| 人人公开免费超级碰碰碰视频| zzzzzzz中国美女| 真实的国产乱xxxx在线| 女女同恋のレズビアン漫画| 加勒比一本大道香蕉在线视频| 一本大道香蕉中文在线高清| 第一次h圆房细致前戏| 天堂网www在线资源中文| 亚洲色欲久久久综合网东京热| a在线观看欧美在线观看| 法国性经典xxxxhd| 国产精品自在线拍国产电影| 亚洲国产成人资源在线软件| 免费h视频在线观看| 日韩国产成人精品视频人| 国产乱子伦露脸在线| 中国体育生gary飞机| 精品一区狼人国产在线| 在线观看网址入口2020国产| 亚洲欧美成人综合久久久| 中文字幕网资源站永久资源| 日韩精品久久无码中文字幕| 国产乡下三级全黄三级bd| 三级三级久久三级久久| 男人桶女人视频不要下载| 国产综合激情在线亚洲第一页| 亚洲av综合av一区| 被cao的合不拢腿的皇后| 成人午夜性a一级毛片美女| 免费中文字幕在线| 2020年亚洲天天爽天天噜| 日韩精品久久无码中文字幕 | 欧洲一区二区三区在线观看| 国产又黄又爽胸又大免费视频 | 免费看无码自慰一区二区| 99热免费在线观看| 欧美xxxx新一区二区三区|