Databricks
Databricks是一家基于云計算Spark大數據的軟件運營商,于2013年1月1日正式成立,總部設在美國舊金山。作為大數據處理領域的領軍企業,Databricks專注于提供基于Spark的云服務,涵蓋數據集成、數據清洗、數據管理等多個環節,致力于為企業打造高效、安全的數據處理解決方案。現任首席執行官為阿里?戈西(Ali Ghodsi)。
發展歷程 編輯本段
Databricks由Apache Spark的7位初始成員(Ali Ghodsi、Andy Konwinski、Arsalan Tavakoli-Shiraji、Ion Stoica、Matei Zaharia、Patrick Wendell和Reynold Xin)共同創立。2016年,Databricks與微軟達成合作,開啟了其在云計算領域的重要布局。2017年11月,Databricks成功成為微軟Azure的第一方服務平臺,進一步鞏固了其在云市場的地位。
2018年:Databricks發布了MLflow,這是一款用于管理機器學習項目的開源平臺,旨在簡化數據科學家構建、測試和部署機器學習模型的復雜過程。
2019年:Databricks發布了Delta Lake,構建了數據湖屋架構的存儲框架,為數據湖的構建和管理提供了有力支持。
2020年:6月,Databricks宣布收購以色列初創公司Redash,并基于其技術推出了數據湖屋關鍵開源技術Delta Engine,該技術可在Delta Lake之上分層,顯著提高查詢性能。11月,Databricks推出了Databricks SQL,用于在數據湖上運行商業智能和分析報告,進一步豐富了其產品線。
2021年:Databricks與谷歌云建立合作,使用戶能夠在谷歌云上應用Databricks平臺的功能,成為當時唯一一個可以在谷歌、亞馬遜和微軟三大云平臺上使用的統一數據平臺。10月,Databricks收購了德國無代碼公司8080Labs,降低了平臺的使用門檻,并在CIDR 2021發表論文,首次正式提出了數據湖屋(Lakehouse)的概念。
2023年:為了應對OpenAI的ChatGPT,Databricks推出了開源語言模型Dolly,展現了其在人工智能領域的創新能力。
2024年:3月,Databricks推出了一款名為DBRX的通用大型語言模型,進一步提升了其在人工智能領域的競爭力。
2023年6月26日:Databricks正式宣布以約13億美元收購生成式人工智能初創公司MosaicML,旨在為企業提供構建類ChatGPT工具的服務,交易預計于7月31日前完成。
2023年9月14日:Databricks完成了超過5億美元的I輪融資,為其后續發展提供了強大的資金支持。
2024年12月7日:Databricks宣布完成100億美元J輪融資,公司估值從此前的430億美元攀升至620億美元。本輪融資由Thrive Capital領投,多家知名投資機構參與,包括Andreessen Horowitz、DST Global、GIC、Insight Partners和WCM Investment Management作為共同領投方。
2025年8月19日:Databricks發布公告稱,正在進行一輪超過10億美元的K輪融資,各方已經簽署了投資條款清單,對應估值將超過1000億美元。
機構治理 編輯本段
管理團隊
聯合創始人兼首席執行官阿里?戈西(Ali Ghodsi)
全球現場運營總裁安迪?科福德(Andy Kofoid)
首席財務官大衛?孔特(David Conte)
首席人力官艾米?賴克南德特(Amy Reichanadter)
高級副總裁兼總法律顧問特蘭?菲(Tram Phi)
首席營收官羅恩?加布里斯科(Ron Gabrisko)
首席營銷官里克?舒爾茨(Rick Schultz)
首席運營官哈蒂姆?沙菲克(Hatim Shafique)
業務服務 編輯本段
主營業務
Databricks旗下主要產品為大數據平臺Spark,該平臺基于Apache Spark開源大數據框架,是統一的數據分析平臺,定義了云計算時代數據處理標準的引擎,為企業提供了高效、靈活的數據處理能力。
產品服務
Data Sharing(數據共享平臺):Databricks和Linux基金會聯合開發了Delta Sharing數據共享平臺,為跨數據、分析和人工智能的數據共享提供了一個開源方法。客戶可以在高度安全和治理的平臺區域之間共享實時數據,適用于企業內部業務線共享、B2B分享與數據貨幣化等場景。
Unity Catalog(統一管理方法):Databricks Unity Catalog為Databricks數據智能平臺內的數據和人工智能提供了統一的管理方法。組織可以在任何云或平臺上無縫地管理其結構化和非結構化數據、機器學習模型、筆記本、儀表板和文件。數據科學家、分析師和工程師可以使用Unity Catalog發現、訪問可信數據和人工智能資產并進行協作,利用人工智能提高生產力并釋放數據湖屋架構的全部潛力。該功能能夠提高生產力,簡化許可模型,進行人工智能監控并提高可視性。
Mosaic AI(統一構建工具):Databricks Mosaic AI能夠提供統一的工具來構建、部署和監控人工智能和機器學習解決方案,包括構建預測模型、最新的GenAI和大型語言模型。基于Databricks數據智能平臺,Mosaic AI使組織能夠安全且經濟高效地將企業數據集成到AI生命周期中。在保證企業對模型和數據的所有權的同時,提供準確、安全和可控的AI應用程序,并以更低的成本為用戶培訓定制化的大語言模型。
DBRX(通用大語言模型):DBRX是Databricks下一代GenAI產品的核心支柱,是由Databricks創建的開放的通用大語言模型,采用了創新的先進技術。它為開放社區和企業提供了構建定制化大語言模型的功能,可供Databricks客戶通過應用程序接口使用。根據Databricks的測試,它超過了GPT-3.5,與Gemini 1.0 Pro有相似的競爭力。另外,DBRX在開放模型中提高了效率,是同類型的模型計算速度的2倍。
Delta Lake(構建湖屋架構的存儲框架):Delta Lake是DataBricks公司開源的、用于構建數據湖屋架構的存儲框架,是可以在開放格式之間自動即時轉換的開放格式存儲層,能夠支持Spark、Flink、Hive、PrestoDB、Trino等查詢計算引擎。數據湖和數據庫、數據倉庫一樣,都是數據存儲的設計模式。區別在于,數據庫和數據倉庫通常采用明確的模式設計,即先定義好數據模型和數據結構,再將數據整合到這個模型中,因此數據庫和數據倉庫更固定、更靜態;而數據湖則更注重數據的采集和存儲,采用更靈活的架構對各種異構的數據源和數據格式進行處理,因此數據湖更加動態和靈活。數據湖屋結合了兩者的優勢,并且通過打通數據湖和數據倉庫,能有效消除用戶組織內部的數據壁壘。
Data Streaming(數據流):Databricks數據智能平臺極大地簡化了數據流,在一個平臺上提供實時分析、機器學習和應用程序。Data Streaming能夠幫助用戶使用已知的語言和工具構建數據平臺,通過自動化構建和維護實時數據,簡化開發和操作流程,并通過流的方式批量處理數據,消除數據孤島。Spark結構化流是實現Databricks數據智能平臺上數據流的核心技術,為批處理和流處理提供統一的應用程序接口。Databricks是運行Apache Spark工作負載的最佳場所,其托管服務能夠達到99.95%的正常運行率。
MLflow(開源的機器學習平臺):MLflow是一個能夠覆蓋機器學習全流程(從數據準備到模型訓練到最終部署)的平臺,旨在簡化數據科學家構建、測試和部署機器學習模型的復雜過程。MLflow的第一個alpha版本有三個組件,其中"跟蹤"組件(Tracking)支持記錄和查詢實驗周圍的數據,如評估指標和參數;"項目"組件(Projects)提供了可重復運行的簡單包裝格式;"模型"組件(Models)提供了管理和部署模型的工具。
相關事件 編輯本段
2024年,Databricks陷入了一場版權糾紛。多名作家在舊金山聯邦法院對Databricks提起集體訴訟,指控該公司在訓練大模型時“未經同意、未經認可、無補償”地復制和借鑒了他們的書籍。根據起訴書,Databricks被指控使用盜版數字電子書庫Books3的數據訓練了公司旗下的大模型MosaicML。原告認為,Databricks收購了MosaicML公司,而MosaicML生產MPT系列大型語言模型中使用了含有盜版內容的數據集進行訓練,因此構成著作權侵權。這一事件對Databricks的聲譽和市場形象造成了一定的影響。
附件列表
詞條內容僅供參考,如果您需要解決具體問題
(尤其在法律、醫學等領域),建議您咨詢相關領域專業人士。

