StarRocks葉謙:新一代MPP數據庫助力企業打造“極速統一”數據分析新范式 | 甲子引力
數據分析能力是企業全面數字化經營的核心。
整理 | 蘇霍伊
編輯 | 栗子
4月27日,中國科技產業智庫「甲子光年」線上舉辦了2022年「甲子引力X」數字經濟高峰論壇。本次論壇以“產業科創新坐標(603040)”為主題,試圖在有限性、無限性和不確定性中尋找數字經濟的“坐標系”。
在下午的“數字生產力”專場中,StarRocks聯合創始人&COO葉謙帶來了《全新數據分析能力賦能數字生產力全面升級》的主題演講。他認為,數據分析是企業數字生產力的核心,新一代極速全場景MPP數據庫StarRocks的價值便是釋放數字生產力。
以下為葉謙的演講實錄:
大家好,我是StarRocks聯合創始人&COO 葉謙,很高興能參加甲子引力數字經濟高峰論壇,和大家分享一些StarRocks對于數據分析和數字生產力的思考。
近年來有關數字的內容一直是企業關注的熱門話題。隨著企業數字化轉型不斷深入,數據驅動的概念越來越被各行各業所接受,想要真正實現數據驅動并將數字轉換成生產力,核心就是數據分析的能力。
國際著名分析機構Gartner在2021年數據和分析趨勢報告中指出,數據分析已經成為企業一項核心業務職能。企業的各個業務線開始打破原有的數據孤島將數據整合起來分析,以發掘更大的業務價值。與此同時,美國著名投資機構A16Z的報告也顯示,2021年國際著名投資機構對于數據相關的企業異常關注,紛紛投下重注。2021年各個海外著名投資機構在有前景的數據創業類公司中投下的資金量是2020年超3倍,各類分析報告均指向了同一事實:數據分析已經成為企業數字生產力的核心。
StarRocks 成立兩年多來傾力打造世界頂級的新一代極速全場景 MPP 數據庫,就是希望能夠幫助企業建立“極速統一”的數據分析新范式,從而實現企業全面數字化經營。
StarRocks高度注重技術驅動,公司研發人員比例達到70%。StarRocks 采用Open Core的模式,于去年9月份開放源代碼之后,在Github上的星數已超過2400個。當前已經有超過110家估值或市值在10億美金以上的中大型用戶,在生產環境中使用StarRocks,這些用戶來自于各行各業。
1.極速統一的新一代數據架構
我們的產品特性可以用兩個關鍵詞總結:極速、統一。主要從4個核心價值來理解。
首先,StarRocks可以給公司業務帶來全新的業務洞察速度。對于任意維度的OLAP分析和AdHoc查詢,StarRocks都可以做到秒級反饋,讓數據分析人員擁有極速的體驗。StarRocks 單節點每秒可以處理多達100億行數據,綜合處理查詢速度比其他產品要快10到100倍。
其次,StarRocks可以給業務帶來全新的業務洞察實時性。數據實時導入StarRocks可實現即時可見。不僅如此,StarRocks還支持數據更新操作,數據在實時導入和更新的時候,查詢的速度依然能夠表示在秒級。對于業務數據更新需求大的用戶來說是非常友好的特性;
第三,StarRocks支持數千人同時進行數據分析工作。對那些需要數據驅動一線運營的公司來說,在部分場景StarRocks可以到達1萬以上并發量,并且還可以控制TP99在1秒以內。
第四,由于能夠在多種場景下實現極速查詢的目標,這使得StarRocks可以靈活使用各種數據建模的方式,數據工程師和數據分析師可以使用大寬表,也可以使用星型模型或者雪花模型。不再依賴于預計算或者大寬表去提速,業務交互的速度可以得到極大改善。不少用戶在使用StarRocks之后,業務速度從周加快到小時,甚至是分鐘級別,生產力得到極大提升。
基于StarRocks,用戶可以打造一個全新的極速統一的數據架構。在這個數據架構里,整個OLAP分析層可以統一到StarRocks中,它不僅能實現OLAP多維分析、實時數據分析、高并發查詢以及探索式分析等多場景下的極速分析效果,還可以極大減少不同數據分析組件的建設和維護成本。應用新一代數據架構之后,企業可以在更多場景使用星型模型、雪花模型來替代原有的預計算和大寬表模式,免除了數據鏈路建設復雜性,并且增強了數據分析的靈活性。
作為一個成熟的企業級數據庫產品,StarRocks不僅產品安全穩定、服務可靠,生態也很完善。
首先,StarRocks是一個完整、獨立的系統,整個系統無單點,任何節點宕機均不影響系統的可用性。StarRocks具有很好的彈性伸縮能力,可以實現在大數據規模下在線擴容,相對其他產品運維成本更低。更值得一提的是StarRocks的穩定性,經歷過“雙十一”這樣極端業務流量的檢驗。
其次,StarRocks相關生態非常完善。產品支持標準SQL語法,兼容MySQL協議,支持各類主流的BI系統,包括Tableau 、永洪等,支持各類主流數據源的接入,包括各種TB數據庫、HDFS、S3等。
StarRocks周邊運維工具也比較完善,不僅有自研的運維工具,還可以很方便對接各類流行的開源工具。
最后,StarRocks提供了可靠的企業級服務保證。StarRocks核心技術完全自研可控,在出現問題時,可以為企業客戶提供全天候不休的原廠技術支持。我們在全國六地都有技術支持中心,包括北京、上海、杭州、廣州、成都、西安等城市。在企業有特殊需求的時間點,比如說“雙十一”或者年度大促,可以安排原廠的工程師進行現場支持。
目前,已經有數百家客戶在線上生產環境部署和使用了StarRocks。其中估值或市值在10億美金以上的大客戶超過110家,還有像Airbnb 這樣市值超過千億美金的美國企業。這些客戶包含了互聯網金融、物流、制造等各行各業的頭部企業,每個客戶從開始測試到生產環境上線StarRocks平均周期約為兩個月,這對于軟件來說是非常短的時間周期。
2.三大核心能力支持企業典型業務場景
大家可能會非常感興趣,這些用戶主要將StarRocks應用在哪些場景呢?
首先是面向用戶的報表。這類報表一般是給終端用戶看的數據產品,其特點是數據時效性很高、同時使用人很多,因此并發查詢量會比較高。由于每個人只看自己的數據,不會看別人的數據,所以每次查詢高廣泛的數據量是十分有限的。這種類型的數據報表對于系統并發能力、數據實時導入要求很高,沒有辦法使用預計算系統來進行支持。
第二是面向經營的報表。這類報表的主要受眾是管理層和業務方,其特點是對聚合計算能力要求比較高,需要查詢速度非常快,因為老板都不喜歡等待。而且,這種類型的報表一般需求會比較多,對于需求完成的時間點要求嚴格,所以如果以基于預計算或者大寬表的方式來完成此類報表,過程對操作人員而言會十分“痛苦”。
第三是用戶畫像。用戶畫像是非常普遍的場景,基本任何初期的運營場景都會遇到。它涉及到很多人群相關的操作,包括標簽的圈選、根據個人ID來查詢標簽等。在這個場景下的StarRocks Bitmap數據類型會大有用武之地。
第四是運營分析場景。主要來源于公司內部一線的運營或者分析人員的需求。它的特點是對于數據的時效性要求很高,以及這些分析往往涉及到多個相關的業務,有多張數據報表。不僅如此,這類場景往往還會涉及到數據權限控制的問題,需要根據員工組織架構來判斷企業數據權限的范圍。比如,我們一個從事零售業務的客戶,在全國有上萬家門店,每個門店的運營情況都由店長查看,但是店長責任范圍是在不斷變化和調整的。這類分析場景只能用星型模型操作,如果是使用大寬表的方式,每天重算的數據量將非常巨大且難以做到實時。
第五是訂單分析。這類分析的主要特點是數據為流式導入,并且訂單往往有分析的需求。例如,訂單的狀態會隨著時間的推移發生變化,這要求底層數據分析系統能夠支持實時數據的分析和更新,這兩點都是StarRocks的強項。
第六是自助分析。這里包括自助報表和指標管理平臺、數據探查等。此類場景普遍要求對接上層BI系統,這類分析所產生的SQL語句較為復雜,并且通常涉及多張數據表,這就要求數據分析系統能夠處理復雜的SQL。不僅要支持復雜的SQL語法,還需快速返回,給分析人員良好的交互式體驗。
StarRocks有哪些核心能力支持上述場景呢?
首先是對復雜查詢的處理能力。我們為此實現了以下關鍵點:
全面向量化執行引擎。StarRocks通過實現全面向量化執行引擎,充分發揮了CPU的處理能力。經過標準測試集的驗證,StarRocks的全面向量化引擎可以將算子執行性能提高3到10倍。
CBO(Cost-Based Optimizer)。在多表關聯的場域場景下,僅僅靠優秀的查詢執行引擎沒有辦法獲得極致的執行性能。而通過StarRocks全新自研的優化器,可以實現多種優化手段,幫助向量化引擎發揮更加極致的特性。
分布式Join。StarRocks可以實現多種類型的分布式Join操作,適合于包括大表和小表的Broadcast Join、大表和中表的Shuffle Join、大表和大表的Colocate Join。
資源隔離。對于數據分析系統用戶,常常會擔心單條查詢過大,將整個集群資源耗盡,從而導致其他查詢沒有辦法執行。解決這個問題的關鍵就在于一個優秀的資源隔離機制。
第二項核心能力是實時數據分析能力。我們為此實現了以下關鍵點:
極速多表Join。StarRocks的多表Join性能在行業里處于領導地位。
實時數據導入。StarRocks可以支持從Kafka實時導入數據,并且導入數據支持事務,可以做到不丟不重。支持Flink - CDC,可以直接從OLTP數據庫直接對接數據。
實時更新能力。StarRocks具有獨特的更新模型。更新模型可以很好支持數據的實時更新,并且能夠保證數據在實時更新時查詢的低延時。這個能力目前在同類型產品中非常獨特。
現代化物化視圖。StarRocks可以支持多種聚合算子,在數據實時導入物化視圖過程中自動構建、自動計算,并且物化視圖在使用時對于用戶來說是透明的。
第三項核心能力是數據湖整合分析能力。
這項分析能力可以讓用戶像查詢StarRocks自有數據般,極速查詢數據湖里的數據,不再需要數據傳輸和遷移的過程。這項工作由StarRocks社區和阿里云一起協作開發完成。目前,我們已經支持查詢Hive、Hudi和Icebreg這樣的數據湖,并且還支持像MySQL、Elastic Search等外表聯邦查詢。
如上圖所示,在使用相同外表的方式進行查詢時,StarRocks外表查詢性能已經要遠遠高于Trino的性能;如果將數據進一步導入StarRocks,查詢會變得更加快,在某些特定的查詢和場景上可達Trino的幾十倍。
基于獨特的產品能力,StarRocks為客戶極大提升了數字生產力,幫助客戶將查詢的等待時間縮短到1秒之內,并將客戶、數據業務需求的開發周期縮短約90%,還可以幫助客戶降低數據分析系統建設成本,提高數據系統分析性的穩定性。
3.眾安保險、攜程:全新實時分析能力開啟數字化經營新局面
接下來,我將以兩個案例來講解StarRocks是如何幫助企業提高數字生產力的。
第一個場景來源于眾安保險。眾安保險的集智平臺是一款可視化智慧經營分析平臺產品,它集成了人工智能、商業智能、可視化數據倉庫等技術,用智能的方式來整合不同場景數據,規范企業的數據池,完成復雜的數據治理和智能決策等環節。
集智平臺涵蓋了可視化分析、交互式分析、多維透視分析、實時數據分析等多種不同種類的分析。在原有解決方案里,眾安集智平臺遇到了幾個問題:一,使用了ClickHouse作為查詢引擎,ClickHouse在支持平臺的過程中,平臺在高并發場景下平均響應時間會變長;二,多表關聯查詢性能欠佳,因此集智平臺只能使用大寬表來做分析;三,對外部系統有依賴、運維成本高和缺少自動Resharding機制,導致其在做橫向擴容時很困難;此外,有原有系統對更新和刪除支持能力弱等問題。
在使用StarRocks解決方案之后,以上問題都得到了很好的解決。首先StarRocks能夠支持高并發查詢,在一些特定場景查詢并發數可以高達1萬以上,多表關聯的查詢性能優異,可以幫助開發人員靈活使用各類數據分析模型。
另外StarRocks不依賴外部系統,易于運維,可以降低運維成本。在使用StarRocks之后,集智平臺的報表看板打開速度從10秒下降到3秒,極大優化了用戶的體驗。由于StarRocks能夠很好支持數據更新和刪除操作,所以極大降低了業務需求的開發成本,極大地提升產出效率。
第二個案例來自于攜程大數據智能平臺。此平臺主要用于攜程住宿內部進行數據管理和數據分析,平臺訪問量大概每天UV在2200左右,峰值的總PV約10萬左右,高峰期流量會有比較大激增。這和攜程的業務量有關,只要節假日,平臺整個流量會有較大的增幅。目前,數據量大概有700億行,實際存儲有1.75T,每天有150億的更新。
在原有系統中,攜程選用ClickHouse支撐90%業務線數據分析。但由于ClickHouse在穩定性和高并發方面的問題,導致了攜程需同步使用Redis作為緩存。這引發了其他問題,比如雙流雙寫的方案無法保證數據一致性,同時也增加硬件和開發的維護成本等。
在使用StarRocks之后,原先的Redis+ClickHouse的方案被完全替代。新方案讓整個平臺查詢響應平均在200毫秒左右,耗時超過500毫秒查詢不超過查詢總量的1%。更為重要的是,由于簡化了整體的數據架構,使得整個系統維護的人力和硬件成本大大降低,開發的復雜度也大大下降。
以上就是今天我想和大家分享所有內容,如果您對StarRocks感興趣,非常歡迎您關注我們。讓我們一起將數據分析能力打造成為企業數字生產力的核心,謝謝大家!
END.
本文首發于微信公眾號:甲子光年。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。
責任編輯:hnmd003
相關閱讀
-
StarRocks葉謙:新一代MPP數據庫助力企業打造“極速統一”數據分析新范式 | 甲子引力
數據分析能力是企業全面數字化經營的核心。在下午的“數字生產力”專場中,StarRocks聯合創始人&COO葉謙...
2022-04-29 -
Snap vs FB vs Twitter誰的未來更值得期待?
近日,社交媒體平臺Snapchat、Facebook母公司Meta、Twitter相繼發布最新季度的財務業績報告,那么這三家...
2022-04-29 -
-
-
-
iGame GTX 10/RTX 20系顯卡以舊換新:最高抵扣3800元!
隨著顯卡價格逐步降低,很多手持舊卡的玩家躍躍欲試,準備升級了。現在好了,iGame超級品牌日活動中,除...
2022-04-29
相關閱讀
-
StarRocks葉謙:新一代MPP數據庫助力企業打造“極速統一”數據分析新范式 | 甲子引力
數據分析能力是企業全面數字化經營的核心。在下午的“數字生產力”專場中,StarRocks聯合創始人&COO葉謙...
-
Snap vs FB vs Twitter誰的未來更值得期待?
近日,社交媒體平臺Snapchat、Facebook母公司Meta、Twitter相繼發布最新季度的財務業績報告,那么這三家...
-
網易,好好做個人吧
一、網易的“聰明”丁道師憤怒了。事情的簡要經過是這樣的基于疫情防控的要求,丁道師的女兒被學校通知...
-
10款相親交友類App注冊用戶突破1億
提到社交軟件,一般能想到就是微信和QQ。比如雷軍的米聊,羅永浩的聊天寶(原子彈短信),張一鳴的多閃...
-
男子用伊對App交友染上艾滋病,4萬“紅娘”被指像“酒托”
據山東廣播電視報報道,男子自述用戀愛App交友不幸感染艾滋病,重度失眠,每天做噩夢。以下內容為男子自...
-
iGame GTX 10/RTX 20系顯卡以舊換新:最高抵扣3800元!
隨著顯卡價格逐步降低,很多手持舊卡的玩家躍躍欲試,準備升級了?,F在好了,iGame超級品牌日活動中,除...
-
面板、新能源雙輪驅動增長顯著 TCL科技2021年營收凈利潤同比增長均超100%
4月27日晚間,TCL科技(000100 SZ)交出一份靚麗的“成績單”。公司2021年實現營業收入1635 4億元,同...
-
“面條大王”坐上過山車:前年掛面賣太好,去年降價減利潤
老牌面條企業一口氣交出了兩份業績“考卷”。4月25日,湖南克明食品集團有限公司(002661 SZ,下稱“克...
-
黑客、馬斯克、巴菲特…… 可口可樂竟是4月最后的網紅!
可口可樂本周透露,正在調查黑客團伙Stormous對其數據庫入侵的事情。同樣是在本周,世界首富馬斯克昨日...
-
全球十大暢銷安卓手機:三星壟斷前四、國產占一半
根據數據調研機構Counterpoint公布的2022年2月全球安卓手機銷量排行數據,排名前四的手機均來自三星,分...
-
內容社區平臺規范升級 微博、豆瓣先后上線新功能
2022年“清朗”系列專項行動公布重點任務后,頭部內容社區平臺已經有所動作。據記者實測,新功能上線后...
-
毛利下滑、負債走高,大宗業務受挫的志邦家居如何沖百億?
「編者按」:拐點之后,家居行業何處去?2022年,家居行業走過至暗時刻,進入發展新紀元。如何擺脫高增...
-
給劉畊宏一首歌的時間,他跳動了千億云健身市場
伴隨火爆數據而來,“本草綱目毽子操”和“劉耕宏女孩”已經成為當下網絡熱詞,抖音上模仿劉畊宏開始代...
-
今天,我們去體驗了“方向盤后無人”自動駕駛汽車
4月28日,北京發放無人化載人示范應用通知書,百度、小馬智行兩家公司成為首批獲準企業,這是繼去年11月...
-
新農民超乎你想象!90后學霸用AI種番茄:遠程監控種植,產量能翻倍
溫室環境變化、番茄生長情況、植株是否有病害……原本需要農民時刻查看的事情,如今用一個數字云平臺就...
-
調味品業藍海洗牌加?。哼@家公司一季度賣調料賺了1億,投資并購外延擴張
又一家調料企業亮出了一季度成績單。4月25日,四川天味食品集團股份有限公司(603317 SH,下稱“天味食...
-
利潤受擠壓、向整裝業務要增長,定制家居龍頭創始人談“過冬”
「編者按」:拐點之后,家居行業何處去?2022年,家居行業走過至暗時刻,進入發展新紀元。如何擺脫高增...
-
大眾和英國石油擴大電動車充電合作
大眾和英國石油擴大電動車充電合作蓋世汽車訊據外媒報道,大眾集團和英國石油公司(BP)表示,兩家公司...
-
蔚來ET5首批全工藝生產線試制車下線
蔚來ET5首批全工藝生產線試制車下線2022年4月29日,NeoPark新橋智能電動汽車產業園區啟動建設一周年,園...
-
重大疾病險交了5年退保能退多少?退保流程是什么?
現在的生活環境污染比較嚴重,所以我們患上重疾的概率也會更大。在這樣的背景之下,重大疾病險就非常的...
-
退保后又被扣費怎么辦?退保損失太大怎么辦?
一般來說當我們退保辦理成功以后,保險公司就不會再扣除保費了,但是最近有朋友發現自己退保成功以后,...
-
泰康退保險要扣多少錢?退保怎么退?
有很多消費者在買保險的時候,其實對于產品都不是很了解,所以出現退保也就很正常了,但是很少人知道,...
-
保單退保以后貸款會拒嗎?用保單怎么貸款?
現在很多保險產品其實保費都是比較昂貴的,比如一些重疾險和年金險等。但是往往會因為保費太過昂貴,所...
-
想退保險找誰能幫退的多?代理退保的風險有哪些?
現在的人們生活條件都比較好,所以也開始重視保險的配置了。不過人們對于保險的研究并不是很全面,所以...
-
英大人壽退保給錢嗎?需要什么手續?
現在我們對于保險的重要性也都比較清楚了,但是很多朋友在投保的時候仍然會存在不了解產品導致自己買到...
-
退保影響房子貸款嗎?經常退保單有影響嗎?
現在很多人奮斗的目標就是為了一套房子,但是現在的房子都是很貴的,所以能夠全款買房的人比較少,大多...
精彩推薦
閱讀排行
精彩推送
- 拿公司紙巾當草紙遭辭退,當事人...
- 萬達電影:2021年營收124.9億元...
- 唯品會攜手中國銀行上線數字人民...
- 可選12代i7+RTX3070Ti!機械革命...
- 延伸商務樓宇場景 京東物流室內...
- 搶占消費黃金時段 首店、新品爭...
- 北汽藍谷一季度虧損9.6億元 銷...
- 童年記憶回來了!紅魔7霸天虎限...
- 強勢收購推特,馬斯克“推特炒股...
- 馬斯克背負“五座大山”,推特上...
- 外媒稱TikTok正從內部“吞食”Facebook
- 豆瓣上線防水軍控評功能
- 馬斯克出售186億元特斯拉股票 ...
- 蘋果手頭有上萬億現金 庫克回應...
- 馬斯克已計劃對推特裁員,還說不...
- 蘋果損失530億?庫克:非常嚴重...
- 蘋果Q2業績大超預期 宣布回購90...
- 亞馬遜市值大跌1萬億 7年來首次虧損
- 工信部第一季度組織檢測61萬款AP...
- 華誼兄弟“多事之秋”:2022Q1虧...
- 整機可沖洗/1年以換代修:韓國現...
- 金山辦公:今年國內辦公軟件交易...
- 主流市場最小!華碩冰立方M-ATX...
- A卡新勢力!瀚鎧RX 6900 XT超...
- 慎重升級!Windows 11更新又出...
- 商務本辦公誰更高效?銳龍7 580...
- iPhone大賣,蘋果一個季度收入近...
- 從全球首款55吋Mini-LED內窺鏡顯...
- 庫克回應蘋果第二財季iPad營收減...
- 元宇宙競爭加?。何④?、索尼爭奪...