首頁 > 新聞 > IT資訊 > 正文

        StarRocks葉謙:新一代MPP數據庫助力企業打造“極速統一”數據分析新范式 | 甲子引力

        2022-04-29 18:08:01來源:甲子光年微信號  

        數據分析能力是企業全面數字化經營的核心。

        整理 | 蘇霍伊

        編輯 | 栗子

        4月27日,中國科技產業智庫「甲子光年」線上舉辦了2022年「甲子引力X」數字經濟高峰論壇。本次論壇以“產業科創新坐標(603040)”為主題,試圖在有限性、無限性和不確定性中尋找數字經濟的“坐標系”。

        在下午的“數字生產力”專場中,StarRocks聯合創始人&COO葉謙帶來了《全新數據分析能力賦能數字生產力全面升級》的主題演講。他認為,數據分析是企業數字生產力的核心,新一代極速全場景MPP數據庫StarRocks的價值便是釋放數字生產力。

        以下為葉謙的演講實錄:

        大家好,我是StarRocks聯合創始人&COO 葉謙,很高興能參加甲子引力數字經濟高峰論壇,和大家分享一些StarRocks對于數據分析和數字生產力的思考。

        近年來有關數字的內容一直是企業關注的熱門話題。隨著企業數字化轉型不斷深入,數據驅動的概念越來越被各行各業所接受,想要真正實現數據驅動并將數字轉換成生產力,核心就是數據分析的能力。

        國際著名分析機構Gartner在2021年數據和分析趨勢報告中指出,數據分析已經成為企業一項核心業務職能。企業的各個業務線開始打破原有的數據孤島將數據整合起來分析,以發掘更大的業務價值。與此同時,美國著名投資機構A16Z的報告也顯示,2021年國際著名投資機構對于數據相關的企業異常關注,紛紛投下重注。2021年各個海外著名投資機構在有前景的數據創業類公司中投下的資金量是2020年超3倍,各類分析報告均指向了同一事實:數據分析已經成為企業數字生產力的核心。

        StarRocks 成立兩年多來傾力打造世界頂級的新一代極速全場景 MPP 數據庫,就是希望能夠幫助企業建立“極速統一”的數據分析新范式,從而實現企業全面數字化經營。

        StarRocks高度注重技術驅動,公司研發人員比例達到70%。StarRocks 采用Open Core的模式,于去年9月份開放源代碼之后,在Github上的星數已超過2400個。當前已經有超過110家估值或市值在10億美金以上的中大型用戶,在生產環境中使用StarRocks,這些用戶來自于各行各業。

        1.極速統一的新一代數據架構

        我們的產品特性可以用兩個關鍵詞總結:極速、統一。主要從4個核心價值來理解。

        首先,StarRocks可以給公司業務帶來全新的業務洞察速度。對于任意維度的OLAP分析和AdHoc查詢,StarRocks都可以做到秒級反饋,讓數據分析人員擁有極速的體驗。StarRocks 單節點每秒可以處理多達100億行數據,綜合處理查詢速度比其他產品要快10到100倍。

        其次,StarRocks可以給業務帶來全新的業務洞察實時性。數據實時導入StarRocks可實現即時可見。不僅如此,StarRocks還支持數據更新操作,數據在實時導入和更新的時候,查詢的速度依然能夠表示在秒級。對于業務數據更新需求大的用戶來說是非常友好的特性;

        第三,StarRocks支持數千人同時進行數據分析工作。對那些需要數據驅動一線運營的公司來說,在部分場景StarRocks可以到達1萬以上并發量,并且還可以控制TP99在1秒以內。

        第四,由于能夠在多種場景下實現極速查詢的目標,這使得StarRocks可以靈活使用各種數據建模的方式,數據工程師和數據分析師可以使用大寬表,也可以使用星型模型或者雪花模型。不再依賴于預計算或者大寬表去提速,業務交互的速度可以得到極大改善。不少用戶在使用StarRocks之后,業務速度從周加快到小時,甚至是分鐘級別,生產力得到極大提升。

        基于StarRocks,用戶可以打造一個全新的極速統一的數據架構。在這個數據架構里,整個OLAP分析層可以統一到StarRocks中,它不僅能實現OLAP多維分析、實時數據分析、高并發查詢以及探索式分析等多場景下的極速分析效果,還可以極大減少不同數據分析組件的建設和維護成本。應用新一代數據架構之后,企業可以在更多場景使用星型模型、雪花模型來替代原有的預計算和大寬表模式,免除了數據鏈路建設復雜性,并且增強了數據分析的靈活性。

        作為一個成熟的企業級數據庫產品,StarRocks不僅產品安全穩定、服務可靠,生態也很完善。

        首先,StarRocks是一個完整、獨立的系統,整個系統無單點,任何節點宕機均不影響系統的可用性。StarRocks具有很好的彈性伸縮能力,可以實現在大數據規模下在線擴容,相對其他產品運維成本更低。更值得一提的是StarRocks的穩定性,經歷過“雙十一”這樣極端業務流量的檢驗。

        其次,StarRocks相關生態非常完善。產品支持標準SQL語法,兼容MySQL協議,支持各類主流的BI系統,包括Tableau 、永洪等,支持各類主流數據源的接入,包括各種TB數據庫、HDFS、S3等。

        StarRocks周邊運維工具也比較完善,不僅有自研的運維工具,還可以很方便對接各類流行的開源工具。

        最后,StarRocks提供了可靠的企業級服務保證。StarRocks核心技術完全自研可控,在出現問題時,可以為企業客戶提供全天候不休的原廠技術支持。我們在全國六地都有技術支持中心,包括北京、上海、杭州、廣州、成都、西安等城市。在企業有特殊需求的時間點,比如說“雙十一”或者年度大促,可以安排原廠的工程師進行現場支持。

        目前,已經有數百家客戶在線上生產環境部署和使用了StarRocks。其中估值或市值在10億美金以上的大客戶超過110家,還有像Airbnb 這樣市值超過千億美金的美國企業。這些客戶包含了互聯網金融、物流、制造等各行各業的頭部企業,每個客戶從開始測試到生產環境上線StarRocks平均周期約為兩個月,這對于軟件來說是非常短的時間周期。

        2.三大核心能力支持企業典型業務場景

        大家可能會非常感興趣,這些用戶主要將StarRocks應用在哪些場景呢?

        首先是面向用戶的報表。這類報表一般是給終端用戶看的數據產品,其特點是數據時效性很高、同時使用人很多,因此并發查詢量會比較高。由于每個人只看自己的數據,不會看別人的數據,所以每次查詢高廣泛的數據量是十分有限的。這種類型的數據報表對于系統并發能力、數據實時導入要求很高,沒有辦法使用預計算系統來進行支持。

        第二是面向經營的報表。這類報表的主要受眾是管理層和業務方,其特點是對聚合計算能力要求比較高,需要查詢速度非常快,因為老板都不喜歡等待。而且,這種類型的報表一般需求會比較多,對于需求完成的時間點要求嚴格,所以如果以基于預計算或者大寬表的方式來完成此類報表,過程對操作人員而言會十分“痛苦”。

        第三是用戶畫像。用戶畫像是非常普遍的場景,基本任何初期的運營場景都會遇到。它涉及到很多人群相關的操作,包括標簽的圈選、根據個人ID來查詢標簽等。在這個場景下的StarRocks Bitmap數據類型會大有用武之地。

        第四是運營分析場景。主要來源于公司內部一線的運營或者分析人員的需求。它的特點是對于數據的時效性要求很高,以及這些分析往往涉及到多個相關的業務,有多張數據報表。不僅如此,這類場景往往還會涉及到數據權限控制的問題,需要根據員工組織架構來判斷企業數據權限的范圍。比如,我們一個從事零售業務的客戶,在全國有上萬家門店,每個門店的運營情況都由店長查看,但是店長責任范圍是在不斷變化和調整的。這類分析場景只能用星型模型操作,如果是使用大寬表的方式,每天重算的數據量將非常巨大且難以做到實時。

        第五是訂單分析。這類分析的主要特點是數據為流式導入,并且訂單往往有分析的需求。例如,訂單的狀態會隨著時間的推移發生變化,這要求底層數據分析系統能夠支持實時數據的分析和更新,這兩點都是StarRocks的強項。

        第六是自助分析。這里包括自助報表和指標管理平臺、數據探查等。此類場景普遍要求對接上層BI系統,這類分析所產生的SQL語句較為復雜,并且通常涉及多張數據表,這就要求數據分析系統能夠處理復雜的SQL。不僅要支持復雜的SQL語法,還需快速返回,給分析人員良好的交互式體驗。

        StarRocks有哪些核心能力支持上述場景呢?

        首先是對復雜查詢的處理能力。我們為此實現了以下關鍵點:

        全面向量化執行引擎。StarRocks通過實現全面向量化執行引擎,充分發揮了CPU的處理能力。經過標準測試集的驗證,StarRocks的全面向量化引擎可以將算子執行性能提高3到10倍。

        CBO(Cost-Based Optimizer)在多表關聯的場域場景下,僅僅靠優秀的查詢執行引擎沒有辦法獲得極致的執行性能。而通過StarRocks全新自研的優化器,可以實現多種優化手段,幫助向量化引擎發揮更加極致的特性。

        分布式Join。StarRocks可以實現多種類型的分布式Join操作,適合于包括大表和小表的Broadcast Join、大表和中表的Shuffle Join、大表和大表的Colocate Join。

        資源隔離。對于數據分析系統用戶,常常會擔心單條查詢過大,將整個集群資源耗盡,從而導致其他查詢沒有辦法執行。解決這個問題的關鍵就在于一個優秀的資源隔離機制。

        第二項核心能力是實時數據分析能力。我們為此實現了以下關鍵點:

        極速多表Join。StarRocks的多表Join性能在行業里處于領導地位。

        實時數據導入。StarRocks可以支持從Kafka實時導入數據,并且導入數據支持事務,可以做到不丟不重。支持Flink - CDC,可以直接從OLTP數據庫直接對接數據。

        實時更新能力。StarRocks具有獨特的更新模型。更新模型可以很好支持數據的實時更新,并且能夠保證數據在實時更新時查詢的低延時。這個能力目前在同類型產品中非常獨特。

        現代化物化視圖。StarRocks可以支持多種聚合算子,在數據實時導入物化視圖過程中自動構建、自動計算,并且物化視圖在使用時對于用戶來說是透明的。

        第三項核心能力是數據湖整合分析能力。

        這項分析能力可以讓用戶像查詢StarRocks自有數據般,極速查詢數據湖里的數據,不再需要數據傳輸和遷移的過程。這項工作由StarRocks社區和阿里云一起協作開發完成。目前,我們已經支持查詢Hive、Hudi和Icebreg這樣的數據湖,并且還支持像MySQL、Elastic Search等外表聯邦查詢。

        如上圖所示,在使用相同外表的方式進行查詢時,StarRocks外表查詢性能已經要遠遠高于Trino的性能;如果將數據進一步導入StarRocks,查詢會變得更加快,在某些特定的查詢和場景上可達Trino的幾十倍。

        基于獨特的產品能力,StarRocks為客戶極大提升了數字生產力,幫助客戶將查詢的等待時間縮短到1秒之內,并將客戶、數據業務需求的開發周期縮短約90%,還可以幫助客戶降低數據分析系統建設成本,提高數據系統分析性的穩定性。

        3.眾安保險、攜程:全新實時分析能力開啟數字化經營新局面

        接下來,我將以兩個案例來講解StarRocks是如何幫助企業提高數字生產力的。

        第一個場景來源于眾安保險。眾安保險的集智平臺是一款可視化智慧經營分析平臺產品,它集成了人工智能、商業智能、可視化數據倉庫等技術,用智能的方式來整合不同場景數據,規范企業的數據池,完成復雜的數據治理和智能決策等環節。

        集智平臺涵蓋了可視化分析、交互式分析、多維透視分析、實時數據分析等多種不同種類的分析。在原有解決方案里,眾安集智平臺遇到了幾個問題:一,使用了ClickHouse作為查詢引擎,ClickHouse在支持平臺的過程中,平臺在高并發場景下平均響應時間會變長;二,多表關聯查詢性能欠佳,因此集智平臺只能使用大寬表來做分析;三,對外部系統有依賴、運維成本高和缺少自動Resharding機制,導致其在做橫向擴容時很困難;此外,有原有系統對更新和刪除支持能力弱等問題。

        在使用StarRocks解決方案之后,以上問題都得到了很好的解決。首先StarRocks能夠支持高并發查詢,在一些特定場景查詢并發數可以高達1萬以上,多表關聯的查詢性能優異,可以幫助開發人員靈活使用各類數據分析模型。

        另外StarRocks不依賴外部系統,易于運維,可以降低運維成本。在使用StarRocks之后,集智平臺的報表看板打開速度從10秒下降到3秒,極大優化了用戶的體驗。由于StarRocks能夠很好支持數據更新和刪除操作,所以極大降低了業務需求的開發成本,極大地提升產出效率。

        第二個案例來自于攜程大數據智能平臺。此平臺主要用于攜程住宿內部進行數據管理和數據分析,平臺訪問量大概每天UV在2200左右,峰值的總PV約10萬左右,高峰期流量會有比較大激增。這和攜程的業務量有關,只要節假日,平臺整個流量會有較大的增幅。目前,數據量大概有700億行,實際存儲有1.75T,每天有150億的更新。

        在原有系統中,攜程選用ClickHouse支撐90%業務線數據分析。但由于ClickHouse在穩定性和高并發方面的問題,導致了攜程需同步使用Redis作為緩存。這引發了其他問題,比如雙流雙寫的方案無法保證數據一致性,同時也增加硬件和開發的維護成本等。

        在使用StarRocks之后,原先的Redis+ClickHouse的方案被完全替代。新方案讓整個平臺查詢響應平均在200毫秒左右,耗時超過500毫秒查詢不超過查詢總量的1%。更為重要的是,由于簡化了整體的數據架構,使得整個系統維護的人力和硬件成本大大降低,開發的復雜度也大大下降。

        以上就是今天我想和大家分享所有內容,如果您對StarRocks感興趣,非常歡迎您關注我們。讓我們一起將數據分析能力打造成為企業數字生產力的核心,謝謝大家!

        END.

        本文首發于微信公眾號:甲子光年。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

        關鍵詞: StarRocks

        責任編輯:hnmd003

        相關閱讀

        相關閱讀

        推薦閱讀

        久久精品国产精品亚洲毛片| 亚洲午夜久久久久久久久电影网| 亚洲线精品一区二区三区| 在线观看亚洲电影| 亚洲AV无码国产剧情| 亚洲国产精品无码第一区二区三区 | 伊在人亚洲香蕉精品区麻豆| 亚洲av永久中文无码精品综合| 亚洲欧美综合精品成人导航| 99亚偷拍自图区亚洲| 亚洲 日韩经典 中文字幕| 亚洲国产熟亚洲女视频| 亚洲色大成WWW亚洲女子| 亚洲欧洲免费无码| 久久亚洲精品11p| 亚洲成a人无码av波多野按摩| 亚洲成人一区二区| 国产成人精品久久亚洲| 国产自偷亚洲精品页65页| 国产亚洲精品自在久久| 无码乱人伦一区二区亚洲| 久久国产亚洲观看| 91在线亚洲精品专区| 亚洲伊人色一综合网| 亚洲va久久久久| 精品亚洲成a人在线观看| 亚洲精品无码久久久| 综合亚洲伊人午夜网| 亚洲V无码一区二区三区四区观看| 久久精品国产亚洲AV麻豆王友容| 亚洲一区免费观看| 亚洲一区免费视频| 亚洲AV香蕉一区区二区三区| 亚洲AV蜜桃永久无码精品| 国产偷国产偷亚洲清高动态图| 亚洲AV无码乱码在线观看富二代| 亚洲高清资源在线观看| 国产亚洲国产bv网站在线| 欧美亚洲精品一区二区| 亚洲人成电影网站国产精品 | 亚洲麻豆精品国偷自产在线91|