行業(yè)動態(tài)

漫談大數據平臺架構

來源:聚銘網絡    發(fā)布時間:2019-12-12    瀏覽次數:
 

信息來源:FreeBuf

近年來,互聯(lián)網公司中大數據平臺的建設和安全一直是熱點。筆者計劃發(fā)兩篇文章參與一下討論,一篇架構+一篇安全。本文不依托于任何一家大廠的平臺架構,用通俗的語言介紹一下大數據平臺的整體架構。

下面用兩個問題開篇:

什么是大數據平臺?是將互聯(lián)網產品和后臺的大數據系統(tǒng)整合起來,將應用系統(tǒng)產生的數據導入大數據平臺,經過計算后導出給應用系統(tǒng)使用。

為什么大數據平臺在互聯(lián)網行業(yè)非常重要?大數據平臺將互聯(lián)網應用和大數據產品整合起來,將實時數據和離線數據打通,使數據可以實現更大規(guī)模的關聯(lián)計算,挖掘出數據更大的價值,從而實現數據驅動業(yè)務。大數據平臺使得大數據技術產品可以落地應用,實現了自身價值。

總體來說:大數據平臺可以分為四個部分:數據采集、數據處理、數據輸出和任務調度管理。

 

一、數據采集

按照數據源可以分為如下4點:

1、數據庫數據

目前比較常用的數據庫導入工具有Sqoop和Canal。

Sqoop 是一個數據庫批量導入導出工具,可以將關系數據庫的數據批量導入到 Hadoop,也可以將 Hadoop 的數據導出到關系數據庫。

Sqoop 適合關系數據庫數據的批量導入,如果想實時導入關系數據庫的數據,可以選擇Canal。Canal是阿里巴巴開源的一個 MySQLbinlog 獲取工具,binlog 是 MySQL 的事務日志,可用于MySQL數據庫主從復制,Canal 將自己偽裝成 MySQL 從庫,從 MySQL 獲取binlog。

2、日志數據

日志是大數據平臺重要數據來源之一,應用程序日志一方面記錄各種程序執(zhí)行狀況,一方面記錄用戶的操作軌跡。Flume 是大數據日志收集常用的工具。Flume 最早由 Cloudera 開發(fā),后來捐贈給 Apache 基金會作為開源項目運營。

3、前端程序埋點

所謂前端埋點,是應用前端為了進行數據統(tǒng)計和分析采集數據。

用戶的某些前端行為并不會產生后端請求,比如用戶頁面停留時間、用戶瀏覽速度、用戶點選又取消等等。這些信息對于分析用戶行為等都很有價值。但是這些數據必須通過前端埋點獲得,有些互聯(lián)網公司會將前端埋點數據當作最主要的大數據來源,用戶所有前端行為,都會埋點采集,再輔助結合其他的數據源,構建自己的大數據倉庫,進而進行數據分析和挖掘。

對于一個互聯(lián)網應用,當我們提到前端的時候,可能指的是如下幾類:

(1)App 程序,比如一個 iOS 應用或者 Android 應用,安裝在用戶的手機或者平板上;

(2)PC Web 前端,使用 PC 瀏覽器打開;

(3)H5 前端,由移動設備瀏覽器打開;

(4)微信小程序,在微信內打開。

這些不同的前端使用不同的開發(fā)語言開發(fā),運行在不同的設備上,每一類前端都需要解決自己的埋點問題。

埋點的方式主要有手工埋點、自動化埋點和可視化埋點。

手工埋點就是前端開發(fā)者手動編程將需要采集的前端數據發(fā)送到后端的數據采集系統(tǒng)。通常公司會開發(fā)一些前端數據上報的 SDK,前端工程師在需要埋點的地方,調用 SDK,按照接口規(guī)范傳入相關參數,比如 ID、名稱、頁面、控件等通用參數,還有業(yè)務邏輯數據等,SDK 將這些數據通過 HTTP 的方式發(fā)送到后端服務器。

自動化埋點則是通過一個前端程序 SDK,自動收集全部用戶操作事件,然后全量上傳到后端服器。自動化埋點有時候也被稱作無埋點,意思是無需埋點,實際上是全埋點,即全部用戶操作都埋點采集。自動化埋點的好處是開發(fā)工作量小,數據規(guī)范統(tǒng)一。缺點是采集的數據量大,很多數據采集來也不知道有什么用,白白浪費了計算資源,特別是對于流量敏感的移動端用戶而言,因為自動化埋點采集上傳花費了大量的流量,可能因此成為卸載應用的理由,這樣就得不償失了。在實踐中,有時候只是針對部分用戶做自動埋點,抽樣一部分數據做統(tǒng)計分析。

介于手工埋點和自動化埋點之間的,還有一種方案是可視化埋點。通過可視化的方式配置哪些前端操作需要埋點,根據配置采集數據??梢暬顸c實際上是可以人工干預的自動化埋點。

4、爬蟲系統(tǒng)

通過網絡爬蟲獲取外部數據用于行業(yè)數據支撐,管理決策等。由于涉及到敏感內容,不做更多的展開。

二、數據處理

大數據平臺的核心,分為離線計算和實時計算兩類。

1、離線計算

由MapReduce、Hive、Spark 等進行的計算處理。

2、實時計算

由Storm、SparkSteaming 等流式大數據引擎完成,可以在秒級甚至毫秒級時間內完成計算。

三、數據輸出

大數據處理與計算產生的數據寫入到 HDFS 中,但應用程序不會到 HDFS 中讀取數據,所以必須要將 HDFS 中的數據導出到數據庫中。除了給用戶提供數據,大數據平臺還需要在一些后臺系統(tǒng)中給運營和決策層提供各種統(tǒng)計數據,這些數據也寫入數據庫,被相應的后臺系統(tǒng)訪問。

四、任務調度管理

將上面三個部分有效整合和運轉起來的是任務調度管理系統(tǒng),它的主要作用是:

(1)合理調度各種 MapReduce、Spark 任務使資源利用最合理

(2)盡快執(zhí)行臨時的重要任務

(3)對作業(yè)提交、進度跟蹤、數據查看等功能

簡單的大數據平臺任務調度管理系統(tǒng)其實就是一個類似 Crontab 的定時任務系統(tǒng),按預設時間啟動不同的大數據作業(yè)腳本。復雜的大數據平臺任務調度還要考慮不同作業(yè)之間的依賴關系。開源的大數據調度系統(tǒng)有 Oozie,也可以在此基礎進行擴展。

 
 

上一篇:2019年12月11日 聚銘安全速遞

下一篇:2019網絡安全大事記