目錄
創新互聯于2013年開始,是專業互聯網技術服務公司,擁有項目成都做網站、網站設計網站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元雄縣做網站,已為上家服務,為雄縣各地企業和個人服務,聯系電話:18982081108一、數據采集、匯聚的方法和工具
1、線上行為采集
2、線下行為采集
3、互聯網數據采集
4、內部數據匯聚
二、數據交換產品
1、數據源管理
2、離線數據交換
3、實時數據交換
三、數據存儲的選擇
1、在線與離線
2、OLTP與OLAP
3、存儲技術
構建企業級的數據中臺第一步就是要實現各個業務系統的數據的互聯互通,從物理上打破數據孤島。主要通過數據匯聚和交換的能力來實現。在面對不同場景,根據數據類型、數據存儲要求等進行不同方案的選擇。
一、數據采集、匯聚的方法和工具 1、線上行為采集①客戶端埋點
全埋點:在終端設備上記錄用戶所有的操作行為,一般在內嵌SDK做一些初始化配置就可以實現全部收集行為的目的。也叫無痕埋點、無埋點等。優點:不用頻繁升級,可獲取全量數據 缺點:存儲、傳輸成本高
可視化埋點:在終端設備上記錄用戶的一部分操作,一般通過服務端配置的方式有選擇性的記錄與保存。優點:不用頻繁發布,成本比全埋點低,比較靈活;缺點:可能未收集到想要的數據,需要重新配置等
代碼埋點:根據需求定制每次的手機內容,需要對相應終端模塊進行升級。優點:靈活性強、可以單獨設計方案,對對存儲、帶寬等可以做較多優化;缺點:成本高,維護難度大,升級周期長。
②服務端埋點
服務端埋點常見的形態有HTTP服務器中的access_log,即所有web服務的日志數據。優點:降低客戶端的復雜度、提高信息安全;缺點:無法采集客戶端不與服務端交互的信息。
2、線下行為采集線下數據一般通過硬件采集,如Wifi探測針、攝像頭、傳感器等。
3、互聯網數據采集這種數據采集方式一般采用網絡爬蟲,使用一種按照既定規則自動抓取互聯網信息的程序或腳本,常用來做網站的自動化測試和行為模擬。常見的網絡爬蟲框架:Apache Nutch 2、WebMagic、Scrapy、PhpCrawl等,互聯網數據采集要遵守相應的安全規范、協議等
4、內部數據匯聚①數據組織形式分類
結構化數據:規則、完整,能夠用二維表來表現的數據,常見數據庫、excel中的數據。
半機構化數據:數據規則、完整,但不能通過二維表來表現的數據,比如JSON、XML等復雜結構
非機構化數據:數據不規則、不完整,也不能通過二維表來表現,需要復雜的邏輯才能從中提取,如圖片、圖像、音頻等。
②數據時效和應用場景分
離線:主要用于用戶大批量數據的周期性遷移,對時效性要求不高,一般采用分布式批量數據同步的方式,通過連接讀取數據,讀取數據過程中可以有全量、增量的方式,通過統一處理后寫入到目標存儲。
實時:主要面向低延時的數據應用場景,一般通過增量日志或通知消息的方式實現,業界有canal,flink等方式來實現。
③ETL和ELT
ETL(Extract-Transform-Load,抽取-轉換-存儲),抽取過程中加工,優點:節省存儲,簡化后續處理? 缺點:數據不全或丟失,處理效率低
ELT(Extract-Load-Transform,抽取-存儲-轉換),抽取完成后進行加工,優點:數據齊全,利用大數據等分布式后期處理效果更高? 缺點:存儲占用較大,無用數據太多可能會造成效率低
④常見數據匯聚工具
Canal:一種通過偽裝自己為Mysql等slave,通過監控日志變動的數據推動工具。常作為mysql數據變動的數據收集工具,但其不適合多消費和數據分發場景。
Sqoop:通用的大數據解決方案,在結構化數據和HDFS之間進行數據遷移的工具,基于Hadoop的MapReduce實現。優勢:特定場景,數據交換效率高。缺點:定制程度高,不易操作,并且依賴MapReduce,功能擴展性方面受到約束和限制。
DataX:阿里的一套插件式離線數據交換工具,它是基于進程內讀寫直連的方式。
二、數據交換產品前面介紹的工具一般都只能滿足一些單一的場景或者過程。為了滿足復雜的企業數據交換場景,我們需要一個完整的數據交換產品,包含數據源管理、離線數據處理、實時數據處理等等。
1、數據源管理數據源的管理主要是管理數據所用的存儲,用于平臺在做數據交換時,可以方便地對外部存儲進行相應的管理。
數據源的分類:
關系型數據庫:如Oracle、Mysql、SQL Server、Creenplum等
NoSQL存儲:如HBase、Redis、Elasticsearch、Cassandra、MongoDB、Neo4j等
網絡及MQ:如Kafka、HTTP等
文件系統:如HDFS、FTP、OSS、CSV、TXT、EXCEL等。
大數據相關:如HIVE、Impala、Kudu、MaxCompute等
2、離線數據交換離線數據交換時針對數據時效要求低、吞吐量大的場景,解決大規模數據的批量遷移問題。
離線數據同步技術的亮點:
①前置稽核
②數據轉換
③跨集群數據同步
④全量同步
⑤增量同步
3、實時數據交換實時數據交換主要負責把數據庫、日志爬蟲等數據實時接入Kafka、Hive、Oracle等存儲中。其兩個核心服務為:數據訂閱服務(Client Server)、數據消費服務(Consumer Server)。
實時交換架構圖示例:
數據的存儲我們一般要考慮數據的規模、數據生產方式以及數據的應用方式,通過方面綜合考慮。
1、在線與離線在線存儲是指存儲設備和所存儲的數據時刻保持“在線狀態”,可供用戶隨意讀取,滿足計算平臺對數據訪問的速度要求。在線存儲一般為磁盤、磁盤陣列、云存儲等。
離線存儲是為了對在線存儲的數據進行備份,已防可能發生的數據災難。離線存儲的數據不會經常被調用。常見的典型產品是硬盤、磁帶和光盤等。
2、OLTP與OLAPOLTP和OLAP他們并不是競爭或互斥關系,而是相互協作,合作共贏。
OLTP | OLAP | |
用戶 | 面向操作人員,支持日常操作 | 面向決策人員,支持管理需求 |
功能 | 日常操作處理 | 面向分析 |
DB設計 | 面向應用,事務驅動 | 面向主題,分析驅動 |
數據 | 當前的、最新的、細節的、二維的、分立的 | 歷史的、聚集的、多維的、集成的、統一的 |
存取 | 可更新,讀/寫數十條記錄 | 不可更新的,但周期性刷新,讀上百萬條記錄 |
工作單位 | 簡單的事務 | 復雜的查詢 |
DB大小 | 100MB到GB級 | 100GB到TB級別 |
1、分布式系統
分布式系統常見包括分布式文件系統(存儲系統需要多種技術的協同工作,其中文件系統為其提供最底層存儲能力的支持)和分布式鍵值系統(用戶存儲關系簡單的半結構化數據)
2、NoSQL數據庫
NoSQL的優勢,可以支持超大規模數據存儲,靈活的數據模型很好支持web2.0應用,具有強大的橫向擴展能力等,典型的有:鍵值數據庫、列族數據庫、文檔數據庫和圖數據庫等,如:HBASE、MongoDB等。
3、云數據庫
云數據庫是基于云計算技術的一種共享基礎架構方法,是部署和虛擬化在云計算環境中的數據庫。
你是否還在尋找穩定的海外服務器提供商?創新互聯www.cdcxhl.cn海外機房具備T級流量清洗系統配攻擊溯源,準確流量調度確保服務器高可用性,企業級服務器適合批量采購,新人活動首月15元起,快前往官網查看詳情吧
文章標題:大數據-創新互聯
本文鏈接:http://vcdvsql.cn/article42/cdecec.html
成都網站建設公司_創新互聯,為您提供做網站、小程序開發、定制開發、網站改版、關鍵詞優化、響應式網站
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯