Amazon Kinesis
概念
- 處理AWS上大量流數(shù)據(jù)的數(shù)據(jù)平臺(tái)
- Kinesis Streams 用于搜集數(shù)據(jù),Client Library 用于分析后的展示
- 構(gòu)建用于處理或分析流數(shù)據(jù)的自定義應(yīng)用程序
- 可以支持從數(shù)十萬(wàn)中來(lái)源捕獲和存儲(chǔ)TB級(jí)的數(shù)據(jù),如網(wǎng)站點(diǎn)擊流、財(cái)務(wù)交易、媒體饋送、IT日志等
- 使用IAM限制用戶和角色對(duì)Kinesis的訪問(wèn),使用角色的臨時(shí)安全憑證可以提高安全性
- Kiesis只能使用SSL加密進(jìn)行訪問(wèn)
Kinesis組件
Kinesis Data Firehose
- 加載大量流數(shù)據(jù)到AWS服務(wù)中
- 數(shù)據(jù)默認(rèn)被存儲(chǔ)在S3中,從S3還可以再被進(jìn)一步轉(zhuǎn)存到Redshift
- 數(shù)據(jù)也可以被寫入到ElaticSearch中,并且同時(shí)備份到S3
Kinesis Data Streams:
- 自定義構(gòu)建應(yīng)用程序,實(shí)時(shí)分析流數(shù)據(jù)
- 利用AWS開(kāi)發(fā)工具包,可以實(shí)現(xiàn)數(shù)據(jù)在流中移動(dòng)時(shí)仍然能被處理,從而接近實(shí)時(shí)
- 為了接近實(shí)時(shí),處理的復(fù)雜度通常較輕
- 創(chuàng)建者 Producer 持續(xù)將數(shù)據(jù)推送進(jìn)Data Streams
- 數(shù)據(jù)在DataStream 由一組組分片(Shards)組成,每個(gè)分片就是一條記錄,通過(guò)不斷分片實(shí)現(xiàn)幾乎無(wú)限的擴(kuò)展能力
- 使用者 Comsumer 會(huì)實(shí)時(shí)對(duì)Data Steams的內(nèi)容進(jìn)行處理,并且將結(jié)果推送到不同的AWS服務(wù)
- 數(shù)據(jù)在Stream中是臨時(shí)的,默認(rèn)存儲(chǔ)24小時(shí),最大可以設(shè)置為7天
創(chuàng)新互聯(lián)專注于朝陽(yáng)縣企業(yè)網(wǎng)站建設(shè),響應(yīng)式網(wǎng)站建設(shè),購(gòu)物商城網(wǎng)站建設(shè)。朝陽(yáng)縣網(wǎng)站建設(shè)公司,為朝陽(yáng)縣等地區(qū)提供建站服務(wù)。全流程按需定制制作,專業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,創(chuàng)新互聯(lián)專業(yè)和態(tài)度為您提供的服務(wù)
Kinesis Data Analytics
- 使用標(biāo)準(zhǔn)SQL實(shí)時(shí)分析流數(shù)據(jù)
Kinesis Video Streams
- 捕獲、處理并存儲(chǔ)視頻流用于分析和機(jī)器學(xué)習(xí)
適用場(chǎng)景
- 大量的數(shù)據(jù)攝取
- 海量流數(shù)據(jù)的實(shí)時(shí)處理
Elastic MapReduce ( EMR)
概念
- 提供完全托管的按需 Hadoop 框架
- 啟動(dòng)EMR集群的必選項(xiàng)
- 集群節(jié)點(diǎn)的實(shí)例類型
- 集群中的節(jié)點(diǎn)數(shù)量
- 希望運(yùn)行的Hadoop版本
- Hadoop集群選擇存儲(chǔ)類型至關(guān)重要,主要因素是集群是持久的還是瞬態(tài)的
- 需要持續(xù)運(yùn)行并分析數(shù)據(jù)的集群是持久集群
- 按需啟動(dòng)并在完成后立即停止的集群為瞬時(shí)集群
- 默認(rèn)不限制EMR集群數(shù)量,但限制用于EMR節(jié)點(diǎn)總數(shù)為20個(gè),可申請(qǐng)擴(kuò)展
- 可以從S3以及其他任何位置攝取數(shù)據(jù)
- Hadoop 日志文件默認(rèn)存儲(chǔ)在S3中,且不支持壓縮
- EMR支持競(jìng)價(jià)實(shí)例
- EMR需要在一個(gè)可用區(qū)部署,不支持跨可用區(qū)部署,通常建議選擇數(shù)據(jù)所在的區(qū)域
- 集群?jiǎn)?dòng)通常在15分鐘內(nèi)可以開(kāi)始進(jìn)行數(shù)據(jù)處理
- EMR允許使用磁性、SSD和 PIOPS SSD三種EBS卷。
- 適用場(chǎng)景
- 日志處理,點(diǎn)擊流分析,基因?qū)W和生命科學(xué)
文件系統(tǒng)
HDFS
- Hadoop標(biāo)準(zhǔn)文件系統(tǒng)
- 所有數(shù)據(jù)都在多個(gè)實(shí)例中被復(fù)制保證持久性
- HDFS可以利用EBS存儲(chǔ)確保在關(guān)閉集群時(shí)不丟失數(shù)據(jù)
- 非常適合于持久的集群
EMRFS
- HDFS在AWS S3上的實(shí)現(xiàn),將數(shù)據(jù)保存在S3中
- 可以使用所有Hadoop生態(tài)的工具系統(tǒng)
- 非常適合于瞬時(shí)集群
EMR NoteBooks
- EMR Notebooks 提供基于 Jupyter Notebook 的托管環(huán)境,可供數(shù)據(jù)科學(xué)家、分析員和開(kāi)發(fā)人員準(zhǔn)備數(shù)據(jù)并使其可視化、與同伴協(xié)作、構(gòu)建應(yīng)用程序,并使用 EMR 群集執(zhí)行交互分析。
- 您可以使用 EMR Notebooks 構(gòu)建 Apache Spark 應(yīng)用程序,并且輕而易舉地在 EMR 群集上運(yùn)行交互查詢。多個(gè)用戶可以直接從控制臺(tái)創(chuàng)建無(wú)服務(wù)器筆記本、將其掛載到現(xiàn)有的共享 EMR 群集,或直接從控制臺(tái)提供至少 1 個(gè)節(jié)點(diǎn)的并立即開(kāi)始使用 Spark 進(jìn)行實(shí)驗(yàn)。
安全設(shè)置
- EMR默認(rèn)將設(shè)置兩個(gè)EC2安全組: 主節(jié)點(diǎn)和從屬節(jié)點(diǎn)
- 主安全組
- 定義一個(gè)端口用于與服務(wù)的通信
- 打開(kāi)的SSH端口,允許啟動(dòng)時(shí)指定的SSH密鑰進(jìn)入實(shí)例
- 默認(rèn)不允許被外部實(shí)例訪問(wèn),但可設(shè)置
- 從屬安全組
- 默認(rèn)使用SSL向S3傳送數(shù)據(jù)
- 可以支持對(duì)集群進(jìn)行標(biāo)記,最多10個(gè)標(biāo)記,但不支持基于標(biāo)記的IAM許可。
- 使用IAM權(quán)限和角色控制對(duì)EMR的訪問(wèn)和控制
- 可以設(shè)置允許非Hadoop用戶將作業(yè)提交至集群的權(quán)限
- 可以將EMR放入到私有VPC中實(shí)現(xiàn)額外的保護(hù)
AWS Data Pipeline
概念
- 實(shí)現(xiàn)在指定時(shí)間間隔,在AWS資源和本地?cái)?shù)據(jù)之間可靠地處理和移動(dòng)數(shù)據(jù)
- 您可以快速輕松地部署管道,無(wú)需分心管理日常數(shù)據(jù)操作,從而讓您能夠集中精力從該數(shù)據(jù)獲取所需的信息。您只需為您的數(shù)據(jù)管道指定所需數(shù)據(jù)源、時(shí)間表和處理活動(dòng)即可。
- 與SWF相比,Data Pipeline 專門設(shè)計(jì)用于簡(jiǎn)化大多數(shù)數(shù)據(jù)驅(qū)動(dòng)工作流程中常見(jiàn)的特定步驟。例如:在輸入數(shù)據(jù)符合特定準(zhǔn)備就緒標(biāo)準(zhǔn)后執(zhí)行活動(dòng),輕松在不同數(shù)據(jù)存儲(chǔ)之間復(fù)制數(shù)據(jù),以及調(diào)度鏈接的轉(zhuǎn)換。這種高度具體的側(cè)重點(diǎn)意味著 Data Pipeline 工作流定義可以快速創(chuàng)建,并且無(wú)需代碼或編程知識(shí)。
- 定期訪問(wèn)存儲(chǔ)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行大規(guī)模處理,并且將結(jié)果轉(zhuǎn)換為AWS服務(wù)
- 利用Pipeline的定義安排和運(yùn)行任務(wù),可以每15分鐘,每天,每周運(yùn)行等
- 數(shù)據(jù)節(jié)點(diǎn)是pipeline流水線讀取和寫入數(shù)據(jù)的位置,可以是S3,MySQL,Redshift等AWS或本地存儲(chǔ)
- Pipeline通常需要配合其他服務(wù)執(zhí)行預(yù)定義的任務(wù),如EMR,EC2等,并在執(zhí)行完成后自動(dòng)關(guān)閉該服務(wù)
- Pipeline在編排的過(guò)程支持條件語(yǔ)句
- 若某項(xiàng)活動(dòng)失敗,默認(rèn)會(huì)不斷重試,所以需要配置限制重試次數(shù)或未成功時(shí)采取的行動(dòng)
- 每個(gè)賬戶默認(rèn)支持100個(gè)管道,單一管道中可以擁有100個(gè)對(duì)象,可以申請(qǐng)擴(kuò)展
屬性
- 管道
- 即 AWS Data Pipeline 資源,其中包含由執(zhí)行業(yè)務(wù)邏輯所需的數(shù)據(jù)源、目的地和預(yù)定義或自定義數(shù)據(jù)處理活動(dòng)所組成的關(guān)聯(lián)數(shù)據(jù)鏈的定義。
- 數(shù)據(jù)節(jié)點(diǎn)
- 數(shù)據(jù)節(jié)點(diǎn)代表您的業(yè)務(wù)數(shù)據(jù)。例如,數(shù)據(jù)節(jié)點(diǎn)可以表示特定的 Amazon S3 路徑。AWS Data Pipeline 支持表達(dá)式語(yǔ)言,使其更容易引用常態(tài)生成的數(shù)據(jù)。
- 活動(dòng)
- 是 AWS Data Pipeline 代表您啟動(dòng)的操作,它是管道的一部分。示例活動(dòng)包括 EMR 或 Hive 作業(yè)、復(fù)制、SQL 查詢或命令行腳本。
- 前提條件
- 前提條件是指成熟度檢查,可選擇性地將其關(guān)聯(lián)到數(shù)據(jù)源或活動(dòng)。如果數(shù)據(jù)源具有前提條件檢查,那么必須先成功完成檢查,然后才能啟動(dòng)任何需要用到該數(shù)據(jù)源的活動(dòng)。如果活動(dòng)具有前提條件,那么必須先成功完成檢查,然后才能運(yùn)行活動(dòng)。
- 時(shí)間表
- 定義管道活動(dòng)運(yùn)行的時(shí)間和服務(wù)預(yù)計(jì)的可使用數(shù)據(jù)的頻率。可以選擇時(shí)間表結(jié)束日期,在此時(shí)間后,AWS Data Pipeline 服務(wù)不執(zhí)行任何活動(dòng)。
- 當(dāng)您將時(shí)間表與活動(dòng)關(guān)聯(lián)起來(lái)后,活動(dòng)就會(huì)按時(shí)間表運(yùn)行。當(dāng)您將時(shí)間表與數(shù)據(jù)源關(guān)聯(lián)起來(lái),就表示您告訴 AWS Data Pipeline 服務(wù),您期望數(shù)據(jù)會(huì)按照該時(shí)間表更新。
適用場(chǎng)景
- 非常適用于常規(guī)批處理的ETL流程,而不是連續(xù)數(shù)據(jù)流
Amazon Elastic Transcoder
- 一種在線媒體轉(zhuǎn)碼的工具
- 將視頻從源格式轉(zhuǎn)換到其他的格式和分辨率,以便在手機(jī)、平板、PC等設(shè)備上播放
- 一般來(lái)說(shuō),將需要轉(zhuǎn)碼的媒體文件放在AWS S3的存儲(chǔ)桶上,創(chuàng)建相應(yīng)的管道和任務(wù)將文件轉(zhuǎn)碼為特定的格式,最后將文件輸出到另一個(gè)S3的存儲(chǔ)桶上面去。
- 也可以使用一些預(yù)設(shè)的模板來(lái)轉(zhuǎn)換媒體格式。
- 可以配合Lambda函數(shù),在有新的文件上傳到S3后觸發(fā)函數(shù)代碼,執(zhí)行Elastic Transcoder并自動(dòng)進(jìn)行媒體文件的轉(zhuǎn)碼。
Amazon Athena
- Amazon Athena 是一種交互式查詢服務(wù),讓您能夠輕松使用標(biāo)準(zhǔn) SQL 分析 Amazon S3 中的數(shù)據(jù)。Athena 沒(méi)有服務(wù)器,因此您無(wú)需管理任何基礎(chǔ)設(shè)施,且只需為您運(yùn)行的查詢付費(fèi)。
- Athena 簡(jiǎn)單易用。只需指向您存儲(chǔ)在 Amazon S3 中的數(shù)據(jù),定義架構(gòu)并使用標(biāo)準(zhǔn) SQL 開(kāi)始查詢就可在數(shù)秒內(nèi)獲取最多的結(jié)果。
- 使用 Athena,無(wú)需執(zhí)行復(fù)雜的 ETL 作業(yè)來(lái)為數(shù)據(jù)分析做準(zhǔn)備。這樣一來(lái),具備 SQL 技能的任何人都可以輕松快速地分析大規(guī)模數(shù)據(jù)集。
- 支持的數(shù)據(jù)格式包括 JSON,Apache Parquet, Apache ORC
Amazon Elasticsearch Service
- Amazon Elasticsearch Service 是一項(xiàng)完全托管的服務(wù),方便您部署、保護(hù)和運(yùn)行大量 Elasticsearch 操作,且不用停機(jī)。
- 該服務(wù)提供開(kāi)源 Elasticsearch API、受托管的 Kibana 以及與 Logstash 和其他 AWS 服務(wù)的集成,支持您安全獲取任何來(lái)源的數(shù)據(jù),并開(kāi)展實(shí)時(shí)搜索、分析和可視化。
- 使用 Amazon Elasticsearch Service 時(shí),您只需按實(shí)際用量付費(fèi),沒(méi)有預(yù)付成本或使用要求。有了 Amazon Elasticsearch Service,您無(wú)需承擔(dān)運(yùn)營(yíng)開(kāi)銷,便可獲得所需的 ELK 堆棧。
AWS X-Ray
- AWS X-Ray 可以幫助開(kāi)發(fā)人員分析與調(diào)試分布式生產(chǎn)應(yīng)用程序,例如使用微服務(wù)架構(gòu)構(gòu)建的應(yīng)用程序。
- 借助 X-Ray,您可以了解應(yīng)用程序及其底層服務(wù)的執(zhí)行方式,從而識(shí)別和排查導(dǎo)致性能問(wèn)題和錯(cuò)誤的根本原因。
- X-Ray 可在請(qǐng)求通過(guò)應(yīng)用程序時(shí)提供請(qǐng)求的端到端視圖,并展示應(yīng)用程序底層組件的映射。
- 您可以使用 X-Ray 分析開(kāi)發(fā)和生產(chǎn)中的應(yīng)用程序,從簡(jiǎn)單的三層應(yīng)用程序到包含上千種服務(wù)的復(fù)雜微服務(wù)應(yīng)用程序。
分享文章:AWS數(shù)據(jù)分析服務(wù)(十)
網(wǎng)頁(yè)URL:http://vcdvsql.cn/article8/gjoeip.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供軟件開(kāi)發(fā)、全網(wǎng)營(yíng)銷推廣、響應(yīng)式網(wǎng)站、網(wǎng)站導(dǎo)航、定制開(kāi)發(fā)、企業(yè)網(wǎng)站制作
廣告
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源:
創(chuàng)新互聯(lián)