AWS數(shù)據(jù)分析服務(wù)（十）

Amazon Kinesis

概念

處理AWS上大量流數(shù)據(jù)的數(shù)據(jù)平臺(tái)
Kinesis Streams 用于搜集數(shù)據(jù)，Client Library 用于分析后的展示
構(gòu)建用于處理或分析流數(shù)據(jù)的自定義應(yīng)用程序
可以支持從數(shù)十萬(wàn)中來(lái)源捕獲和存儲(chǔ)TB級(jí)的數(shù)據(jù)，如網(wǎng)站點(diǎn)擊流、財(cái)務(wù)交易、媒體饋送、IT日志等
使用IAM限制用戶和角色對(duì)Kinesis的訪問(wèn)，使用角色的臨時(shí)安全憑證可以提高安全性
Kiesis只能使用SSL加密進(jìn)行訪問(wèn)

Kinesis組件

Kinesis Data Firehose

加載大量流數(shù)據(jù)到AWS服務(wù)中
數(shù)據(jù)默認(rèn)被存儲(chǔ)在S3中，從S3還可以再被進(jìn)一步轉(zhuǎn)存到Redshift
數(shù)據(jù)也可以被寫入到ElaticSearch中，并且同時(shí)備份到S3

Kinesis Data Streams:

自定義構(gòu)建應(yīng)用程序，實(shí)時(shí)分析流數(shù)據(jù)
利用AWS開(kāi)發(fā)工具包，可以實(shí)現(xiàn)數(shù)據(jù)在流中移動(dòng)時(shí)仍然能被處理，從而接近實(shí)時(shí)
為了接近實(shí)時(shí)，處理的復(fù)雜度通常較輕
創(chuàng)建者 Producer 持續(xù)將數(shù)據(jù)推送進(jìn)Data Streams
數(shù)據(jù)在DataStream 由一組組分片（Shards）組成，每個(gè)分片就是一條記錄，通過(guò)不斷分片實(shí)現(xiàn)幾乎無(wú)限的擴(kuò)展能力
使用者 Comsumer 會(huì)實(shí)時(shí)對(duì)Data Steams的內(nèi)容進(jìn)行處理，并且將結(jié)果推送到不同的AWS服務(wù)
數(shù)據(jù)在Stream中是臨時(shí)的，默認(rèn)存儲(chǔ)24小時(shí)，最大可以設(shè)置為7天

AWS 數(shù)據(jù)分析服務(wù)（十）

創(chuàng)新互聯(lián)專注于朝陽(yáng)縣企業(yè)網(wǎng)站建設(shè),響應(yīng)式網(wǎng)站建設(shè),購(gòu)物商城網(wǎng)站建設(shè)。朝陽(yáng)縣網(wǎng)站建設(shè)公司,為朝陽(yáng)縣等地區(qū)提供建站服務(wù)。全流程按需定制制作，專業(yè)設(shè)計(jì)，全程項(xiàng)目跟蹤，創(chuàng)新互聯(lián)專業(yè)和態(tài)度為您提供的服務(wù)

Kinesis Data Analytics

使用標(biāo)準(zhǔn)SQL實(shí)時(shí)分析流數(shù)據(jù)

Kinesis Video Streams

捕獲、處理并存儲(chǔ)視頻流用于分析和機(jī)器學(xué)習(xí)

適用場(chǎng)景

大量的數(shù)據(jù)攝取
海量流數(shù)據(jù)的實(shí)時(shí)處理

Elastic MapReduce ( EMR)

概念

提供完全托管的按需 Hadoop 框架
啟動(dòng)EMR集群的必選項(xiàng)
集群節(jié)點(diǎn)的實(shí)例類型
集群中的節(jié)點(diǎn)數(shù)量
希望運(yùn)行的Hadoop版本
Hadoop集群選擇存儲(chǔ)類型至關(guān)重要，主要因素是集群是持久的還是瞬態(tài)的
需要持續(xù)運(yùn)行并分析數(shù)據(jù)的集群是持久集群
按需啟動(dòng)并在完成后立即停止的集群為瞬時(shí)集群
默認(rèn)不限制EMR集群數(shù)量，但限制用于EMR節(jié)點(diǎn)總數(shù)為20個(gè)，可申請(qǐng)擴(kuò)展
可以從S3以及其他任何位置攝取數(shù)據(jù)
Hadoop 日志文件默認(rèn)存儲(chǔ)在S3中，且不支持壓縮
EMR支持競(jìng)價(jià)實(shí)例
EMR需要在一個(gè)可用區(qū)部署，不支持跨可用區(qū)部署，通常建議選擇數(shù)據(jù)所在的區(qū)域
集群?jiǎn)?dòng)通常在15分鐘內(nèi)可以開(kāi)始進(jìn)行數(shù)據(jù)處理
EMR允許使用磁性、SSD和 PIOPS SSD三種EBS卷。
適用場(chǎng)景
- 日志處理，點(diǎn)擊流分析，基因?qū)W和生命科學(xué)

文件系統(tǒng)

HDFS

Hadoop標(biāo)準(zhǔn)文件系統(tǒng)
所有數(shù)據(jù)都在多個(gè)實(shí)例中被復(fù)制保證持久性
HDFS可以利用EBS存儲(chǔ)確保在關(guān)閉集群時(shí)不丟失數(shù)據(jù)
非常適合于持久的集群

EMRFS

HDFS在AWS S3上的實(shí)現(xiàn)，將數(shù)據(jù)保存在S3中
可以使用所有Hadoop生態(tài)的工具系統(tǒng)
非常適合于瞬時(shí)集群

EMR NoteBooks

EMR Notebooks 提供基于 Jupyter Notebook 的托管環(huán)境，可供數(shù)據(jù)科學(xué)家、分析員和開(kāi)發(fā)人員準(zhǔn)備數(shù)據(jù)并使其可視化、與同伴協(xié)作、構(gòu)建應(yīng)用程序，并使用 EMR 群集執(zhí)行交互分析。
您可以使用 EMR Notebooks 構(gòu)建 Apache Spark 應(yīng)用程序，并且輕而易舉地在 EMR 群集上運(yùn)行交互查詢。多個(gè)用戶可以直接從控制臺(tái)創(chuàng)建無(wú)服務(wù)器筆記本、將其掛載到現(xiàn)有的共享 EMR 群集，或直接從控制臺(tái)提供至少 1 個(gè)節(jié)點(diǎn)的并立即開(kāi)始使用 Spark 進(jìn)行實(shí)驗(yàn)。

安全設(shè)置

EMR默認(rèn)將設(shè)置兩個(gè)EC2安全組：主節(jié)點(diǎn)和從屬節(jié)點(diǎn)
- 主安全組
  - 定義一個(gè)端口用于與服務(wù)的通信
  - 打開(kāi)的SSH端口，允許啟動(dòng)時(shí)指定的SSH密鑰進(jìn)入實(shí)例
  - 默認(rèn)不允許被外部實(shí)例訪問(wèn)，但可設(shè)置
- 從屬安全組
  - 只允許與主實(shí)例進(jìn)行交互
默認(rèn)使用SSL向S3傳送數(shù)據(jù)
可以支持對(duì)集群進(jìn)行標(biāo)記，最多10個(gè)標(biāo)記，但不支持基于標(biāo)記的IAM許可。
使用IAM權(quán)限和角色控制對(duì)EMR的訪問(wèn)和控制
可以設(shè)置允許非Hadoop用戶將作業(yè)提交至集群的權(quán)限
可以將EMR放入到私有VPC中實(shí)現(xiàn)額外的保護(hù)

AWS Data Pipeline

概念

實(shí)現(xiàn)在指定時(shí)間間隔，在AWS資源和本地?cái)?shù)據(jù)之間可靠地處理和移動(dòng)數(shù)據(jù)
您可以快速輕松地部署管道，無(wú)需分心管理日常數(shù)據(jù)操作，從而讓您能夠集中精力從該數(shù)據(jù)獲取所需的信息。您只需為您的數(shù)據(jù)管道指定所需數(shù)據(jù)源、時(shí)間表和處理活動(dòng)即可。
與SWF相比，Data Pipeline 專門設(shè)計(jì)用于簡(jiǎn)化大多數(shù)數(shù)據(jù)驅(qū)動(dòng)工作流程中常見(jiàn)的特定步驟。例如：在輸入數(shù)據(jù)符合特定準(zhǔn)備就緒標(biāo)準(zhǔn)后執(zhí)行活動(dòng)，輕松在不同數(shù)據(jù)存儲(chǔ)之間復(fù)制數(shù)據(jù)，以及調(diào)度鏈接的轉(zhuǎn)換。這種高度具體的側(cè)重點(diǎn)意味著 Data Pipeline 工作流定義可以快速創(chuàng)建，并且無(wú)需代碼或編程知識(shí)。
定期訪問(wèn)存儲(chǔ)數(shù)據(jù)，并對(duì)數(shù)據(jù)進(jìn)行大規(guī)模處理，并且將結(jié)果轉(zhuǎn)換為AWS服務(wù)

AWS 數(shù)據(jù)分析服務(wù)（十）

利用Pipeline的定義安排和運(yùn)行任務(wù)，可以每15分鐘，每天，每周運(yùn)行等
數(shù)據(jù)節(jié)點(diǎn)是pipeline流水線讀取和寫入數(shù)據(jù)的位置，可以是S3，MySQL，Redshift等AWS或本地存儲(chǔ)
Pipeline通常需要配合其他服務(wù)執(zhí)行預(yù)定義的任務(wù)，如EMR，EC2等，并在執(zhí)行完成后自動(dòng)關(guān)閉該服務(wù)
Pipeline在編排的過(guò)程支持條件語(yǔ)句
若某項(xiàng)活動(dòng)失敗，默認(rèn)會(huì)不斷重試，所以需要配置限制重試次數(shù)或未成功時(shí)采取的行動(dòng)
每個(gè)賬戶默認(rèn)支持100個(gè)管道，單一管道中可以擁有100個(gè)對(duì)象，可以申請(qǐng)擴(kuò)展

屬性

管道
- 即 AWS Data Pipeline 資源，其中包含由執(zhí)行業(yè)務(wù)邏輯所需的數(shù)據(jù)源、目的地和預(yù)定義或自定義數(shù)據(jù)處理活動(dòng)所組成的關(guān)聯(lián)數(shù)據(jù)鏈的定義。
數(shù)據(jù)節(jié)點(diǎn)
- 數(shù)據(jù)節(jié)點(diǎn)代表您的業(yè)務(wù)數(shù)據(jù)。例如，數(shù)據(jù)節(jié)點(diǎn)可以表示特定的 Amazon S3 路徑。AWS Data Pipeline 支持表達(dá)式語(yǔ)言，使其更容易引用常態(tài)生成的數(shù)據(jù)。
活動(dòng)
- 是 AWS Data Pipeline 代表您啟動(dòng)的操作，它是管道的一部分。示例活動(dòng)包括 EMR 或 Hive 作業(yè)、復(fù)制、SQL 查詢或命令行腳本。
前提條件
- 前提條件是指成熟度檢查，可選擇性地將其關(guān)聯(lián)到數(shù)據(jù)源或活動(dòng)。如果數(shù)據(jù)源具有前提條件檢查，那么必須先成功完成檢查，然后才能啟動(dòng)任何需要用到該數(shù)據(jù)源的活動(dòng)。如果活動(dòng)具有前提條件，那么必須先成功完成檢查，然后才能運(yùn)行活動(dòng)。
時(shí)間表
- 定義管道活動(dòng)運(yùn)行的時(shí)間和服務(wù)預(yù)計(jì)的可使用數(shù)據(jù)的頻率。可以選擇時(shí)間表結(jié)束日期，在此時(shí)間后，AWS Data Pipeline 服務(wù)不執(zhí)行任何活動(dòng)。
- 當(dāng)您將時(shí)間表與活動(dòng)關(guān)聯(lián)起來(lái)后，活動(dòng)就會(huì)按時(shí)間表運(yùn)行。當(dāng)您將時(shí)間表與數(shù)據(jù)源關(guān)聯(lián)起來(lái)，就表示您告訴 AWS Data Pipeline 服務(wù)，您期望數(shù)據(jù)會(huì)按照該時(shí)間表更新。

適用場(chǎng)景

非常適用于常規(guī)批處理的ETL流程，而不是連續(xù)數(shù)據(jù)流

Amazon Elastic Transcoder

一種在線媒體轉(zhuǎn)碼的工具
將視頻從源格式轉(zhuǎn)換到其他的格式和分辨率，以便在手機(jī)、平板、PC等設(shè)備上播放
一般來(lái)說(shuō)，將需要轉(zhuǎn)碼的媒體文件放在AWS S3的存儲(chǔ)桶上，創(chuàng)建相應(yīng)的管道和任務(wù)將文件轉(zhuǎn)碼為特定的格式，最后將文件輸出到另一個(gè)S3的存儲(chǔ)桶上面去。
也可以使用一些預(yù)設(shè)的模板來(lái)轉(zhuǎn)換媒體格式。
可以配合Lambda函數(shù)，在有新的文件上傳到S3后觸發(fā)函數(shù)代碼，執(zhí)行Elastic Transcoder并自動(dòng)進(jìn)行媒體文件的轉(zhuǎn)碼。

AWS 數(shù)據(jù)分析服務(wù)（十）

Amazon Athena

Amazon Athena 是一種交互式查詢服務(wù)，讓您能夠輕松使用標(biāo)準(zhǔn) SQL 分析 Amazon S3 中的數(shù)據(jù)。Athena 沒(méi)有服務(wù)器，因此您無(wú)需管理任何基礎(chǔ)設(shè)施，且只需為您運(yùn)行的查詢付費(fèi)。
Athena 簡(jiǎn)單易用。只需指向您存儲(chǔ)在 Amazon S3 中的數(shù)據(jù)，定義架構(gòu)并使用標(biāo)準(zhǔn) SQL 開(kāi)始查詢就可在數(shù)秒內(nèi)獲取最多的結(jié)果。
使用 Athena，無(wú)需執(zhí)行復(fù)雜的 ETL 作業(yè)來(lái)為數(shù)據(jù)分析做準(zhǔn)備。這樣一來(lái)，具備 SQL 技能的任何人都可以輕松快速地分析大規(guī)模數(shù)據(jù)集。
支持的數(shù)據(jù)格式包括 JSON，Apache Parquet, Apache ORC

Amazon Elasticsearch Service

Amazon Elasticsearch Service 是一項(xiàng)完全托管的服務(wù)，方便您部署、保護(hù)和運(yùn)行大量 Elasticsearch 操作，且不用停機(jī)。
該服務(wù)提供開(kāi)源 Elasticsearch API、受托管的 Kibana 以及與 Logstash 和其他 AWS 服務(wù)的集成，支持您安全獲取任何來(lái)源的數(shù)據(jù)，并開(kāi)展實(shí)時(shí)搜索、分析和可視化。
使用 Amazon Elasticsearch Service 時(shí)，您只需按實(shí)際用量付費(fèi)，沒(méi)有預(yù)付成本或使用要求。有了 Amazon Elasticsearch Service，您無(wú)需承擔(dān)運(yùn)營(yíng)開(kāi)銷，便可獲得所需的 ELK 堆棧。

AWS X-Ray

AWS X-Ray 可以幫助開(kāi)發(fā)人員分析與調(diào)試分布式生產(chǎn)應(yīng)用程序，例如使用微服務(wù)架構(gòu)構(gòu)建的應(yīng)用程序。
借助 X-Ray，您可以了解應(yīng)用程序及其底層服務(wù)的執(zhí)行方式，從而識(shí)別和排查導(dǎo)致性能問(wèn)題和錯(cuò)誤的根本原因。
X-Ray 可在請(qǐng)求通過(guò)應(yīng)用程序時(shí)提供請(qǐng)求的端到端視圖，并展示應(yīng)用程序底層組件的映射。
您可以使用 X-Ray 分析開(kāi)發(fā)和生產(chǎn)中的應(yīng)用程序，從簡(jiǎn)單的三層應(yīng)用程序到包含上千種服務(wù)的復(fù)雜微服務(wù)應(yīng)用程序。

分享文章：AWS數(shù)據(jù)分析服務(wù)（十）
網(wǎng)頁(yè)URL：http://vcdvsql.cn/article8/gjoeip.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供軟件開(kāi)發(fā)、全網(wǎng)營(yíng)銷推廣、響應(yīng)式網(wǎng)站、網(wǎng)站導(dǎo)航、定制開(kāi)發(fā)、企業(yè)網(wǎng)站制作

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

AWS數(shù)據(jù)分析服務(wù)（十）

Amazon Kinesis

概念

Kinesis組件

Kinesis Data Firehose

Kinesis Data Streams:

Kinesis Data Analytics

Kinesis Video Streams

適用場(chǎng)景

Elastic MapReduce ( EMR)

概念

文件系統(tǒng)

HDFS

EMRFS

EMR NoteBooks

安全設(shè)置

AWS Data Pipeline

概念

屬性

適用場(chǎng)景

Amazon Elastic Transcoder

Amazon Athena

Amazon Elasticsearch Service

AWS X-Ray