bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

【成都網站設計】構化數據——RAID模式已過時

2022-07-17    分類: 網站設計

一份來自Novell公司Ponemon研究所針對對美國94個大型企業的調查顯示,平均每個公司每年花在非結構化數據處理上的成本為210萬美元;而一些受到嚴格監管的行業,比如金融、制藥、通訊和醫療行業的成本高,每年將達到250萬美元;另一個來自Unisphere Research的調查則顯示,62%的受訪者表示非結構化信息的產生是不可避免的,在未來十年內將超過傳統數據。此外有35%的人表示,在未來的36個月里,非結構化的信息量將超過傳統的關系數據。

據IDC的預測,現在全球數據量每18個月就要翻一番,每年全球產生的數據量已經高達40EB(1EB=1000PB)。而這些瘋狂增長的數據主要來自非結構化數據。

事實上,結構化數據成為主流早有征兆,2008年,基于文件的存儲系統容量出貨量就以微弱的優勢首次超過了基于塊的存儲系統容量的出貨量,而近幾年,這一差距正在逐漸拉大,據Gartner預計,到2012年,基于文件的存儲系統容量將占到總容量的70%。而IDC也同時預測,鑒于基于文件類型的非結構化數據的增速極快,到2012年,全球存儲市場的總出貨量中將有80%的容量被文件級數據所覆蓋。

顯然,對于擁有非結構化數據處理需求的企業而言,需要正視它所帶來的麻煩了。

什么是非結構化數據?

非結構化數據是相對于結構化數據而言,結構化數據主要是指那些數字的或能用統一的結構來表示的數據,如存儲在數據庫中的數據,這些數據基本上是以塊(Block)的形式呈現。而非結構化數據是指那些無法用數字或統一的結構來表示的數據,像文本、圖像、視頻、音頻、報表、網頁等都是非結構化數據,它們大多以文件(File)的形式保存。

實際上,造成非結構化數據激增的原因主要有兩個:一是云時代的到來使得數據創造的主題由企業逐漸轉向用戶個體,而個體所產生的絕大部分數據均為圖片、文檔、視頻等非結構化數據;另一方面,信息化技術的普及使得企業更多的辦公流程通過網絡得以實現,以往紙質的表單、票據等現在都實現了數字化存檔,而這方面產生的數據也以非結構化數據為主。

比如Web頁面,其通常被認為是一個典型的非結構化數據,盡管基本上所有的網頁都是由HTML語言組成,具備豐富的結構定義。但是Web頁面還包含鏈接和引用外部的內容,而這些內容往往是非結構化的內容,如圖像、XML文件、動畫等。

此外,非結構化數據也是在客戶關系管理(CRM)系統中普遍存在,特別是客戶服務代表和呼叫中心的工作人員的筆記記錄。

面對由非結構化數據+傳統結構化數據組成的“Big Data”,我們該如何應對呢?

顯然,集成所有這些數據將需要推陳出新。40年前的數據管理系統需要更高級的程序能夠管理所有數據類型,包括結構化和非結構化,并可滿足分布式數據部署在全球網絡任何地方的需求。

 非結構化數據——RAID模式已過時

在傳統的解決方案中,結構化數據的訪問是小數據大密集的方式,一次數據庫的寫入讀出產生的數據量只有幾Byte或者是幾KB,但是它需要非常密集的訪問,對于一個大型企業的數據庫而言,其每秒的調用次數一般會達到幾十數百次,因此對于數據庫存儲設備的考量指標是IOps,也就是一秒能夠完成的I/O數量。

因此為了最求更快的查詢速度,企業開始部署擁有更大I/O吞吐能力的SSD硬盤。但是新的問題開始出現,隨著SSD制成的提升(72nm->50nm->32nm->25nm),單點可擦寫次數是在下降的,對于MLC,50nm的單點擦寫10000次,32nm就只有5000次左右,而最新的25nm單點3000次不到。

性能提升的同時也就意味著可靠性的下降,這實在是一個兩難的選擇。

雖然能夠通過軟件能力提升擦寫和磨損均衡算法,但這幾代SSD產品的壽命提升并不明顯。不過制程提升,容量也大幅度提升,用戶可以通過冗余更多空間來換取壽命,但這也并非是解決非結構化數據的最好辦法。

阿里巴巴運維部高級DBA張瑞表示,如果一套系統,雖然設計了RAID,但是壞盤后,重建需要十多個小時,而且整個系統的性能降級非常明顯,用戶是根本無法接受的,所以在考慮系統架構上不要總是從最好的方面考慮,而是應該從最差的情況考慮。

他表示,從某種意義上而言,重新設計新的系統,很重要的考慮因素需要考慮壞盤、壞節點、壞路徑對系統的影響,而且還要考慮損壞后,如何快速恢復。

顯然,處理結構化數據最好的選擇依然是RAID,畢竟RAID技術因更大容量硬盤、更便宜的穩定性硬盤深受用戶喜愛。但是對于非結構化數據而言,當存儲服務器里面的磁盤越來越多,容量越來越大后,目前的RAID卡技術也許真的不太適合了,一個好的非結構化數據存儲架構將能夠提供非常大的I/O吞吐量,也就是傳輸帶寬。必然的趨勢是,非結構化數據處理使用分布式計算的方式將會越來越多。

RAID不會以任何方式消亡,但是對新一代磁盤和新一代的存儲不斷增長的需求正在開放新的擴展磁盤保護的新方法去超越RAID。RAID或許仍然是數據保護一個重要的部分,但是它將可能會是其他技術的補充。

未來的商業智能——混合數據的需求

對一個企業而言,非結構化數據用于BI(商業智能)的目的不僅僅是分析數據,更多的的企業希望的是將結構化與非結構化數據相結合進行分析,企業希望能夠分析各種各樣的數據流:比如混合數據。

從傳統的數據倉庫來看,他們對非結構化數據的支持非常好。因此,數據倉庫新興的架構體系觀點是:將非結構化數據存儲在像Hadoop這樣的分布式架構中,并對這些數據做基本的分析工作。最后創建摘要信息傳遞到正在使用的數據倉庫做進一步分析,企業還可以通過直接合并兩個不同的環境或通過例如Hadoop中聯合查詢的方式實現。

但現實的問題是傳統的BI工具不支持在同一查詢中分析查找結構化和非結構化數據。相反,你必須使用MapReduce或其他一些基于SQL的工具。

然而這并不意味著不存在合適的可同時處理結構化和非結構數據的工具。例如Endeca Latitude和CXAIR都支持結構化和非結構化數據的混合查詢功能。

這兩種產品實現的方法不同,但基本理念相同。就是從非結構化數據中提取結構,然后直接結合結構化數據。這兩款產品都非常容易使用。而且允許用戶集中瀏覽數據,而不僅僅是產生報告。

目前來看,這兩家廠商在自己的市場方針上還是不同的。具體來說Latitude主要開發分析應用程序,支持混合數據的瀏覽。而CXAIR則更傾向于傳統BI市場。

但似乎兩個廠商都沒有一個好的解決方案可應對所有混合數據所帶來的問題。

共同點是,他們都明確選擇倉庫存儲體系結構。毫無疑問,內置Endeca和Connexica技術并具有處理非結構化數據功能是BI領導廠商所必需具備的。

分布式架構將是最終的選擇

對于大型組織而言,處理非結構化數據的能力的確是有必要的,但對于較小規模的公司,潛在的問題是這一解決方案成本過高。

云數據庫能否克服多年來一直困擾傳統數據庫的擴展性和性能的問題。照目前的情況來看,為了獲取云數據庫的數據,需要求數據管理技術在一個集中的位置存儲數據庫中的所有數據。除此之外,還有一個嚴重的限制,就是傳統數據管理技術在管理非結構化數據帶來的問題。

一種替代方法是將數據存儲在數據倉庫,例如Teradata的Aster Data或EMC的Greenplum,他們支持原生MapReduce提供的所有功能。但是如果嘗試這樣做的話會遇到擴展性的問題。

而分布式計算則好地解決了擴展性的問題,因此目前幾乎所有的數據倉庫、數據分析廠商都開始宣布支持以Hadoop或Mapreduce為代表的分布式技術,這也是必然之選(但是所有的商業化的數據倉庫軟件都是價格不菲)。

當然,對企業而言,另一個挑戰在于作出重大改變來應對新的挑戰,而這些改變包括新架構部署的費用,提高監管能力和日益復雜的IT基礎設施。

在云計算的架構里,服務器或存儲設備將不可避免的比現在更加分散,這帶來數據管理,分布式設計和性能的挑戰。例如,一個數據庫管理系統,可以查詢分布在跨越多個地理位置上的數據中心的分布式數據,這是云計算普及中企業會遇到的一個新問題。

傳統的數據庫管理系統不能滿足云數據庫管理系統的需求。集中式的架構大部分是40年前設計的。這阻礙了他們被有效的分布式的存儲在數據中心之中。為了滿足云數據庫管理系統的最關鍵的特性,需要一個分布式的對等架構。

企業需要數據管理的技術,可有效的獲取任何格式的數據,并分布在全球網絡的任何地方。無需上傳或下載大量的數據在互聯網上,這將是未來對云計算網絡的基本要求。

標簽:

成都網站設計公司 成都網站建設公司 成都網站制作公司 成都網站設計 成都網站建設 成都網站制作  成都精品網站制作成都精典網站制作 成都精品網站設計

網站名稱:【成都網站設計】構化數據——RAID模式已過時
標題鏈接:http://vcdvsql.cn/news1/180051.html

網站建設、網絡推廣公司-創新互聯,是專注品牌與效果的網站制作,網絡營銷seo公司;服務項目有網站設計

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

外貿網站建設