互聯網IDC圈1月8日報道,1月5-7日,第十屆中國IDC產業年度大典(IDCC2015)在北京國家會議中心隆重召開。本次大會由中國信息通信研究院、云計算發展與政策論壇、數據中心聯盟指導,中國IDC產業年度大典組委會主辦,互聯網IDC圈承辦,并受到諸多媒體的大力支持。
為豐鎮等地區用戶提供了全套網頁設計制作服務,及豐鎮網站建設行業解決方案。主營業務為網站設計、網站制作、豐鎮網站設計,以傳統方式定制建設網站,并提供域名空間備案等一條龍服務,秉承以專業、用心的態度為用戶提供真誠的服務。我們深信只要達到每一位用戶的要求,就會得到認可,從而選擇與我們長期合作。這樣,我們也可以走得更遠!中國IDC產業年度大典作為國內云計算和數據中心領域規模大、最具影響力的標志性盛會,之前已成功舉辦過九屆,在本屆大會無論是規格還是規模都"更上一層樓",引來現場人員爆滿,影響力全面覆蓋數據中心、互聯網、云計算、大數據等多個領域。
日志易首席執行官陳軍出席IDCC2015大會并在大數據應用與安全技術論壇發表主題為《IT運維分析與海量日志搜索》的精彩演講。
日志易首席執行官陳軍
以下為陳軍演講實錄:
陳軍:我今天講的是IT運維分析與海量日志分析,今天是IDC大會,很多數據需要分析,IT設備需要做運維。我分這幾部分講,什么叫IT運維分析,IT運維是個比較新的東西,日志的應用場景、過去及現在的做法、日志搜索引擎、日志易的產品。
過去做IT運維都講IT運維管理,IT運維管理做了很多年了,也非常成熟,隨著前幾年大數據技術的興起,大家開始把大數據技術應用到IT運維上面做分析,就產生了IT運維分析,把大數據技術用在IT運維分析上的目的是提高數據質量和效率。可用性監控、應用型能監控、故障根源分析、安全審計。權威的調查機構Gartner估計,到2017年15%的大企業會積極使用ITOA,2014年這個數字只有5%,不管5%還是15%,是比較低的比例,ITOA是新出現的東西,正在被市場逐步接受。
ITOA把大數據的技術用在運維數據的分析上,數據的來源就非常重要,ITOA的數據來源主要是四方面:
第一是機器數據,服務器、網絡設備產生的數據,其實就是日志。
第二是通信數據,現在網絡已經非常普遍了,后臺的設備很多都是大型的分布式系統,都有網絡的通信,網絡通信過去通過網絡抓包,通過流量分析應用的情況。網絡抓包、流量分析的這類數據又是Wire Data。
第三是代碼級別進行統計分析的,像PHP、JAVA這些字節碼來插入統計分析的代碼,統計它的函數調用情況、堆站的使用情況,從代碼級別來進行統計分析,更加精細化的統計化分析,這是代理數據。
第四是探針數據,國內已經有些公司在做這個事情,全國的用戶訪問IDC的延時是多少,得在全國布點,發起模擬用戶的請求探測,進行端到端延時的度量。美國有一家做ITOA的公司,他們做了一個用戶調查,四種數據來源使用情況,日志的使用比例非常高,占86%,網絡抓包占93%,插入代碼代理數據是47%,探針數據是72%。日志跟網絡抓包占的比例非常高,占到了百分之八九十,插入代碼占不到50%,探針大概是70%。
日志無所不在,所有服務器、網絡設備、應用系統都會產生日志,但是日志的覆蓋面非常廣,日志也有它的特點,不同的應用輸出的日志完整性跟可用性不同,因為輸出太多日志會降低應用的性能,會關閉一些級別低的日志,只輸出級別最高的。輸出的日志有多少,數據的完整性有差別。通信數據,網絡抓包,從網絡流量統計的信息也是非常全面的,但是它也有它的局限性,有一些事件未必觸發網絡通信,如果沒有觸發網絡通信的話就不會產生網絡流量,就沒辦法抓這些包進行統計。
探針數據,是模擬用戶請求,好處是端到端監控,可以從手機訪問到服務器端到端的延時,但它的問題不是真實的用戶度量,前幾年已經開始講一個概念,真實的用戶度量,我們希望度量到用戶真正的延時情況,而不是模擬的。移動應用廠商像騰訊、百度他們已經有數以億計的終端用戶,他們可以直接在他們的手機應用端做真實的用戶度量,可以看到真實用戶的訪問情況。2008年汶川地震的時候騰訊QQ客戶端實時監測到汶川地區用戶QQ掉線,馬上知道那里發生了事故,要么是IDC事故,要么是網絡的事故,所以可以做真實的網絡度量。
日志學術性的說法是時間序列機器數據,為什么叫做時間序列機器數據?因為它是帶時間戳的機器數據,它是機器產生的,網絡設備、服務器產生的。第二它是帶時間戳的,日志包含了IT系統非常多的信息,服務器、網絡設備、操作系統、應用軟件,甚至包括用戶的信息、業務的信息。日志反映了事實數據,美國有個很出名的公司叫影音(音),做職業社交,他的一名工程師寫了一篇非常出名的文章,每一個軟件工程師都應該知道實時數據統一的抽象的信息,也有中譯版,深度解析Linkedin大數據平臺,所有對日志感興趣的工程師可以好好看下這篇文章,這篇文章講的就是日志是一個企業里最真實的數據,不管是數據中心還是企業里發生的一切日志都會記錄下來,通過統計分析這個日志,不同系統之間的通信也可以通過日志來傳輸這個信息。大數據領域有比較開源的軟件Kafuka,當年發明Kafuka的目的就是用來傳輸日志,Kafuka也是做日志處理里用的最普遍的消息隊列軟件。
先看一下Apache日志,這是一條Apache日志,它是文本信息,如果不是專業的運維工程師經常看日志的話,大家看到這個會像看天書,不知道是什么含義,使用日志易這個軟件把日志做結構化,把它從非結構化數據轉成結構化數據得出來的信息。一條日志包含的信息非常多,從這里面統計分析的話會得出多有價值的信息。日志可以用到哪些場景?一個是運維監控,IDC需要進行運維監控,保證系統的可用性,如果出現故障了,能夠及時追溯故障根源,及時知道問題。應用性能監控,主要是知道性能的情況,你的網站是不是慢,為什么慢,慢在哪里,這方面屬于應用性能監控。數據中心里還有一條很重要的就是安全,要保證數據中心的安全,防止黑客的入侵。這可以用在安全審計方面,主要是安全信息事件管理、合規審計、發現高級持續威脅APT,APT現在也是比較熱門的話題。做APT的發現得通過日志、流量,全方位360無死角地進行監控。
日志用在業務和用戶數據分析上。過去的做法是日志沒有集中管理,散落在各臺服務器上,事后出了問題就登錄到各臺服務器上用腳本命令,用VI去查看日志,有一些水平高的運維工程師用AWK寫一些腳本分析程序去分析日志,這樣的做法也有問題,因為登錄到各臺服務器,這些服務器都是生產服務器,一不小心的誤操作可能就會導致事故。日志被刪除,一個是磁盤滿了,日志就被覆蓋了,另外運維工程師把日志當做垃圾,看到磁盤快沒了首先做的事情就是刪除日志,刪除日志之后如果事后發現有些措施或者故障需要分析需要追溯又找不到日志了。黑客入侵之后,聰明的黑客第一件事就是刪除日志,因為日志記錄了他入侵的痕跡,他刪除日志就可以把他入侵的痕跡磨除掉。
系統出現故障的時候日志會包含信息,我們希望實時地發現這些信息,當日志出現錯誤信息的時候能夠馬上報警,而不是僅僅用在事后的追查上。后來有些公司開始重視日志,他們用數據庫存儲日志,現在是一個比較普遍的做法,但是用數據庫存儲日志有什么問題呢?
數據庫是用來存結構化數據的,日志是非結構化的數據,數據庫有固定的Schema,規定好數據庫的表格是當有新的日志表格過來的時候表格又要改。
我看到有一些做法,為了讓表的格式大限度的靈活化,數據庫就定義了三列,第一列是產生日志的機器IT地址,第二是時間戳,第三是日志本身的信息,把整個日志的文本當做一個字段放到數據庫里,沒辦法針對日志里的信息進行抽取進行分析。數據庫沒辦法適用TB級的海量日志,現在產生的日志越來越多,每臺服務器一天產生幾GB甚至幾十GB的數據,一個數據中心上千臺服務器一天可能產生幾TB的數據,數據庫沒辦法處理來。
一講大數據都離不開Hadoop,Hadoop出來之后大家開始用Hadoop處理日志,首先Hadoop是批處理的框架,不夠及時。用Hadoop處理分析都是今天看昨天的數據,或者是看幾個小時之前的,最快也只能看到幾十分鐘之前的,想看幾秒鐘之前的Hadoop是做不到的。所以Hadoop基本是用來做數據的離線挖掘,沒辦法做在線數據分析。后來又開始出現Storm、Spark,但這些都是使用框架,我們希望有個東西拿來就可以用。后來出現NoSQL,但沒辦法全文檢索,我們希望對日志進行實時的搜索分析,需要有一個搜索分析引擎,要有幾個特點,一是快,日志從產生到分析出結果只有幾秒的延時,二是大,每天處理TB級的日志量。三是靈活,Googlefor IT,可搜索、分析任何日志。FastBig Data,除了大之外還要快。
日志管理系統的進化,日志1.0數據庫,日志2.0是用Hadoop或NoSQL處理,現在到了日志3.0,實時搜索引擎,FastBig Data。可編程的日志實時搜索分析平臺,跟谷歌、百度的搜索引擎非常相似,有搜索框,但這個搜索框又比谷歌、百度更復雜,它定義了很多搜索處理語言。比如有管道符,還有各種命令,可以在搜索框里進行非常復雜的分析。它可以接入各種來源的數據,包括日志文件、數據庫、恒生電子交易系統。有企業部署版和SaaS版,SaaS版處理每天500MB日志是免費的。
可以搜索、告警、統計,配置解析規則,識別任何日志,安全攻擊自動識別,開放API,對接第三方系統。高性能、可擴展分布式。我們看一下案例,中國平安,使用日志易之前,逐臺登陸服務器,無法集中查看日志,無法對海量數據進行挖掘、用戶行為分析,日志查詢方法比較原始,只能less、grep和awk等常見的Linux指令,無法多維度查詢。無法進行日志的業務邏輯分析和告警。使用日志易之后,接入60多個應用的日志。
另外一個案例是山東移動,分析營業廳營業員做業務辦理的web請求日志。聚合出每個營業員每項業務的詳細操作步驟,對每個步驟的操作時長進行告警、統計分析,這里用到搜索處理語言,這是一條搜索處理語言,這是搜索這個字段,字段后包含了文本信息,這里是一個管道符,通過這個管道符把事務命令串起來,搜索完了進行事務的處理,一筆事務有起始的,對事物的關聯通過ID進行,關聯之后一筆事務有開始有結束,開始查詢作為開始提交作為結束,最長的時間跨度不會超過30分鐘,超過30分鐘就不去處理了,這樣就把每一筆事務都關聯起來。這就是分析出來的結果,每一筆繳費業務的結果統計分析出來。
還有一個案例是國家電網,做信息安全與事件管理。終端信息安全事件日志的調查、分析、取證,在各省分公司信息安全事件現場使用,快速排查日志里保留的證據,為事件取證提供支持。客戶已經有中國平安、國家開發銀行、中國移動、國家電網、小米開放平臺、樂視網、有利網這些用戶。
我今天的介紹就到這里,歡迎關注我們的公眾號。
本文題目:陳軍:IT運維分析與海量日志搜索
文章出自:http://vcdvsql.cn/article12/chijgc.html
成都網站建設公司_創新互聯,為您提供營銷型網站建設、云服務器、外貿網站建設、搜索引擎優化、App開發、網站建設
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯