在互聯(lián)網(wǎng)圈兒內(nèi)有一號人,他們的存在就像Wi-Fi,在的時候你感覺不到,但要是沒了卻非常著急,他們就是運維。服務(wù)在線上不可用了,找運維;網(wǎng)不好使了,找運維。
運維就是管機器、管網(wǎng)絡(luò)、管服務(wù)的人。運維的發(fā)展分三個階段。
第一階段之手工運維,早期的時候互聯(lián)網(wǎng)發(fā)展的比較緩慢、各網(wǎng)站接入的網(wǎng)民數(shù)量比較少,依靠運維人員手工即可保障業(yè)務(wù)系統(tǒng)的正常運行。
第二階段之自動化運維,這一階段互聯(lián)網(wǎng)開始進入高速發(fā)展階段,依靠手工效率低、成本高,通過對業(yè)務(wù)行業(yè)領(lǐng)域知識和運維場景領(lǐng)域知識的把控來預(yù)定義自動觸發(fā)的腳本來執(zhí)行常見的、重復(fù)性的運維工作。
第三階段之Aiops智能運維,通過機器學(xué)習(xí)算法自動的從海量運維數(shù)據(jù)中不斷的學(xué)習(xí),結(jié)合領(lǐng)域?qū)<业闹笇?dǎo)不斷訓(xùn)練模型,最終通過模型來分析決策,達到智能運維。
Aiops所要實現(xiàn)的目標有五個,即異常檢測、故障預(yù)測、容量規(guī)劃、瓶頸分析、助力運營。而要做Aiops,最基本也最重要的便是數(shù)據(jù),在IT系統(tǒng)中總共會產(chǎn)生五類數(shù)據(jù):機器數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、代理數(shù)據(jù)、探針數(shù)據(jù)。
機器數(shù)據(jù)是IT系統(tǒng)自己產(chǎn)生的數(shù)據(jù),包含客戶端、服務(wù)器、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、應(yīng)用程序、傳感器產(chǎn)生的日志。
網(wǎng)絡(luò)數(shù)據(jù)是網(wǎng)絡(luò)通信過程中產(chǎn)生的數(shù)據(jù)(從數(shù)據(jù)鏈路層到應(yīng)用層產(chǎn)生的數(shù)據(jù)),通過將網(wǎng)絡(luò)端口的數(shù)據(jù)拷貝一份獲取數(shù)據(jù);代理數(shù)據(jù)則是通過在應(yīng)用程序中插入代理程序,獲取應(yīng)用程序中函數(shù)調(diào)用次數(shù)時長、調(diào)用堆棧等數(shù)據(jù);探針數(shù)據(jù)則是通過撥測模擬用戶請求對系統(tǒng)進行檢測獲得的數(shù)據(jù)。通過獲取到用戶產(chǎn)生的瀏覽器/app數(shù)據(jù)(如使用系統(tǒng)版本、運營商、PV、UV)、后端調(diào)用數(shù)據(jù)(如調(diào)用鏈、函數(shù)執(zhí)行堆棧)、網(wǎng)絡(luò)傳輸數(shù)據(jù)(如tcp建鏈時長、網(wǎng)絡(luò)傳送接收包)、基礎(chǔ)設(shè)施數(shù)據(jù)(如cpu、內(nèi)存、磁盤、網(wǎng)絡(luò)),我們便可以全鏈路的從前端到中端再到后端追蹤用戶請求,實現(xiàn)故障的快速定位、影響范圍判斷。
通過對歷史數(shù)據(jù)的分析,可以快速了解系統(tǒng)瓶頸、熱點數(shù)據(jù)、異常事件關(guān)聯(lián)。有了歷史數(shù)據(jù)和當前數(shù)據(jù),我們便可以對未來進行預(yù)測,實現(xiàn)故障預(yù)測、容量預(yù)測、趨勢預(yù)測等,真正的把人解放出來,讓人工智能服務(wù)于生產(chǎn)生活。
AIops雖是良藥,但卻不可盲目追從,需根據(jù)企業(yè)目前情況進行確定,Aiops落地的難點有三個:數(shù)據(jù)獲取與管理、人工智能算法、專家。
對于數(shù)據(jù)獲取,由于中國互聯(lián)網(wǎng)發(fā)展時間還比較短,而且是粗獷式發(fā)展,因此運維監(jiān)控體系是不夠完善的,比如有的企業(yè),沒有任何業(yè)務(wù)監(jiān)控系統(tǒng)或只有部分系統(tǒng)導(dǎo)致采集的數(shù)據(jù)不夠全面,有的企業(yè)監(jiān)控的指標深度不夠?qū)е玛P(guān)鍵指標不能識別從而不能智能分析。
對于數(shù)據(jù)管理,在整個aiops中采集了各種類型的、大量的數(shù)據(jù),這需要系統(tǒng)能夠處理并存儲各種樣式的數(shù)據(jù),還需要提供強大的實時分析搜索能力,需要對數(shù)據(jù)生命周期進行管理,這塊非常具有挑戰(zhàn)。
對于人工智能算法,在智能運維領(lǐng)域常見的算法包括邏輯回歸、關(guān)聯(lián)關(guān)系挖掘、聚類、決策樹、隨機森林、支持向量機、蒙特卡洛樹搜索、隱式馬爾科夫、多示例學(xué)習(xí)、遷移學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)等,隨著技術(shù)的發(fā)展,運維分析將采用越來越先進的機器學(xué)習(xí)算法。在處理運維工單和人機界面時,自然語言處理和對話機器人也被廣泛應(yīng)用。
對于專家,我們可以把其細分為行業(yè)專家(如電商領(lǐng)域、金融領(lǐng)域、教育領(lǐng)域等)、運維專家(熟悉各種運維場景),而這兩方面的人才都是非常匱乏的,只靠人工智能算法去學(xué)習(xí)分析,沒有專家的指導(dǎo)是不足夠的。
運維界把Aiops設(shè)定為解決運維問題的必然方向,現(xiàn)在頭部互聯(lián)網(wǎng)公司如阿里、騰訊、百度、頭條、美團、滴滴等也均在搭建自己的Aiops平臺,通過融合各種 IT 數(shù)據(jù),真正打破數(shù)據(jù)煙囪,對監(jiān)控,自動化、服務(wù)進行支持,使得 IT 能夠更好的支撐業(yè)務(wù),利用大數(shù)據(jù)技術(shù)以及機器學(xué)習(xí)技術(shù),回答以前很多單從業(yè)務(wù)口徑,或者單從 IT 口徑無法回答的問題,加快企業(yè)在競爭激烈的市場環(huán)境中占據(jù)一席之地。
自人工智能打敗阿爾法狗的那天開始,它必定會涉及到我們工作和生活的方方面面,與不同領(lǐng)域擦出不同的火花,關(guān)于現(xiàn)在智能家居、智慧交通、智慧旅游、智能運維等都在快速建設(shè)中,關(guān)于未來,我們充滿信心和期待~