今年課工場作為專注于企業(yè)IT崗位人才培養(yǎng)的教育機構(gòu),深度參與本屆賽事,成為賽事支持單位和出題方,有本科生和高職兩道賽題入選題庫。
在過去的一段時間里,有不少高職組同學(xué)向課工場老師咨詢問題。今天呢,課工場為了解決各位同學(xué)的問題,特整理如下:
賽題名稱:基于互聯(lián)網(wǎng)大數(shù)據(jù)的招聘數(shù)據(jù)智能分析平臺
組類: B 高職組
問題1:
項目的大致技術(shù)路線圖是什么樣?
回答:
暫時沒有具體的流程圖,可以確定的是分為幾個階段。首先數(shù)據(jù)收集,將數(shù)據(jù)導(dǎo)入到大數(shù)據(jù)平臺中,待使用。在這之前要準(zhǔn)備好大數(shù)據(jù)環(huán)境,之后通過hive進行數(shù)據(jù)處理,和數(shù)據(jù)分析。最后將處理好的數(shù)據(jù)放入hbase或其他數(shù)據(jù)庫待使用。通過應(yīng)用去訪問數(shù)據(jù),進行數(shù)據(jù)展示,應(yīng)用可以是web界面或者其他的數(shù)據(jù)展示手段。
問題2:
分析是否需要用MapReduce啊?
回答:
建議直接使用hive
問題3:
分析是否需要用MapReduce?
回答:
建議直接使用hive
問題4:
web除了要用圖表展示出來,還有其他要求嗎?
回答:
沒有其他要求
問題5:
是否用做爬蟲去抓取數(shù)據(jù),直接對EXCEL里面數(shù)據(jù)表經(jīng)行處理,然后導(dǎo)入到數(shù)據(jù)庫中
回答:
對,可以不用做爬蟲,可以先對數(shù)據(jù)做處理,然后導(dǎo)入到大數(shù)據(jù)環(huán)境中,也可以導(dǎo)入數(shù)據(jù)之后再做處理。
問題6:
未處理的數(shù)據(jù)必須要放入hbase然后用Hive處理嗎 ,這個數(shù)據(jù)庫可以是MySQL嗎,然后用其他編程語言處理,例如PHP、Node.js、Java操作數(shù)據(jù)庫處理呢
回答:
大數(shù)據(jù)環(huán)境不限于hbase,可以放到hdfs中,數(shù)據(jù)分析必須使用大數(shù)據(jù)技術(shù),這是我們主要考核之一,推薦用hive,當(dāng)然你寫map reduce 也可以,可以用java。
問題7:
那個linux機器能用3臺以上不?
回答:
可以,但是一般搭三個節(jié)點就夠了,因為hadoop集群橫向擴展比較簡單
問題8:
搭建hadoop環(huán)境,對linux選擇系統(tǒng)有限制嗎?烏邦圖或Centos都行?
回答:都可以;
問題9:
賽方提供的數(shù)據(jù)都是it行業(yè)的嗎?還是。。。
回答:
得自己分析這些數(shù)據(jù)
問題10:
還有就是,是否允許加入一些自己爬取的數(shù)據(jù),如果允許,有什么要求嗎?
回答:
不允許使用自己的數(shù)據(jù)
問題11:
還有就是,賽方要求了用hdfs/hbase存儲,hive清洗過濾,將分析結(jié)果保存到Hbase中,也就是說,要把結(jié)果分析出來然后存下來,查詢的時候直接調(diào)對嗎?
回答:對
問題12:
對計算框架有什么要求嗎?
回答:
計算框架建議使用hadoop平臺。使用hive完成數(shù)據(jù)分析
以上就是課工場為各位同學(xué)整理的基于互聯(lián)網(wǎng)大數(shù)據(jù)的招聘數(shù)據(jù)智能分析平臺相關(guān)問題,希望能夠幫助到大家!
推薦閱讀: