賽題名稱:基于互聯(lián)網(wǎng)大數(shù)據(jù)的招聘數(shù)據(jù)智能分析平臺(tái)
組類: B 高職組
賽題簡(jiǎn)介:介紹整個(gè)賽題的思路和整體要求
隨著互聯(lián)網(wǎng)大數(shù)據(jù)的發(fā)展,招聘行業(yè)的數(shù)據(jù)分析任務(wù)也亟待大數(shù)據(jù)技術(shù)來(lái)實(shí)現(xiàn)。
本題要求參賽選手實(shí)現(xiàn)一整套自動(dòng)化、基于大數(shù)據(jù)平臺(tái)的招聘數(shù)據(jù)分析系統(tǒng)。從數(shù)據(jù)收集、數(shù)據(jù)分析、數(shù)據(jù)展示這三個(gè)方面實(shí)現(xiàn)。
在數(shù)據(jù)收集階段,參賽者需要對(duì)指定的數(shù)據(jù)完成大數(shù)據(jù)采集。
數(shù)據(jù)分析階段,要求參賽者使用大數(shù)據(jù)處理技術(shù)實(shí)現(xiàn)。
數(shù)據(jù)展示階段,數(shù)據(jù)可視化要求不限,可以使用任何數(shù)據(jù)可視化工具或者web頁(yè)面進(jìn)行展示。
賽題業(yè)務(wù)場(chǎng)景:描述賽題相關(guān)的真實(shí)企業(yè)業(yè)務(wù)背景。從真實(shí)場(chǎng)景中,適當(dāng)簡(jiǎn)化或者提煉出適合比賽的賽題場(chǎng)景
當(dāng)今互聯(lián)網(wǎng)行業(yè)技術(shù)發(fā)展日新月異,新的技術(shù)新的熱點(diǎn)層出不窮。為了實(shí)時(shí)了解互聯(lián)網(wǎng)行業(yè)最新最熱的技術(shù)、最火熱的崗位、薪資最高的崗位、各個(gè)崗位對(duì)具體的技術(shù)要求等等信息,這時(shí),光靠人工收集并采用普通的方式進(jìn)行分析十分浪費(fèi)人力物力,并且效率和體驗(yàn)都不好。開發(fā)一套基于大數(shù)據(jù)的招聘數(shù)據(jù)分析系統(tǒng)顯得尤為重要。
該系統(tǒng)具體有如下需求:
賽題將提供招聘數(shù)據(jù)集,首先需要將數(shù)據(jù)集導(dǎo)入到大數(shù)據(jù)環(huán)境中。
在數(shù)據(jù)庫(kù)中保存已經(jīng)做好數(shù)據(jù)清洗、分析之后的數(shù)據(jù),可以很方便的被其他程序調(diào)用。
在可視化界面/web頁(yè)面中監(jiān)控結(jié)果,如“機(jī)器學(xué)習(xí)所要求掌握的前10個(gè)重要技能”,“平均薪資前五的職位名稱”等等。
功能性需求
工程部分:
數(shù)據(jù)收集階段:
搭建大數(shù)據(jù)運(yùn)行環(huán)境,要求提供簡(jiǎn)要的運(yùn)行環(huán)境描述說(shuō)明。
賽題將提供6份招聘數(shù)據(jù)集,需要將數(shù)據(jù)全部導(dǎo)入到大數(shù)據(jù)環(huán)境中(hdfs\hbase)。導(dǎo)入方法不限,大數(shù)據(jù)存儲(chǔ)可使用hdfs或者h(yuǎn)base。要求提供數(shù)據(jù)導(dǎo)入方法的詳細(xì)說(shuō)明或相關(guān)代碼。
導(dǎo)入大數(shù)據(jù)環(huán)境中的數(shù)據(jù)要按字段保存,不能出現(xiàn)數(shù)據(jù)保存混亂的情況。
數(shù)據(jù)分析階段:
通過(guò)大數(shù)據(jù)技術(shù)Hive對(duì)數(shù)據(jù)進(jìn)行清洗、過(guò)濾。清洗和過(guò)濾的要求如下:
①將缺少關(guān)鍵數(shù)據(jù)字段值(數(shù)據(jù)為空或值為null)的數(shù)據(jù)過(guò)濾掉,關(guān)鍵數(shù)據(jù)字段為:job_info,job_name。
②無(wú)效數(shù)據(jù)過(guò)濾,將job_name中包含“實(shí)習(xí)”的數(shù)據(jù)過(guò)濾掉。
招聘數(shù)據(jù)分析:
統(tǒng)計(jì)各職位(以job_tag字段作為職位劃分依據(jù))所需掌握的前10位技能點(diǎn)。統(tǒng)計(jì)某職位前10位技能點(diǎn)需求的方法如下(以“機(jī)器學(xué)習(xí)”職位為例):
①獲取所有job_tag的值是“機(jī)器學(xué)習(xí)”的招聘數(shù)據(jù)。
②對(duì)其崗位描述(job_info)進(jìn)行分詞操作。
③過(guò)濾分詞后的數(shù)據(jù),將所有非技術(shù)詞從數(shù)據(jù)中過(guò)濾掉。技術(shù)詞與非技術(shù)詞的認(rèn)定需要由參賽者自行確定。
④統(tǒng)計(jì)過(guò)濾后的所有技術(shù)詞的出現(xiàn)次數(shù),保留前10個(gè)出現(xiàn)次數(shù)最高的技術(shù)詞及出現(xiàn)次數(shù)。
⑤將分析結(jié)果保存到Hbase中。
數(shù)據(jù)展示階段:
使用數(shù)據(jù)可視化工具以圖表的形式展示各職位前10位的技能點(diǎn)需求排名和技術(shù)詞出現(xiàn)的次數(shù)。排列順序按照次數(shù)從高到低排列。
展示形式不限,要求圖表易懂易解釋,可視化精美是加分項(xiàng)。
非功能性需求
自由發(fā)揮的部分:
數(shù)據(jù)分析階段可以對(duì)更多維度進(jìn)行分析,例如,職位的數(shù)量、職位地區(qū)的發(fā)布數(shù)、職位薪資等。(加分項(xiàng))
開發(fā)web頁(yè)面,提高用戶查詢可視化分析結(jié)果時(shí)的可交互性和易用性。(加分項(xiàng))
其他限制條件:開發(fā)環(huán)境、實(shí)驗(yàn)平臺(tái)、開發(fā)語(yǔ)言、數(shù)據(jù)庫(kù)、編譯器等限制條件(請(qǐng)盡量明確)
開發(fā)環(huán)境:
安裝Hadoop開發(fā)環(huán)境,安裝Hive\Hbase用于數(shù)據(jù)保存和分析。
3.使用hdfs文件系統(tǒng)或hbase數(shù)據(jù)庫(kù)作為存儲(chǔ)數(shù)據(jù)的平臺(tái)。
4.使用hive完成數(shù)據(jù)清洗、過(guò)濾、分析。
5.web頁(yè)面和數(shù)據(jù)可視化工具不限。
測(cè)試數(shù)據(jù)或平臺(tái):提供給參賽者的測(cè)試環(huán)境和測(cè)試數(shù)據(jù)。(可提供電子檔)
數(shù)據(jù)源:
賽題提供數(shù)據(jù)集總共分為6份,jobs1.csv~jobs6.csv。
數(shù)據(jù)集字段相同,主要字段解釋如下:
company_financing_stage:公司融資階段
company_industry:公司所在行業(yè)
company_location:公司地址
company_name:公司名稱
company_nature:公司性質(zhì)
company_overview:公司概況
company_people:公司人數(shù)
job_edu_require:職位學(xué)歷要求
job_exp_require:職位經(jīng)驗(yàn)要求
job_info:職位描述信息
job_name:職位名稱
job_salary:職位薪資
job_tag:職位索引標(biāo)簽
job_welfare:職位福利
開發(fā)所需設(shè)備及設(shè)備指標(biāo)需求說(shuō)明
普通個(gè)人計(jì)算機(jī)
Linux服務(wù)器*3或linux虛擬機(jī)鏡像*3搭建Hadoop環(huán)境。
其他要求
提交相關(guān)文檔:
系統(tǒng)設(shè)計(jì)說(shuō)明:詳細(xì)描述軟件的架構(gòu)、設(shè)計(jì)理念等。
程序源代碼:要求包含整個(gè)項(xiàng)目源代碼。
項(xiàng)目文檔:要求說(shuō)明整個(gè)項(xiàng)目代碼應(yīng)該如何配置,如何啟動(dòng)。
視頻演示:要求包含數(shù)據(jù)庫(kù)數(shù)據(jù)和web頁(yè)面展示。
評(píng)分標(biāo)準(zhǔn):
評(píng)分以工程部分的實(shí)現(xiàn)程度和自由發(fā)揮部分的實(shí)現(xiàn)程度兩個(gè)個(gè)方面進(jìn)行。分別占總分值的70分和30分。
工程部分:
1.數(shù)據(jù)收集階段10分(按要求搭建大數(shù)據(jù)運(yùn)行環(huán)境2分;實(shí)現(xiàn)數(shù)據(jù)導(dǎo)入3分;導(dǎo)入結(jié)果正確3分)
2.數(shù)據(jù)分析階段40分(數(shù)據(jù)的清洗、過(guò)濾每個(gè)要求5分;招聘數(shù)據(jù)分析每個(gè)要求6分)
3.數(shù)據(jù)可視化階段20分(選用合適的分析圖展示各職位所需掌握的前10位技能點(diǎn)數(shù)據(jù)10分;分析圖上包含必要的標(biāo)題、圖例、刻度信息等5分;分析圖精美程度5分)
自由發(fā)揮部分:
1.每增加一個(gè)維度的數(shù)據(jù)分析及可視化展示加5分,最多20分。
2.開發(fā)出交互性、易用性強(qiáng)的Web界面,根據(jù)完成情況得分,最多10分。
數(shù)據(jù)下載 提取碼:rgf3
出題企業(yè):北京課工場(chǎng)教育科技有限公司
答疑方式:饒老師 電話:18500867068 郵箱:pai.pin@kgc.cn 答疑QQ群:776190162