大數據能夠進行數據變現的商業模式目前就是兩個,一個是精準營銷,典型的場景是商品推薦和精準廣告投放,另外一個是大數據風控,典型的場景是互聯網金融的大數據風控。以下是小編為你整理的學大數據如何學 ?
金融的本質是風險管理,風控是所有金融業務的核心。典型的金融借貸業務例如抵押貸款、消費貸款、P2P、供應鏈金融、以及票據融資都需要數據風控識別欺詐用戶及評估用戶信用等級。
傳統金融的風控主要利用了信用屬性強大的金融數據,一般采用20個緯度左右的數據,利用評分來識別客戶的還款能力和還款意愿。信用相關程度強的數據 緯度為十個左右,包含年齡、職業、收入、學歷、工作單位、借貸情況、房產,汽車、單位、還貸記錄等,金融企業參考用戶提交的數據進行打分,*得到申請人 的信用評分,依據評分來決定是否貸款以及貸款額度。其他同信用相關的數據還有區域、產品、理財方式、行業、繳款方式、繳款記錄、金額、時間、頻率等。普惠在線 ?
互聯網金融的大數據風控并不是完全改變傳統風控,實際是豐富傳統風控的數據緯度。互聯網風控中,首先還是利用信用屬性強的金融數據,判斷借款人的還 款能力和還款意愿,然后在利用信用屬性較弱的行為數據進行補充,一般是利用數據的關聯分析來判斷借款人的信用情況,借助數據模型來揭示某些行為特征和信用 風險之間的關系。 ?
互聯網金融公司利用大數據進行風控時,都是利用多維度數據來識別借款人風險。同信用相關的數據越多地被用于借款人風險評估,借款人的信用風險就被揭示的更充分,信用評分就會更加客觀,接近借款人實際風險。 ?
大數據的門檻是怎樣的 ?
數據科學家:數據科學家傾向于用搜索數據的方式來看待周圍的世界,把大量散亂的數據變成結構化的可供分析的數據,還要找出豐富的數據源,整合其他可能不完整的數據源,并清理成結果數據集,新的競爭環境中,挑戰不斷的變化,新數據不斷的流入,數據科學家需要幫助決策者穿梭于各種分析,從臨時數據分析到持續數據交互分析。當他們有所發現,建議新的業務方向。他們很有創造力的展示視覺化的信息,從而影響產品,流程和決策。 ?
大數據工程師:分析歷史,預測未來,優化選擇,這是大數據工程師在玩數據時最重要的三大任務。通過這三個工作方向,幫助企業做出更好的商業決策。大數據工程師是一個很重要的工作,就是通過分析數據找出過去事件的特征。通過引入關鍵因素,大數據工程師可以預測未來的消費趨勢。 ?
數據分析師:與傳統的數據分析師相比,互聯網時代的數據分析師面臨的不是數據匱乏,而是數據過剩,因此,互聯網時代的數據分析師必須學會借助技術手段進行高效的數據清理。更為重要的是,互聯網時代的數據分析師不斷在數據研究的方法論方面進行創新和突破。 ?
分情況來說:就行業來說,數據分析師的機制類似,無論在任何時代,媒體運營者能否準確詳細和及時地了解受眾情況和變化趨勢。都是成敗的關鍵。 ?
針對大數據的開源包 ?
Precog:Precog提供了一項服務Labcoat,它是一個交互式的開發環境,可以用來編寫基于開源的Quirrel(由Precog實現的統計查詢語言,Quirrel很多方面都與R編程語言比較相似)查詢語言的分析工作,該集成開發環境包含了一個語言學習教程以及一些復雜的函數。Precog的COO告訴Derrick,即使沒有任何編程經驗的人也能在幾個小時內學會操作。
?
Precog可http://m.fulinmenst.com/m/contact.aspx?FId=n7:7:7以從各種數據源抓取輸入數據,其中包括SQL數據庫、Amazon S3、Hadoop、MongoDB、客戶端Web應用和后端服務器等。RESTful API支持開發者從外部源(如Twitter或Facebook)、CSV文件或移動設備抓取數據。抓取的數據保存到一個叫做PrecogDB的定制數據庫中,而且還可以使用人群統計、態度、位置和其他信息,使數據更為豐富。在一次采訪中,Precog的CEO和創始人John A.De Goes解釋到:“系統的架構與數據庫分析有些相似,比如都包括面向列的存儲。但是其區別在于:前者支持完全異構的、非規范化的數據,通過對Quirrel的支持,相對于使用RDBMS進行分析,使用這種類似于“面向大數據的R”的語言,能夠很方便地執行很多更為高級的計算。” ?
ez(DAG計算模型) ?
Tez是Apache*開源的支持DAG作業的計算框架,它直接源于MapReduce框架,核心思想是將Map和Reduce兩個操作進一步拆分, ?
即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等, ?
這樣,這些分解后的元操作可以任意靈活組合,產生新的操作,這些操作經過一些控制程序組裝后,可形成一個大的DAG作業。 ?
目前hive支持mr、tez計算模型,tez能完美二進制mr程序,提升運算性能。 ?
Spark(內存DAG計算模型) ?
Spark是一個Apache項目,它被標榜為“快如閃電的集群計算”。它擁有一個繁榮的開源社區,并且是目前最活躍的Apache項目。 ?
最早Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算框架。 ?
Spark提供了一個更快、更通用的數據處理平臺。和Hadoop相比,Spark可以讓你的程序在內存中運行時速度提升100倍,或者在磁盤上運行時速度提升10倍 ?
Giraph(圖計算模型) ?
Apache Giraph是一個可伸縮的分布式迭代圖處理系統, 基于Hadoop平臺,靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。 ?
最早出自雅虎。雅虎在開發Giraph時采用了Google工程師2010年發表的論文《Pregel:大規模圖表處理系統》中的原理。后來,雅虎將Giraph捐贈給Apache軟件基金會。 ?
目前所有人都可以下載Giraph,它已經成為Apache軟件基金會的開源項目,并得到Facebook的支持,獲得多方面的改進。 ?