要活化大數據,除了報表統計外,還需要對資料的有很強的解讀能力。電商中的個性推薦技術,商業與銀行中的欺騙檢測,智慧手機中語音辨識等等技術,讓我們渾身便散發出大資料與機器學習的各種場資訊,給人以滿滿的正能量。

  • 數據場

學過物理的小夥伴,都知道世界充滿了電場和磁場。瞭解過佛學的人,都知道世界充滿了念力場與資訊場,通過資訊場,可以與更高一級的文明進行溝通。

有的人一出現,渾身便會散發出強大的氣場。現在是資料時代,整天和數據打交道,要培養自己的資料場。開句玩笑的話,以後往人群中一站,還未開口,渾身便散發出大數據與機器學習的各種場資訊,給人以滿滿的正能量。

說起「大數據」一詞,也是真正被吵夠了。連做個簡單的統計也叫大數據,做個表格、畫個圖形出來,就叫大數據了。凡是不和「大數據」沾邊,就感覺已經落伍了。其實,很多人除了知道簡單的統計外,根本不瞭解大數據是什麼。甚至連 Hadoop 都不知為何物,更別談機器學習了。

大數據是一個概念也是一門技術,是在以 Hadoop 為代表的大數據平臺框架上進行的各種資料分析技術。包括了即時資料處理、離線資料處理;還包括了資料分析,資料採擷,和用機器學習演算法進行預測分析。

概念吵著吵著就變味了。用「大數據」來代表一切,有些不太合理。目前比較合適的一個詞是資料科學(Data Science),做資料科學的可以叫資料科學家。當然真正到科學家這個級別,要求是非常高的,需要有完整的資料知識體系。

也許小時候的夢想就是當科學家,現在終於不用上博士就可以實現了。雖然很多都只是自己團隊或者公司封的職位。接下來,可以看看,在數據方面上,大概有哪些職位。

  • 數據職位

限於個人的閱歷與認識,在此只是列舉其中一部分出來。

開發相關

主要有資料抓取,也即通常說的網路爬蟲。需要考慮資料抓取的即時性與完整性,還有資料及時更新,資料去重等等。嚴格來說,和通常意義上的大資料相關性不大,主要是後端開發的一系列技術,其中也會涉及分散式的一些技術。

ETL 開發,ETL 為 Extract、Transform 和 Load 的縮寫,即資料抽取,轉換與裝載。將各種來源的資料進行收集、規範和存儲起來。可以是離線的方式,存儲在以 Hadoop 為代表的大資料集群中。也可以是即時的展現在報表系統中。如果是即時的,也叫即時資料流開發,通常和 Storm 框架或者 Spark Streaming 技術相關。

Hadoop 平臺開發,專指以大資料框架為基礎,並在此基礎上進行二次開發或者資料流程開發。對資料平臺做開發與改進,只能是程式師的工作了,根據業務需求,對現有的平臺進行改進與優化。因為是平臺相關的,通常需要 Java 與 Scala 的專業程式師,這塊和資料分析基本沒有太大關係。

另外還有純前端的資料視覺化技術開發,或者純運維的大資料集群管理等等。

報表分析

商業智慧分析,包括報表分析,運營或者銷售分析,這一塊以 Excell、SPSS 和 R 為代表。主要是指對針對具體業務,對現有的資料進行統計分析,期待從中發現一些規律與趨勢。

資料分析報表,也是最常用的資料分析師職位的一些工作,通常產出以報表為主。這塊很多時候會與運營部門的需求相關,技術上主要以成熟的工具為主。

當資料量一大,就會涉及在集群環境下的分析,分析師通常很熟悉 SQL,這也是構建於 Hadoop 之上的 Hive 能被大眾熟悉的原因。

除了報表統計外,還需要對資料的有很強的解讀能力,能分析和解讀出一些現象產生的原因,同時需要針對這些問題,提出一些可能的應對方案,以便對業務策略或者商業方向上有更多的指導。

一些專業領域分析,如網路安全分析,金融領域分析。這些領域的分析,通常需要用領域知識,深入現象背後去挖掘出產生的原因,不僅要具有很強的分析能力,也需要很強的領域知識。

  • 演算法挖掘

做為資料科學中的重頭戲,便是資料採擷和機器學習了。線上電商中的個性推薦技術,商業與銀行中的欺騙檢測,智慧手機中語音辨識(Siri),機器翻譯,圖像識別等等。

涉及大量機器學習演算法,包括分類、聚類和個性推薦等常用資料採擷技術。也包括資料分析的很多基礎,和資料分析偏重的報表產出並不同,並不強調產出大量的報表,通常是在現有資料基礎上的產出新資料,用於服務業務系統。

還可以推廣到人工智慧,其中涉及大量的資料處理與挖掘技術。比如機器人,無人駕駛,總之是儘量的在某些領域達到或者超過人類。人類能處理如下內容:

Number: 數據(數)

NLP: 自然語言處理(文字)

Pic: 影像處理(圖片)

Voice: 語音辨識(語音)

Video: 視頻處理(視頻)

個性推薦: (集體智慧與社交化)

其中會用到大量的機器學習演算法,包括深度學習,從而達到服務人類的目的。

  • 生態與周邊

關於資料的統計、分析與挖掘,這些概念的側重點不一樣。資料統計,利用統計學的知識,產出資料和報表;資料分析,除了產出資料和報表外,還需要分析其中原因,最好能找出對應的策略;資料採擷,需要在資料分析的基礎上,發現新的,有價值的知識及潛在的規律。如果只是對原有的資料進行統計分析,而沒有對未知的事物進行預測,是不算資料採擷。

資料相關的職位各種各樣,我們要構建資料場時,抽取其中的各種技能出來,組成自己的技能表。最近讀到一篇文章:《機器學習職位需要的七個關鍵技能》()(),文章描述了機器學習需要的七個技能,以及需要這些技能的原因,主要技能如下:

程式設計語言 (Python/C++/R/Java);

概率與統計;

應用數學與演算法;

分散式運算;

Unix/Linux 工具集;

高級信號處理技術 (特徵提取);

大量閱讀,適應快速變化,更新自己;

Reference: http://buzzorange.com/techorange/2016/03/31/big-data-job-1/ 

 

 

 

文章標籤
創作者介紹

BENEVO台灣部落格 之 科技應用。創新與分享

BENEVO 發表在 痞客邦 PIXNET 留言(1) 人氣()


留言列表 (1)

發表留言
  • 悄悄話
找更多相關文章與討論