隨著科技發展快速,Synology建議企業應確實掌握內外部資源,才能在與趨勢接軌的同時,發揮企業研發能量的最大值,隨時為企業加值做好準備。
群暉科技 (Synology) 主要的產品是NAS(網路附加儲存設備),目前在全世界主要市場,特別是中小型與家用型NAS市場中,市占率都是第一名。我們也是首個把AI深度學習套用在NAS的儲存廠商,看準用戶對大量影像的分類、管理、儲存需求,加上AI應用逐漸成熟達到商用標準,我們於是決定利用深度學習技術,在即將推出的相片管理程式中打造一套影像辨識系統。
雖然並非一開始就是傳統影像辨識技術的專家,但是由於設定了非常明確的目標,加上借助了產、學界許多既有的資源,因此利用六個月的時間就成功將產品交付市場。目前這個圖像辨識功能在我們Intel ATOM等級的機器最快不到1~2 秒就可以完成人臉、主題與場景的辨識,準確度也從8成起跳,我們很樂於透過以下幾點來分享系統的開發流程與重要關鍵。
關鍵一:確認目標與時程,重新建模
許多台廠在設想AI應用時耗費了大把時間,而我們本來就要打造一個全新的照片管理程式,再加上群暉了解使用者對照片「自動分類」的強烈需求,因此很快就將問題定義好。然而學界盛行的「一張圖片即一個主題」,或是物件定位辨識之類的模型,與我們希望「一張照片辨識出多個主題與物件」的目標有些不同,因此決定透過Transfer Learning方式,將物件與主題辨識任務重新建立模型。
關鍵二:運用現有人才資源,兩星期組建團隊
由誰來開發模型?AI人才難尋也是不少台廠的難題,不過我們選擇直接從企業內部徵才,原因在於內部員工熟悉自家產品,對於使用者體驗及軟體相容性整合的了解程度來說都再適合不過,於是我們在短短兩周內就完成團隊組建,由部門主管領軍,並精選出三位員工,組成四人小團隊。然而四人過去皆非圖像辨識相關背景,我們是怎麼挑選的呢?被選中的員工有幾個共通點:在公司任職期間,除了研發態度積極,自我學習能力也強,並且有優異的Programming Skill。我會建議除了相關背景之外,Programming skill也必須列入重要考量。因為之後做資料處理,做實驗來重現結果,以及跟應用整合,良好的程式寫作能力會讓整體效率提高很多。
關鍵三:里程碑論文奠定基本功,實作重現模型結果
團隊雖然肩負重任和時間賽跑,但我們非常看重基本功,每個星期會根據研發目標,選取「里程碑性論文」,團隊定期報告與討論。舉例來說,在影像分類(Image Classification)的問題上面就有AlexNet、VGGnet、GooLeNet與ResNet不同模型的比較。最為關鍵的是在理解這些論文後,我們盡量會「重現」論文的結果或至少拿到Pre-trained models實驗,論文與實務結合是非常重要的步驟。
關鍵四:借助學界力量,讓產學合作效益最大化
在各種開源工具的協助之下,AI研究入門門檻越來越低,但精通難度很高,因此群暉也借助學界資源,如邀請台大資工系教授徐宏民一同參與此專案。徐教授也是NVIDIA AI Lab計畫主持人,專精於機器學習與影像辨識。他曾任IBM華生研究中心與美國微軟研究院研究員,也是訊連科技創始成員之一,業界經歷豐富。他也協助我們擴大論文搜尋、應用範圍與參數調整等,針對評估模型好壞的指標給予客觀建議,是我們遇到問題時十分重要的諮詢對象。
關鍵五:模型不是越深越好,挑選合適的更重要
我們藉由校正多種Open dataset物件,以調教內部model參數達到最高準確度。首先在數據集的部分,採用Google open image、百萬明星臉與ImageNet等市面上開放的數據庫,訓練數據集可分為三百多種類別,每種類別約有上千至數萬張照片,同時手動人工標記並補足現有數據的錯誤與不足。團隊花了三個月左右建模,除了準確度,還需要考量符合記憶體與運算效能等硬體規格,在模型精準度與耗費的硬體資源上取得絕佳平衡。舉例來說,團隊一開始嘗試採用Resnet,即使這個模型的深度很深,但因為需要的記憶體過於龐大,不但運算耗時,也會拖慢整體系統效能,讓使用者體驗不佳,反而得不償失。在改用Google的inception為基底來做Transfer Learning並透過資料及微調後,模型最終平均準確率80%起跳,個別類別準確度甚至可高達90%。
隨著科技發展快速,Synology建議企業應確實掌握內外部資源,才能在與趨勢接軌的同時,發揮企業研發能量的最大值,隨時為企業加值做好準備。
Reference: https://www.bnext.com.tw/article/48803/ai-nas-synology
留言列表