機器的3D視覺，用啥來訓練 @ BENEVO台灣部落格之科技應用。創新與分享

機器視覺(Machine Vision)或是嵌入式視覺發展其來有自，主要應用領域為半導體、電子產業，工業4.0 的興起也推升了機器視覺的需求，甚至是3D機器視覺需求。

不僅如此，在機器學習(ML)與深度學習(DL)的興起，帶動人工智慧(AI)進駐各類應用領域後，除了工業、製造業及半導體電子產業外，其他領域包括汽車、安防、遊戲及穿戴式電子產品…等嵌入式系統中，也因機器視覺的加入，而有新氣象。

根據市調機構Marketsandmarkets「機器視覺市場」研究報告，全球整體機器視覺市場規模預計2022年時可達144.3億美元，2016~2022年的年複合成長率為8.15%。該單位並指出，帶動機器視覺市場成長的主要推手是製造業品質檢測與自動化需求升溫，加上汽車、食品、包裝和工業領域視覺導引機器人系統，以及特定應用機器視覺系統的需求大增。

Allied Market Research則預計，全球機器視覺系統市場規模將從2015年的106億美元增加到到2022年的187億美元，且2016~2022年的年複合成長率為8.7%。

BBC Research則從地區來看機器視覺的市場發展；該單位指出，全球機器視覺市場將從2018年的160億美元規模，增長至2023年的248億美元，20182023年的年複合成長率為9.2%。其中，在2017年佔全球機器視覺市場30%比重的歐洲，未來仍將是領先的核心市場；北美機器視覺市場規模則是從2018年的43億美元，增加到2023年的73億美元；而市場成長最快的是亞太地區，20182023年的年複合成長率可達9.7%，以中國、日本與印度為主要發展市場。

3D機器視覺需求萌芽

另外，為了讓嵌入式系統看得更準確與細緻，近期，3D機器視覺崛起。Marketsandmarkets估計，3D機器視覺市場產值，2022年將達21.3億美元，2017~2022年的年複合成長率將達11.07%。

耐能智慧(Kneron)創始人兼執行長劉峻誠表示，無論在工業或是其他領域，如消費性電子、智慧家居或安防等，對於機器視覺能夠持續接近人眼所見的需求已越來越高，這是由於，人眼看到的是3D的動作，且人類的各種舉動也是3D型態，不只是平面的2D。因此雖然目前機器視覺感測仍以2D為主，例如人臉辨識、手勢辨識，但未來勢必朝向3D邁進，因此相關的處理器、感測器與人工智慧演算法也開始如雨後春筍般出現，以協助汽車、安防及工業等應用領域的機器視覺，進一步提升準確度。

專注於工業領域協作型機器人研發的Universal Robots，則認為受惠於人工智慧與機器學習演算法，3D機器視覺已成大勢所趨。該公司大中華區總經理蘇璧凱(Adam Sobieski)指出，在人工智慧及機器學習技術蓬勃發展並導入到協作型機器人的同時，使得3D機器視覺辨識結果能夠更加準確。

蘇璧凱並舉例，Universal Robots與在台灣的合作夥伴所羅門(Solomon)研發的3D視覺辨識系統，即是機器學習的應用案例之一。而此案例是應用於桃園航空城的物流作業中，透過3D視覺辨識的協作型機器人，能夠快速準確地協助特殊化材的運輸，加快國際物流的處理速度。

各式技術搶進3D視覺市場

3D機器視覺與嵌入式視覺市場前景「一片光明」，相關技術也開始紛紛搶進，其中，讓機器或嵌入式系統可以增添視覺的兩大「工具」為攝影鏡頭與各種感測器。劉峻誠認為，這兩項硬體工具的搭配，使得3D視覺呈現出多種樣貌，以及特性，可滿足不同
應用場景所需。

目前3D視覺感測可分為幾大主流技術，立體攝影機(stereo camera)、飛行時間(ToF)、蘋果(Apple)iPhone帶起風潮的結構光(Structured Light)，以及數位光處理(DLP)…等。

立體攝影機

立體攝影機也就是所謂的雙目攝影機，其原理是模擬人類的雙眼，用兩眼(攝影機)視差決定與物體間的距離。需使用兩台攝影機，以及彩色/黑白、紅外線(IR)…等感測器。

ToF

ToF是利用發出雷達或光達(Lidar)等光源投射到待測物體，再透過影像感測器運算反射光回來的時間，進行測距，需使用一台攝影機與影像感測器。

結構光

結構光原理是對物體發射特定圖案的光斑(Pattern)，再透過攝影機接收物體表面上的光斑圖案，與原始投射光斑比對兩者的異同，再使用三角原理算出物體的3D座標。基本使用的元件包括IR發射器、IR相機模組或RGB相機模組。

DLP

DLP則是利用在半導體晶片上放置數位微鏡片裝置(Digital Micromirror Device；DMD)矩陣，每一個微鏡片控制投影畫面中的一個畫素，投影畫面需多少解析度，就須使用多少個微鏡片。而透過微鏡片的「開」與「關」，加上色輪，來呈現投影的灰度與色彩。

事實上，3D感測技術各有優劣，舉例來說，結構光的優點是準確度高、掃描速度快、低照度時效果佳、運算量低、功耗低，唯感測距離較短，且室外使用效果較弱，因此適合智慧型手機等可攜式裝置使用。

立體攝影機優點是戶外應用效果佳，可透過改變攝影機的距離同步調整判斷的距離，且成本低，但需要高運算量，而準確度與其他技術相比也不高。ToF則是掃描速度快、低照度環境時效果佳，缺點是精細度與辨識率較低。

德州儀器(TI)DLP產品副總裁暨總經理Ane Sacks表示，由於DLP是採用完全可編程的光模式進行分析，因此可即時產生非接觸式、高準確度的3D資料。由於目前DLP投射的多為平面2D影像，而3D感測亦是將影像投射到平面，因此DLP的確可以支援3D感測的功能。

不過，Sacks也坦言，將DLP用於3D感測應用時，存在著挑戰，這是由於若將3D掃描結果投射到平面，難免會出現失真。但德州儀器與相關合作夥伴合作過程中，發覺透過梯形校正與隨時可自動對焦的功能，可解決問題，因此除了目前在半導體結構光測試機台領域已有成果外，目前也有3D感測技術的專案在進行中。

劉峻誠強調，各種3D感測技術都有其優缺點，且在市場上各自有其賣點，只是應用市場的大小有所不同，並無法「斷言」哪項技術最好，或是可大一統市場。更何況，若是嵌入式系統需要辨識的項目比較多時，也可視需求搭配多元的3D感測技術與主運算晶片；簡單的應用如家電類中的掃地機器人，可能就只需要一種感測技術加上主晶片。

處理器爭戰爆發

除了感測器與攝影機之外，還需要經過處理器運算來自感測器的資料，嵌入式系統才能真正「看」見並理解，以滿足各種應用所需。也因此，各種處理器—中央處理器(CPU)、繪圖處
理器(GPU)、數位訊號處理器(DSP)，以及現場可程式化邏輯閘陣列(FPGA)等，皆看好3D機器視覺市場前景，積極搶進。

AMD嵌入式解決方案事業群產品管理與業務發展總監Stephen Turnbull分析，目前各界運用許多技術針對視覺演算法與應用進行加速，且針對應用環境有不同的取捨考量。例如，CPU非常適合需要輕鬆撰寫程式，以及在視覺開發方面獲得靈活解決方案的開發者，但代價是耗電更高，以及執行特定功能的效率不佳。

也許，有多數人可能會選擇基於DSP的解決方案，因為它們具備能執行專屬功能的特性，以及能加速許多視覺演算法。但這類解決方案較不容易擴充，同時也缺乏整體靈活性；GPU也經常被使用，因為其具有平行處理的特性，能擴充到極高的效能水準，但通常比DSP更耗電。

FPGA則是另一種替代方案，為開發者提供根據他們的需求進行客製化和撰寫程式的機會。但由於必須把FPGA加入到嵌入式系統，會導致成本與尺寸增加，因此得在加速與這些代價之間取捨。

事實上，除了上述的處理器之外，備受矚目的後摩爾定律時代的要角神經網路處理單元(NPU)也加入了戰局。劉峻誠指出，3D機器視覺要能更精準就需要人工智慧與機器學習技術，而大家馬上想到的人工智慧處理器多為CPU或是GPU，但是CPU、GPU的效能再提升因摩爾定律即將走到終點而有所限制，然NPU這種專用的人工智慧處理器，不僅只需使用較舊的製程技術，還能降低成本與功耗，效能甚至可以比GPU提升1,000倍，因此已有許多廠商投入人工智慧專用處理器NPU的研發。

身為台灣首家研發3D人工智慧解決方案的新創公司耐能智慧，該公司新的NPU—KL520專注於終端裝置的應用。劉峻誠表示，耐能的目標，在於把AI運算的場域從雲端轉移至終端設備，如此一來，不僅能達到即時辨識與判斷，同時還提供軟硬體結合的解決方案。此外，新的KL520晶片「可重組式人工智慧神經網路技術」，會根據不同任務如語音辨識、人臉辨識、手勢辨識、2D/3D影像辨識…等進行重組，減少運算複雜度，可在不同的卷積神經網路(CNN)模型上的使用，無論是模型內核(kernel)大小的變化、模型規模的變化，還是影像輸入大小的變化，都能保持高效率使用運算(MAC)單元。而這也是耐能NPU可用兩顆Arm cortex-4核心、40奈米(nm)製程，即可達到高運算力卻兼具低功耗、小尺寸特性的原因。

20190604_MachineVision_NT31P1

耐能智慧KL520晶片架構。
（圖片來源：耐能智慧）

Turnbull則對使用專用視覺處理晶片或通用晶片提出看法。他指出，通用處理器提供比專屬視覺處理器更好的靈活性與效能擴充性。通用處理器一般內含多於一種的運算資源，像是CPU與GPU，讓開發者在執行各種視覺演算法方面有更多彈性；不僅如此，通用處理器讓工程師能開發更多元的使用情境，涵蓋視覺數據使用者在相同硬體上運作的各種應用，使記憶體傳輸作業減至最低，系統延遲等元素也減至最少。

不過，無論使用哪種類型的處理器，3D機器視覺、嵌入式視覺相關業者都將面臨挑戰。Turnbull認為，在嵌入式系統上執行深度學習應用時，雖然目前有越來越多的選項，從伺服器等級的CPU、整合CPU與GPU的SoC或整合式加速器、一直到大型獨立GPU或甚至更大型獨立專屬加速器。但是由於有如此多樣的選項，開發者面臨的挑戰即是在效能需求、功耗效率，以及成本等因素之間取得平衡點。另外，人工智慧軟體產業體系，以及專業演算法本身也帶來額外的挑戰，因為這些技術持續快速演進，發展成更趨近最佳化的狀態，但同時也衍生分裂的風險。

劉峻誠則認為，若是能夠將同一家公司研發的硬體晶片與演算法軟體搭配得宜，而非不同供應來源，並直接整合為一顆SoC，應可提升解決方案的易用性。耐能智慧與許多OEM、ODM的合作實現相關3D機器視覺產品，即是一例。

未來趨勢

人工智慧與機器學習持續進入3D機器視覺與嵌入式視覺系統已成大勢所趨。劉峻誠表示，過去在電腦視覺或是嵌入式視覺使用的演算法有許多的問題，人工智慧、深度學習演算法的出現，已可解決。因此他也預期，未來客製化專用晶片會越來愈多，而針對不同應用的演算法，也要能與硬體晶片能夠最佳的搭配，而耐能智慧從硬體晶片到軟體演算法皆是自行開發，因此可提供最符合市場需求並具彈性的解決方案。

Turnbull強調，在未來3~5年將會持續看到傳統電腦視覺技術與機器學習技術之間進行匯流，進而帶動許多視覺應用的創新，包括依賴高效能視覺處理的應用，例如自動駕駛或搭載多部攝影機的監視系統。而軟體產業體系在機器學習與電腦視覺未來出現的分裂，將對創新形成潛在障礙。3D機器視覺與嵌入式視覺方案業者需要去思考，如何將此障礙降到最低。

Reference: https://www.eettaiwan.com/20190604nt31-ai-enables-3d-machine-vision/

BENEVO

BENEVO台灣部落格之科技應用。創新與分享

BENEVO 發表在痞客邦留言(0) 人氣()

E-mail轉寄

BENEVO台灣部落格之科技應用。創新與分享

來自台灣的電腦周邊應用品牌，讓我們一起來「善用科技．保護地球」！