如何將深度學(xué)習(xí)應(yīng)用于無(wú)人機(jī)圖像的目標(biāo)檢測(cè)
本文全面概述了基于深度學(xué)習(xí)的對(duì)無(wú)人機(jī)航拍圖像進(jìn)行物體檢測(cè)的方法。我們還介紹了一個(gè)應(yīng)用示例:利用無(wú)人機(jī)監(jiān)測(cè)一個(gè)非洲住房項(xiàng)目的建設(shè)進(jìn)度。
第一部分:我們剛發(fā)布了Nano Drone APIs!
您是否知道無(wú)人機(jī)及其相關(guān)功能將在2023年成為一項(xiàng)價(jià)值500億美元的產(chǎn)業(yè)? 截至今天,無(wú)人機(jī)被用于農(nóng)業(yè),建筑,公共安全和安全等領(lǐng)域,同時(shí)也被其他領(lǐng)域迅速采用。隨著基于深度學(xué)習(xí)的計(jì)算機(jī)視覺為這些無(wú)人機(jī)“提供動(dòng)力”,行業(yè)專家們預(yù)測(cè)無(wú)人機(jī)將在以前難以想象的應(yīng)用場(chǎng)景中被前所未有地廣泛使用。
我們將探索一些應(yīng)用以及伴隨著它們的挑戰(zhàn),這些應(yīng)用基于深度學(xué)習(xí)完成了基于無(wú)人機(jī)的自動(dòng)化監(jiān)測(cè)。
在最后,我們將展示一個(gè)使用Nanonets機(jī)器學(xué)習(xí)框架對(duì)非洲住房項(xiàng)目進(jìn)行遠(yuǎn)程監(jiān)測(cè)的案例。
第一部分:航拍圖像——簡(jiǎn)要背景
人們總是對(duì)從高處俯瞰世界著迷,從高聳的大樓上、從瞭望塔上、從堡壘,還征服了最高的山峰。為了能捕捉這樣的瞬間并且和全世界分享,人們竭盡全力,借助梯子、高樓、風(fēng)箏、氣球、飛機(jī)和火箭,挑戰(zhàn)地心引力。
1906年,從風(fēng)箏上拍攝的舊金山全景(來(lái)源:國(guó)會(huì)圖書館)
如今,即使是普通大眾也可以使用能夠飛到2公里高處的無(wú)人機(jī)。這些無(wú)人機(jī)配有高分辨率的攝像頭,能夠捕捉高質(zhì)量的圖像,用于各種分析。
農(nóng)田的航拍圖像
第二部分:無(wú)人機(jī)及其工業(yè)應(yīng)用
隨著無(wú)人機(jī)的普及,我們看到很多攝影師和業(yè)余愛好者的日常愛好和活動(dòng),他們使用無(wú)人機(jī)進(jìn)行一些創(chuàng)造性項(xiàng)目,諸如捕捉南非的不平等現(xiàn)象,或者拍攝足以讓伍迪艾倫(Woody Allen)都感到驕傲的紐約奇景。
雖然這一切看起來(lái)很輕巧,但是價(jià)值500億美元的無(wú)人機(jī)產(chǎn)業(yè)核心在于工業(yè)應(yīng)用。
在這里我們探討一二:
能源:太陽(yáng)能發(fā)電廠的檢測(cè)
太陽(yáng)能發(fā)電廠的日常檢測(cè)和維護(hù)是一項(xiàng)艱巨的任務(wù)。傳統(tǒng)的人工檢測(cè)方式只能支持每三個(gè)月/次的檢測(cè)頻率。由于環(huán)境惡劣,太陽(yáng)能電池板可能會(huì)有缺陷。損壞的太陽(yáng)能電池板部件降低了功率輸出效率。
左圖:太陽(yáng)能電池板的原始熱圖像
右圖:因特爾自動(dòng)化系統(tǒng)檢測(cè)的缺陷定位和分類
農(nóng)業(yè):植物早期病害的檢測(cè)
倫敦帝國(guó)理工學(xué)院(Imperial College London)的研究人員在無(wú)人機(jī)上安裝多光譜相機(jī),這些相機(jī)將使用特殊的過(guò)濾器從選定的電磁光譜區(qū)域捕捉反射光。有病害的植物通常會(huì)顯示出一種有別于健康植物“光譜特征”。
帶有病原和營(yíng)養(yǎng)不足的植物葉片的光譜圖像
公共安全:鯊魚偵測(cè)
對(duì)一大片土地/水域的俯視圖進(jìn)行分析,可以獲取大量關(guān)于治安和公共安全方面的信息。其中一個(gè)例子就是在澳大利亞沿海水域發(fā)現(xiàn)鯊魚。澳大利亞西太平洋集團(tuán)開發(fā)了一種基于深度學(xué)習(xí)的目標(biāo)探測(cè)系統(tǒng)來(lái)偵測(cè)水中的鯊魚。
除此之外,還有各種各樣的航拍圖像應(yīng)用程序,比如土木工程(橋梁日常檢查,電線監(jiān)測(cè)和交通調(diào)查),石油和天然氣(近海石油和天然氣平臺(tái)、鉆井設(shè)備的檢查),公共安全(機(jī)動(dòng)車事故、核事故、建筑火災(zāi)、船舶碰撞、飛機(jī)和火車事故)及治安(交通監(jiān)測(cè)、邊境監(jiān)測(cè)、海岸監(jiān)測(cè)、敵對(duì)游行示威及暴動(dòng)控制)。
第三部分:獲取和處理工業(yè)級(jí)無(wú)人機(jī)圖像
為了全面捕捉地形和景觀,航拍圖像的獲取過(guò)程可以分為兩個(gè)步驟。
攝影測(cè)量:在無(wú)人機(jī)飛行過(guò)程中,為了確保圖象重疊,需要每隔一段時(shí)間拍攝幾張圖像。這一步很重要,這樣才能測(cè)量成像物體間的距離。廣義上講,這一過(guò)程被稱為攝影測(cè)量學(xué)。對(duì)于需要用于數(shù)據(jù)分析和制圖的圖像,還需要相應(yīng)的元數(shù)據(jù)進(jìn)行圖像拼接。這些元數(shù)據(jù)由無(wú)人機(jī)上的微型計(jì)算機(jī)自動(dòng)嵌入。
圖像拼接:一旦數(shù)據(jù)采集完成后,第二步是將單個(gè)航拍圖像合并成一張有用的地圖,通常使用一種專門的攝影測(cè)量技術(shù)將圖像快速拼接在一起。這種特殊的攝影測(cè)量技術(shù)被稱為從運(yùn)動(dòng)信息中恢復(fù)三維場(chǎng)景結(jié)構(gòu)(Sfm)。Sfm軟件從不同角度將同一場(chǎng)景的圖像進(jìn)行比較、匹配,并測(cè)量每幅圖象中物體間的角度后,拼接在一起。在這個(gè)步驟里,可能需要參考圖象的地理信息,以便將位置信息附加到每個(gè)圖象上。
完成圖像拼接后,生成的圖像可用于上述提到各種應(yīng)用分析中。
第四部分:人工智能遇上無(wú)人機(jī)
高分辨率航空影像在全球范圍內(nèi)越來(lái)越常見,它包含大量可與維護(hù)、土地開發(fā)、疾病控制、缺陷定位、監(jiān)測(cè)、等應(yīng)用相關(guān)聯(lián)的信息。不幸的是,這些數(shù)據(jù)通常是高度非結(jié)構(gòu)化的,因此即便有密集的人工分析,從中大規(guī)模提取有意義的見解還是充滿挑戰(zhàn)性。
例如,城市用地的分類通常是根據(jù)訓(xùn)練有素的專業(yè)人員的測(cè)量。所以這項(xiàng)任務(wù)是勞動(dòng)密集型的、不頻繁的、緩慢的和昂貴的。因此,這些數(shù)據(jù)大多只在那些擁有收集和管理這些數(shù)據(jù)所需的資源和遠(yuǎn)見的發(fā)達(dá)國(guó)家和大城市中才有。
自動(dòng)分析航空影像的另一個(gè)動(dòng)機(jī)是預(yù)測(cè)有關(guān)地區(qū)變化的迫切需要。例如,在大型公眾集會(huì)(如音樂會(huì)、足球比賽、抗議活動(dòng)等)上,經(jīng)常需要進(jìn)行群眾計(jì)數(shù)和群眾行為。傳統(tǒng)上,會(huì)有專人來(lái)分析從閉路電視攝像頭直接傳送到指揮中心的圖像。正如你想象的那樣,這種方法存在幾個(gè)問題,例如在檢測(cè)事件時(shí)人為的延遲或錯(cuò)誤,以及標(biāo)準(zhǔn)的靜態(tài)閉路電視(CCTV)缺乏足夠的視圖。
以下是使用航空影像時(shí)經(jīng)常遇到的一些挑戰(zhàn)。
航空影像自動(dòng)化的挑戰(zhàn)與限制
當(dāng)自動(dòng)分析無(wú)人機(jī)圖像時(shí),有幾個(gè)挑戰(zhàn)需要克服。下面列出了其中的一些,并
給出了有前景的解決方案:
對(duì)物體的平視和小視:當(dāng)前的計(jì)算機(jī)視覺算法和數(shù)據(jù)集是用以人為中心通過(guò)水平拍攝的近距離物體照片的實(shí)驗(yàn)室設(shè)置而設(shè)計(jì)和評(píng)估的。對(duì)于垂直拍攝的無(wú)人機(jī)圖像,感興趣的對(duì)象相對(duì)較小且特征較少,主要表現(xiàn)為平面和矩形。如,從無(wú)人機(jī)上拍攝的建筑物圖像只顯示屋頂,而建筑物的地面圖像將具有門、窗和墻等特征。
數(shù)據(jù)標(biāo)注困難:按照上述觀點(diǎn),即使我們可以獲得大量的圖像,我們?nèi)孕鑼?duì)其進(jìn)行標(biāo)注。這是一項(xiàng)手工任務(wù),需要精確性和準(zhǔn)確性,因?yàn)?ldquo;輸入垃圾意味著輸出垃圾”。 除了手動(dòng)完成之外,沒有什么神奇方法來(lái)解決標(biāo)簽問題。在Nanonet,我們根據(jù)需要提供 可以為你標(biāo)記數(shù)據(jù)的注釋器。
圖像尺寸大:無(wú)人機(jī)圖像尺寸很大,大多數(shù)情況下分辨率超過(guò)3000px X 3000px。這增加了處理此類圖像時(shí)的計(jì)算復(fù)雜度。為了克服這一問題,我們將預(yù)處理方法應(yīng)用于航空成像,以便使它們?yōu)槲覀兊哪P陀?xùn)練階段做好準(zhǔn)備。這包括以不同的分辨率、角度和姿勢(shì)裁剪圖像,以使我們的訓(xùn)練不受這些變化的影響。
對(duì)象重疊:分割圖像的問題之一是同一個(gè)對(duì)象可能出現(xiàn)在兩張不同的圖像中。這會(huì)導(dǎo)致重復(fù)檢測(cè)和計(jì)數(shù)錯(cuò)誤。此外,在檢測(cè)過(guò)程中,某些彼此非常接近的對(duì)象也可能具有重疊的邊框??朔@個(gè)問題的方法之一是通過(guò)滑動(dòng)窗口向上采樣,以尋找小的、密集的對(duì)象。
第五部分:Nanonets案例研究:非洲建筑項(xiàng)目遠(yuǎn)程自動(dòng)化檢視
務(wù)實(shí)大師(Pragmatic Master),一家南非機(jī)器人即服務(wù)(robotics-as-a-service )公司與Nanonets合作對(duì)非洲一個(gè)住房建設(shè)項(xiàng)目進(jìn)展進(jìn)行遠(yuǎn)程自動(dòng)化監(jiān)控。
這些項(xiàng)目通常因?yàn)檎`報(bào)而產(chǎn)生拖延和盜竊,這可能通過(guò)頻繁的無(wú)人機(jī)飛行測(cè)繪和記錄來(lái)解決
我們的目標(biāo)是通過(guò)探測(cè)以下基礎(chǔ)設(shè)施來(lái)捕捉房屋在不同階段的建造進(jìn)度:
地基(開始)
墻面板(正在進(jìn)行)
屋頂(部分完成)
護(hù)墻(收尾)
熱水器(可以搬入)
Pragmatic Master之所以選擇Nanonet作為深度學(xué)習(xí)的提供者是因?yàn)镹anonet易于使用的web平臺(tái)和即插即用的APIs。
使用Nanonet API的端到端流程非常簡(jiǎn)單,只需四個(gè)步驟。
End-to-end flow of the Nanonets API
1.上傳圖片:從無(wú)人機(jī)獲取的圖片可以直接上傳到我們的上傳頁(yè)面。在當(dāng)前的案例研究中,我們總共獲得了1442張低空拍攝的建筑工地照片。上傳圖片的例子會(huì)在下方給出。
2. 圖像的標(biāo)記:在任何監(jiān)督機(jī)器學(xué)習(xí)流程中,標(biāo)記圖像可能是最困難和最耗時(shí)的步驟,但是在Nanonets,我們可以為你完成標(biāo)記。我們有多年航空成像工作經(jīng)驗(yàn)的內(nèi)部專家。他們將精準(zhǔn)及準(zhǔn)確地注釋你的圖像,以進(jìn)行更好的模型訓(xùn)練。對(duì)于Pragmatic Master的用例,我們標(biāo)記了以下對(duì)象及其在所有圖像中的總數(shù)。
屋頂: 2299
熱水器: 6556
墻面板: 1043
護(hù)墻: 8730
標(biāo)記了熱水器的圖像
3. 模型訓(xùn)練:在Nanonets,我們同時(shí)采用遷移學(xué)習(xí)的原則對(duì)你的圖像進(jìn)行訓(xùn)練。這包括重新訓(xùn)練一個(gè)已經(jīng)用大量的航空成像預(yù)訓(xùn)練過(guò)的模型。這有助于模型更容易在你的圖像上識(shí)別微圖像如邊緣、線條和輪廓和關(guān)注更具體的宏觀模式如房屋、樹木、人類和汽車等。遷移學(xué)習(xí)也縮減了訓(xùn)練時(shí)間因?yàn)槟P筒恍枰M(jìn)行大量的迭代也能有良好性能。
我們專有的深度學(xué)習(xí)軟件能聰明地選擇最佳的模型,并根據(jù)你的用例優(yōu)化超參數(shù)。這涉及到使用高級(jí)搜索算法在多個(gè)模型和多維參數(shù)間進(jìn)行搜索。
最難探測(cè)的對(duì)象是最小的對(duì)象,因?yàn)樗鼈兊姆直媛瘦^低。我們的模型訓(xùn)練策略被優(yōu)化,以檢測(cè)非常小的物體,如只有幾個(gè)像素面積的熱水器和護(hù)墻。
檢測(cè)到完整的房子
下面是每個(gè)類的平均精度,
屋頂:95.1%
熱水器:88%
墻面板:92%
護(hù)墻:81%
注意:添加更多的圖像可以提高平均精度。我們的API還支持在同一圖像中檢測(cè)多個(gè)對(duì)象,例如在一個(gè)圖像中檢測(cè)屋頂和護(hù)墻。
4. 測(cè)試與集成:在模型訓(xùn)練好后,你可以將Nanonet的API直接集成到您的系統(tǒng)中或者我們還提供一個(gè)鏡像,其中包含你訓(xùn)練過(guò)的模型和推理代碼。鏡像可以方便地進(jìn)行縮放,并提供容錯(cuò)推理系統(tǒng)。
最后一步,圖像被拼接起來(lái)并使用與每幅圖像相關(guān)聯(lián)的GIS數(shù)據(jù)創(chuàng)建整個(gè)景觀視圖。
預(yù)測(cè)的圖像拼接在一起創(chuàng)造了整個(gè)景觀視圖
第6部分:數(shù)據(jù)私隱
客戶信任是我們的首要。我們致力于在任何時(shí)候?yàn)槟闾峁┧袡?quán)和你內(nèi)容的控制。我們提供了兩個(gè)使用我們服務(wù)的套餐,
開發(fā)人員:你上傳的用例圖像可能被我們用來(lái)預(yù)訓(xùn)練我們的模型,我們可以進(jìn)一步將其用于我們的其他應(yīng)用程序。
企業(yè):你的數(shù)據(jù)就是你的!我們永遠(yuǎn)不會(huì)將你的數(shù)據(jù)用于任何模型的預(yù)訓(xùn)練。
在這兩個(gè)套餐中,我們與我們的云合作伙伴Amazon Web Services合作,使用高度復(fù)雜的數(shù)據(jù)隱私和安全協(xié)議。你的數(shù)據(jù)集是匿名的,并且在預(yù)處理和訓(xùn)練過(guò)程中經(jīng)過(guò)最少的人工干預(yù)。我們所有人都簽署了保密協(xié)議(NDA),以保護(hù)你的數(shù)據(jù)不落入壞人之手。因?yàn)槲覀兿嘈?ldquo;你的數(shù)據(jù)就是你的!”,你可以要求我們?cè)谌魏坞A段從我們的服務(wù)器上刪除你的數(shù)據(jù)。
Nanonet是一種web服務(wù),它使得使用深度學(xué)習(xí)變得容易。你可以用你自己的數(shù)據(jù)構(gòu)建一個(gè)模型,以實(shí)現(xiàn)更高的準(zhǔn)確性,并使用我們的APIs將其集成到你的應(yīng)用程序中。
更多細(xì)節(jié)請(qǐng)?jiān)L問:https://nanonets.com/drone
務(wù)實(shí)大師(Pragmatic Master)是一家南非機(jī)器人即服務(wù)公司,提供裝配相機(jī)的無(wú)人機(jī),以獲取建筑、農(nóng)業(yè)和采礦工地的圖像。通過(guò)對(duì)這些圖像的分析,讓我們能跟蹤進(jìn)度、識(shí)別挑戰(zhàn)、消除低效并提供場(chǎng)地的整體鳥瞰圖。