???

原文鏈接:UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility (https://arxiv.org/pdf/2501.02341)
項目主頁:https://github.com/Hub-Tian/UAVs_Meet_LLMs
主要貢獻
論文提供了UAVs的全面概述,包括功能模塊以及具體配置,有助于理解UAV的核心組件。
系統(tǒng)地回顧了近年來關于LLMs與UAVs集成的最新研究,包括了關鍵方法、多樣化應用和主要挑戰(zhàn)。
提出了UAVs智能體框架,概述了實現(xiàn)自主感知、推理、記憶和工具利用的必要架構和能力。
詳細列舉了支持UAVs智能發(fā)展的公開數(shù)據(jù)集資源,強調了這些數(shù)據(jù)在訓練、評估和支持智能UAVs系統(tǒng)開發(fā)中的關鍵作用。
對UAVs和LLMs匯聚的關鍵任務和應用場景進行了分類和分析,提供了實際應用的視角。
介紹
無人機(UAVs)的快速發(fā)展及其靈活性顯著提升了智能系統(tǒng)的感知與決策能力,為升級傳統(tǒng)系統(tǒng)并提高運營效率提供了強大手段。
盡管UAVs具有諸多優(yōu)勢,但大多數(shù)UAVs仍依賴于人類操作員的控制。這種依賴不僅增加了勞動力成本,還帶來了安全風險。此外,由于操作員的感知范圍和靈敏度受限于機載傳感器,這限制了UAVs在復雜環(huán)境中的可擴展性,從而阻礙了其廣泛應用。
近年來,人工智能(AI)領域,尤其是基礎模型(FMs)如ChatGPT、SORA以及各種AI生成內(nèi)容(AIGC)框架的進展,為UAVs的智能化提供了新的途徑。大型語言模型(LLMs)展現(xiàn)出了接近人類水平的常識推理和泛化能力,能夠在多樣化應用中實現(xiàn)高級理解、靈活適應和實時響應。
本文旨在探索礎模型與UAVs的集成方式,并提供一個系統(tǒng)全面的綜述,以促進對這一跨學科融合領域的理解。通過提供基礎概述,論文在為研究人員和從業(yè)者提供一個參考框架,借助LLMs的能力來推進UAVs的自主性,進而擴大無人低空移動系統(tǒng)的應用潛力。
UAVs系統(tǒng)概述UAVs功能模塊

UAVs系統(tǒng)中各個功能模塊扮演著不同的角色,共同協(xié)作,以實現(xiàn)特定的任務目標。
負責收集和解釋來自多種傳感器的數(shù)據(jù),以實現(xiàn)對周圍環(huán)境的全面理解。傳感器包括RGB攝像頭、事件相機、熱像儀、3D攝像頭、LiDAR、雷達和超聲波傳感器等。
感知模塊提供情境感知,支持安全自主飛行,并在多UAVs協(xié)同任務中支持檢測和跟蹤其他UAVs。
使用先進的計算機視覺和機器學習技術來增強對象檢測、語義分割和運動估計的準確性和魯棒性。
通過傳感器融合方法結合互補的數(shù)據(jù)源,以應對不斷變化的環(huán)境條件。
負責將規(guī)劃的軌跡轉換為精確的飛行路徑,通過連續(xù)估計和調整UAVs的位置、方向和速度來實現(xiàn)。
依賴于GPS、慣性測量單元(IMU)、視覺里程計和氣壓計等多種傳感器,使用傳感器融合算法來增強狀態(tài)估計的可靠性和準確性。
在GPS受限或復雜環(huán)境中,采用同時定位與地圖構建(SLAM)技術來提供魯棒的定位和環(huán)境映射。
負責將高層任務目標轉化為具體的飛行軌跡和動作,依賴于輸入的感知數(shù)據(jù)來確保安全導航。
使用路徑規(guī)劃算法計算可行且優(yōu)化的路線,涵蓋啟發(fā)式算法(如A*算法、遺傳算法、模擬退火、粒子群優(yōu)化)和機器學習方法(如神經(jīng)網(wǎng)絡、深度強化學習)。
在多UAVs或集群操作中,規(guī)劃模塊還負責協(xié)調飛行路線,確保碰撞避免和群體行為的一致性。
UAVs類型

UAVs有著不同的配置類型,每種類型都有其獨特的幾何結構和應用場景。
固定翼UAVs(Fixed-Wing UAVs):
具有固定的機翼形狀,通過機翼產(chǎn)生升力以實現(xiàn)前進運動。
優(yōu)點包括高速、長續(xù)航和穩(wěn)定的飛行,適合長時間任務。
缺點是要求較高的飛行技能,無法懸停,對起飛和降落區(qū)域的要求較高。
多旋翼UAVs(Multirotor UAVs):
通常配備多個旋翼(常見的是四軸、六軸或更多),通過旋翼旋轉產(chǎn)生升力和控制。
優(yōu)點包括低成本、易操作、能夠垂直起降和懸停,適合精細任務。
缺點是續(xù)航時間有限、速度較慢、載荷容量較小。
無人直升機(Unmanned Helicopters):
撲翼UAVs(Flapping-Wing UAVs):
受鳥類或昆蟲飛行機制的啟發(fā),通過翅膀拍打產(chǎn)生升力。
優(yōu)點包括安靜的操作、高效率和增強的機動性,適合緊湊尺寸的應用。
缺點是載荷容量較小,設計和控制系統(tǒng)較復雜。
UAVs集群
UAVs集群通過多個UAV協(xié)作來完成共享的目標,具有冗余、可擴展和高效的優(yōu)勢。
UAVs集群的路徑規(guī)劃涉及選擇從起始位置到所有目標位置的最優(yōu)路徑,同時確保UAVs之間保持預定的距離以避免碰撞。
常用的算法包括智能優(yōu)化算法(如蟻群優(yōu)化、遺傳算法、模擬退火、粒子群優(yōu)化)和數(shù)學規(guī)劃方法。
AI方法也被應用于UAVs集群路徑規(guī)劃,以增強其在復雜環(huán)境中的適應性和魯棒性。
基礎大模型

論文對基礎模型(Foundation Models, FMs)進行了概述,重點介紹了大語言模型(LLMs)、視覺基礎模型(VFM)和視覺語言模型(VLMs)的核心特性和技術優(yōu)勢。
大語言模型(LLMs)
泛化能力:LLMs通過在大規(guī)模語料庫上訓練,展現(xiàn)出強大的遷移能力,包括零樣本(zero-shot)和少樣本(few-shot)學習。這些能力使得LLMs能夠在沒有特定任務訓練的情況下,或者僅通過少量示例就能有效地解決新任務。
復雜問題解決能力:LLMs能夠通過生成中間推理步驟或結構化的邏輯路徑來分解復雜問題,從而實現(xiàn)系統(tǒng)化和逐步的解決方案。這種方法被稱為“思維鏈”(Chain of Thought, CoT)框架,通過分解任務為一系列子任務來逐步解決。
OpenAI的GPT系列:包括GPT-3、GPT-3.5和GPT-4,這些模型在語言理解、生成和推理任務中設定了新的基準。
Anthropic的Claude模型:包括Claude 2和Claude 3,這些模型通過強化學習優(yōu)先考慮安全性和可控性,在多任務泛化和魯棒性方面表現(xiàn)出色。
Mistral系列:采用稀疏激活技術,平衡了效率和性能,強調低延遲推理。
Google的PaLM系列:以其多模態(tài)能力和大規(guī)模參數(shù)化而聞名,后續(xù)的Gemini系列進一步提高了泛化能力和多語言支持。
Meta的Llama模型:包括Llama 2和Llama 3,在多語言任務和復雜問題解決方面表現(xiàn)出色。
Vicuna:通過微調對話數(shù)據(jù)集和低秩適應(LoRA)技術,增強了對話能力和任務適應性。
Qwen系列:在多語言任務中表現(xiàn)出色,適用于多種任務。
其他模型:如InternLM、BuboGPT、ChatGLM、DeepSeek等,專注于特定領域的任務,如知識問答、對話生成和信息檢索。
視覺語言模型(VLMs)
GPT-4V:OpenAI推出的GPT-4的視覺版本,展示了強大的視覺感知能力。它可以接受文本、音頻和圖像的任意組合輸入,并能快速響應。
Claude 3 Opus 和 Claude 3.5 Sonnet:Anthropic開發(fā)的模型,強調多任務泛化和可控性。它們在多模態(tài)任務中表現(xiàn)出色,特別是在需要復雜推理和任務執(zhí)行的場景中。
Step-2:Jieyue Xingchen提出的模型,采用創(chuàng)新的混合專家(MoE)架構,支持在大規(guī)模參數(shù)下進行高效的訓練,顯著提高了處理復雜任務的能力。
LLaVA系列:Liu等人提出的模型,通過結合GPT-4和CLIP的視覺編碼器,增強了多模態(tài)任務的表現(xiàn)。LLaVA的最新版本LLaVA-NeXT在捕捉視覺細節(jié)和復雜視覺邏輯推理任務中表現(xiàn)出色。
Flamingo:Alayrac等人提出的模型,通過引入Perceiver Resampler和Gated Cross-Attention機制,有效整合了視覺和多模態(tài)信息,增強了模型在多模態(tài)任務中的表現(xiàn)。
BLIP系列:Li等人提出的模型,通過結合預訓練的視覺特征編碼器和預訓練的LLMs,生成相應的文本輸出。BLIP-2引入了查詢變換器(Q-Former)以更好地對齊視覺和語言模態(tài)。
InstructBLIP:Dai等人提出的模型,通過大規(guī)模任務指令微調,進一步提高了模型在多模態(tài)任務中的適應性和任務執(zhí)行能力。
視覺基礎模型(VFMs)

VFMs在對象檢測任務中表現(xiàn)出色,能夠實現(xiàn)零樣本檢測和少樣本學習。例如,GLIP、DINO、Grounding DINO等模型在對象檢測任務中表現(xiàn)出色。
在圖像分割任務中,VFMs通過結合視覺和語言信息,提高了分割的準確性和魯棒性。例如,CLIPSeg、SAM、Open-Vocabulary SAM等模型在圖像分割任務中表現(xiàn)出色。
在深度估計任務中,VFMs能夠實現(xiàn)單目深度估計,適用于復雜場景。例如,ZoeDepth、ScaleDepth、Depth Anything等模型在深度估計任務中表現(xiàn)出色。
UAVs數(shù)據(jù)集與仿真平臺
UAVs研究相關的公開數(shù)據(jù)集和仿真平臺是推動基于基礎模型(FMs)的UAVs系統(tǒng)研究的重要資源。

通用領域數(shù)據(jù)集
環(huán)境感知: 主要用于對象檢測、分割和深度估計等任務。它們提供了豐富的視覺數(shù)據(jù),幫助訓練和評估UAVs在復雜環(huán)境中的感知能力。典型數(shù)據(jù)集包括:
AirFisheye:專為復雜城市環(huán)境設計的多模態(tài)數(shù)據(jù)集,包含魚眼圖像、深度圖像和點云數(shù)據(jù)。
SynDrone:大規(guī)模合成數(shù)據(jù)集,用于城市環(huán)境中的檢測和分割任務,提供像素級和對象級的標注。
WildUAV:高分辨率RGB圖像和深度數(shù)據(jù)集,用于單目視覺深度估計,支持精確的UAVs飛行控制。
事件識別: 用于識別和分類視頻中的事件,如災難、交通事故、體育比賽等。它們幫助UAVs在動態(tài)環(huán)境中進行場景理解。典型數(shù)據(jù)集包括:
CapERA:結合視頻和文本描述的事件識別數(shù)據(jù)集。
ERA:包含多種事件類別的視頻數(shù)據(jù)集。
VIRAT:包含靜態(tài)地面和動態(tài)空中視頻的事件識別數(shù)據(jù)集。
目標跟蹤: 用于評估UAVs在多目標跟蹤任務中的性能。它們通常包含多種模態(tài)的數(shù)據(jù),如視頻、文本和音頻。典型數(shù)據(jù)集包括:
WebUAV-3M:大規(guī)模的UAVs目標跟蹤數(shù)據(jù)集,包含視頻、文本和音頻描述。
TNL2K:結合自然語言描述的目標跟蹤數(shù)據(jù)集,支持跨模態(tài)跟蹤研究。
VOT2020:包含多種跟蹤任務的綜合性數(shù)據(jù)集。
動作識別: 用于識別視頻中的人類動作,幫助UAVs在復雜場景中進行行為分析。典型數(shù)據(jù)集包括:
Aeriform In-Action:用于空中視頻中的人類動作識別。
MEVA:大規(guī)模的多視角、多模態(tài)視頻數(shù)據(jù)集。
UAV-Human:包含多種模態(tài)的視頻數(shù)據(jù)集,用于動作識別和人體行為分析。
導航和定位: 用于評估UAVs在導航和定位任務中的性能,特別是在結合視覺和語言信息的情況下。典型數(shù)據(jù)集包括:
特定領域數(shù)據(jù)集
交通運輸: 主要用于交通監(jiān)控、車輛和行人檢測等任務。它們幫助UAVs在復雜的交通環(huán)境中進行目標識別和跟蹤。典型數(shù)據(jù)集包括:
TrafficNight:夜間車輛監(jiān)控的多模態(tài)數(shù)據(jù)集,結合了RGB和熱成像技術。
VisDrone:大規(guī)模的UAVs目標檢測和跟蹤數(shù)據(jù)集,覆蓋多個中國城市的多樣場景。
CADP:用于交通事故分析的數(shù)據(jù)集,增強了對小目標的檢測能力。
遙感: 用于遙感圖像的對象檢測、分類和定位任務。它們幫助UAVs在地理信息系統(tǒng)(GIS)和地球觀測中發(fā)揮作用。典型數(shù)據(jù)集包括:
xView:大規(guī)模的衛(wèi)星圖像數(shù)據(jù)集,包含多種對象類別的注釋。
DOTA:高分辨率航空圖像的對象檢測數(shù)據(jù)集。
RSICD:用于場景分類的遙感圖像數(shù)據(jù)集。
農(nóng)業(yè): 用于農(nóng)業(yè)圖像的分割和分類任務,幫助UAVs在精準農(nóng)業(yè)中進行作物監(jiān)測和管理。典型數(shù)據(jù)集包括:
Avo-AirDB:用于農(nóng)業(yè)圖像分割和分類的數(shù)據(jù)集。
CoFly-WeedDB:用于棉花田雜草檢測的數(shù)據(jù)集。
WEED-2C:用于大豆田雜草檢測的數(shù)據(jù)集。
工業(yè)應用: 用于工業(yè)檢查和維護任務,幫助UAVs在基礎設施監(jiān)控中進行缺陷檢測和資產(chǎn)識別。典型數(shù)據(jù)集包括:
應急響應: 用于災害救援場景下的視覺理解任務,幫助UAVs在緊急情況下進行場景分析和救援操作。典型數(shù)據(jù)集包括:
Aerial SAR:用于自然災害監(jiān)測和搜救操作的數(shù)據(jù)集。
AFID:用于水道監(jiān)控和災害預警的數(shù)據(jù)集。
FloodNet:用于災后場景理解的數(shù)據(jù)集。
軍事: 用于軍事圖像的生成和理解任務,幫助UAVs在軍事環(huán)境中進行情報收集和分析。典型數(shù)據(jù)集包括:
野生動物保護: 用于野生動物監(jiān)測和保護任務,幫助UAVs在自然環(huán)境中進行物種識別和棲息地監(jiān)測。典型數(shù)據(jù)集包括:
3D 仿真平臺
基于基礎模型的UAVs系統(tǒng)進展
將大型語言模型(LLMs)、視覺基礎模型(VFM)和視覺語言模型(VLMs)等基礎模型(FMs)集成到UAVs系統(tǒng),可以增強UAVs系統(tǒng)的智能性,顯著提升其在復雜任務中的表現(xiàn)。

視覺感知對象檢測
對象檢測是UAVs應用中的關鍵任務之一,但面臨著多種挑戰(zhàn),包括飛行高度和視角的變化、動態(tài)環(huán)境條件以及場景的多樣性。
傳統(tǒng)的對象檢測算法在處理這些復雜情況時表現(xiàn)出色,但仍然存在一些問題:
多尺度對象檢測:由于UAVs的高度變化和視角變化,多尺度對象檢測成為研究重點之一。
動態(tài)環(huán)境:動態(tài)環(huán)境條件增加了檢測任務的復雜性。
領域特定特性:不同場景的領域特性使得模型難以在不同環(huán)境中實現(xiàn)魯棒泛化。
為了應對這些挑戰(zhàn),研究者們采用了多種方法來增強模型的魯棒性和適應性:
改進訓練策略:通過為特定UAVs場景訓練專用模型或引入多任務學習框架來提高模型的魯棒性。
自然語言與視覺結合:利用自然語言和視覺的互補優(yōu)勢,通過VLMs和VFMs的結合來提高檢測的準確性和適應性。
零樣本學習:VLMs和VFMs的零樣本學習能力使其能夠有效處理復雜任務并顯著提高檢測的準確性和魯棒性。
具體研究中,Li等人結合CLIP和傳統(tǒng)目標跟蹤模塊來實現(xiàn)UAVs的自然語言跟蹤任務。Ma等人通過集成Grounding DINO和CLIP來增強UAVs圖像中的道路場景檢測準確性。
Limberg等人利用YOLO-World和GPT-4V實現(xiàn)UAVs的零樣本人體檢測和動作識別。Kim等人使用LLaVA-1.5生成天氣描述,結合視覺特征和語言提示進行天氣感知的對象查詢。
語義分割
語義分割是計算機視覺任務之一,UAVs系統(tǒng)在該任務上面臨著與對象檢測類似的挑戰(zhàn),如對對抗性視覺條件的適應能力和對手動標注數(shù)據(jù)的依賴。VLMs和VFMs的引入為該領域注入了新的技術動力:
COMRP方法通過結合Grounding DINO和CLIP提取道路相關區(qū)域,并使用SAM自動生成分割掩碼。CrossEarth方法通過地球風格注入和多任務訓練來增強跨域泛化能力。
深度估計
深度估計是UAVs感知系統(tǒng)的核心功能之一,用于生成地形和自然環(huán)境的3D幾何表示。
近年來,基于神經(jīng)輻射場(NeRF)和3D高斯散射(3DGS)的方法在該任務上取得了顯著進展,但在大規(guī)模場景中仍面臨挑戰(zhàn)。單目深度估計(MDE)逐漸成為更有利的解決方案:
視覺描述和VQA
視覺描述和VQA屬于計算機視覺和自然語言處理的交叉領域,關注圖像和視頻內(nèi)容的語義理解和自然語言表示。
傳統(tǒng)方法通常基于深度學習框架,但在復雜場景、開放域問題和細粒度描述生成方面存在局限性。VLMs和VFMs通過聯(lián)合表示學習顯著增強了其理解復雜跨模態(tài)信息的能力:
研究主要集中在兩個方向:選擇或結合現(xiàn)有的VLMs和VFMs以適應UAVs任務場景,或訓練或微調VLMs或VFMs以構建專門針對UAVs垂直應用的模型。
這些研究旨在進一步增強UAVs在復雜環(huán)境中的視覺感知、語義推理和任務執(zhí)行能力,提供對智能和用戶友好的機器交互的強大支持。
視覺語言導航室內(nèi)環(huán)境
室內(nèi)環(huán)境下的UAVs視覺語言導航(VLN)任務主要依賴于視覺輸入和自然語言指令的結合。室內(nèi)導航需要考慮更復雜的3D空間感知和推理。典型的方法包括:
NaVid:利用EVA-CLIP提取視覺特征,并結合Q-Former生成視覺和幾何標記。該方法不需要地圖、里程計或深度信息,僅通過單目視頻流實現(xiàn)實時路徑規(guī)劃和動態(tài)調整。
VLN-MP:通過多模態(tài)提示增強任務理解,減少自然語言指令的歧義,并支持多樣化和高質量的提示設置。該方法通過生成地標相關的圖像提示并結合Grounding DINO或GLIP來增強數(shù)據(jù)多樣性。
室外環(huán)境
室外環(huán)境下的UAVs VLN任務更為復雜,涉及更大的開放空間和動態(tài)環(huán)境變化。主要方法包括:
AerialVLN:該任務要求UAVs根據(jù)自然語言指令和第一人稱視覺感知導航到目標位置。AerialVLN通過擴展基線模型,結合GPT-4o進行自然語言指令的分解,并使用Grounding DINO和Tokenize Anything(TAP)提取語義掩碼和視覺信息。
CityNav:通過模擬平臺提供城市規(guī)模的3D環(huán)境,結合自然語言指令進行導航。MGP模型使用GPT-3.5解釋地標名稱、空間關系和任務目標,并結合Grounding DINO和MobileSAM生成高精度的目標區(qū)域。
UAV Navigation LLM:通過引入UAV-Need-Help基準任務,構建相關數(shù)據(jù)集,利用Vicuna-7B和EVA-CLIP提取視覺特征,并采用分層軌跡生成機制進行高效的自然語言導航。
視覺語言跟蹤
視覺語言跟蹤(VLT)任務旨在通過多模態(tài)輸入實現(xiàn)連續(xù)的目標跟蹤,并動態(tài)調整飛行路徑以應對目標遮擋和環(huán)境干擾。主要方法包括:
目標搜索
目標搜索任務結合了多模態(tài)目標感知和智能任務規(guī)劃,是一種復雜的高層次自主UAVs任務。主要方法包括:
規(guī)劃傳統(tǒng)方法的挑戰(zhàn)
傳統(tǒng)的UAVs任務規(guī)劃算法在復雜動態(tài)環(huán)境中面臨適應性差、協(xié)調困難等問題。多UAVs系統(tǒng)的任務規(guī)劃需要綜合考慮每架UAVs的能力、限制和傳感模式,同時滿足能耗、避障等約束。
然而,現(xiàn)有方法在實時適應環(huán)境動態(tài)、處理意外情況和未定義故障模式方面存在不足。
LLMs的應用
LLMs通過思維鏈(Chain of Thought, CoT)框架將復雜任務分解為一系列清晰可執(zhí)行的子任務,提供了明確的規(guī)劃路徑和邏輯框架。
LLMs的優(yōu)勢在于其上下文學習和少樣本學習能力,使其能夠靈活適應不同的任務需求,快速生成高效的規(guī)劃策略。
使用GPT-4解析用戶提供的自然語言指令,生成精確的任務規(guī)劃腳本。
引入輕量級任務規(guī)劃語言(MiniSpec)以提高任務生成效率和響應速度。
集成視覺編碼模塊進行實時環(huán)境感知和動態(tài)任務調整。
飛行控制單UAV飛行控制
單UAV的飛行控制通常依賴于模仿學習和強化學習方法,這些方法在提升控制策略的智能化方面顯示出巨大潛力。然而,這些方法通常需要大規(guī)模的標注數(shù)據(jù),并且在實時性能和安全性方面存在局限。
LLMs的應用:LLMs通過少樣本學習能力快速適應新任務需求,通過上下文學習能力動態(tài)分析任務環(huán)境并生成高層飛行策略。此外,基于語義的自然語言交互顯著提高了人機協(xié)作的效率,支持任務規(guī)劃、實時決策和復雜環(huán)境適應。
典型研究:Courbon等人提出了基于視覺記憶的導航策略,Vemprala等人開發(fā)了PromptCraft平臺,結合ChatGPT和模擬環(huán)境進行自然語言驅動的飛行控制。
UAVs集群飛行控制
UAVs集群的飛行控制涉及多UAVs之間的協(xié)作任務,如編隊飛行、任務分配和動態(tài)避障。多智能體強化學習和圖神經(jīng)網(wǎng)絡(GNNs)提供了強大的建模能力,但在通信延遲、計算復雜性和全局優(yōu)化能力方面仍面臨挑戰(zhàn)。
LLMs的應用:LLMs通過自然語言生成時間序列航點,優(yōu)化路徑以滿足物理約束和避障要求。Swarm-GPT和FlockGPT等方法結合模型安全運動規(guī)劃和LLMs,實現(xiàn)UAVs集群的創(chuàng)新控制方案。
典型研究:Jiao等人提出了Swarm-GPT系統(tǒng),通過重新提示動態(tài)修改飛行路徑,實現(xiàn)靈活的編隊和動態(tài)調整。CLIPSwarm探索了自動化和創(chuàng)意的控制方案,提升UAVs集群表演的效率和操作性。
基礎平臺
高質量的數(shù)據(jù)資源和完善的處理工作流程對于UAVs系統(tǒng)中LLMs、VLMs和VFM技術的應用至關重要。
這些資源不僅為多模態(tài)任務提供了堅實的基礎,還支持相關領域的技術創(chuàng)新和方法論進步。具體包括:
DTLLM-VLT:該框架通過多粒度文本生成增強VLT性能。使用SAM提取目標分割掩碼,并結合Osprey生成初始視覺描述。LLaMA或Vicuna生成多種粒度的文本注釋,覆蓋目標類別、顏色、動作和動態(tài)變化,從而提高語義支持,增強跟蹤準確性和魯棒性。
CNER-UAV:該數(shù)據(jù)集用于UAVs遞送系統(tǒng)中的細粒度中文命名實體識別。利用GPT-3.5和ChatGLM實現(xiàn)精確的地址信息識別。
GPG2A:該模型通過從地面圖像合成航空圖像來解決視角轉換問題。采用兩階段生成框架,結合BEV布局圖和文本描述生成高質量航空圖像,優(yōu)化語義相關性和場景一致性。
AeroVerse:該平臺作為航空智能基準套件,集成模擬器、數(shù)據(jù)集、任務定義和評估方法,推動UAVs技術在感知、認知、規(guī)劃和決策方面的發(fā)展。
其他框架和平臺:包括Tang等人開發(fā)的UAVs控制安全評估框架,Xu等人設計的緊急通信網(wǎng)絡優(yōu)化框架,以及Pinelli等人提出的UAVs語音控制框架。這些框架結合自然語言處理技術,最大化人機交互的潛力。
UAVs應用場景

監(jiān)控
監(jiān)控是UAVs應用的重要領域一個,涉及交通場景、城市環(huán)境和監(jiān)管任務。傳統(tǒng)的監(jiān)控方法主要依賴于機器學習技術,而結合FMs(尤其是LLMs和VLMs)可以顯著提升UAVs的環(huán)境感知能力和任務執(zhí)行效率。
車輛檢測和分類:UAVs結合FMs可以自動進行車輛檢測、分類、行人檢測、騎行者檢測、速度估計和車輛計數(shù)。
智能決策:利用VLMs進行視覺信息獲取,結合LLMs進行分析和決策,使UAVs能夠自主進行城市巡邏、識別和跟蹤任務。
農(nóng)業(yè)應用:在農(nóng)業(yè)應用中,F(xiàn)Ms可以幫助農(nóng)民提高生產(chǎn)力和產(chǎn)量。
物流
在物流領域,UAVs可以實現(xiàn)整個物流鏈的智能化,從決策到路線規(guī)劃和最終遞送。FMs的應用為解決UAVs物流中的挑戰(zhàn)提供了新途徑。
優(yōu)化調度和路線規(guī)劃:利用FMs的推理和決策能力,優(yōu)化UAVs的調度和路線規(guī)劃,提高自動化水平和處理效率。
人機交互:FMs的強理解能力改善了人機交互體驗,提供更好的用戶體驗。
供應鏈管理:通過區(qū)塊鏈技術和自然語言交互,實現(xiàn)安全的UAVs物流系統(tǒng)。
應急響應
UAVs在應急響應和災害救援任務中具有固有優(yōu)勢,能夠快速適應大多數(shù)緊急場景。結合FMs可以進一步提高UAVs的實時決策能力和任務執(zhí)行效率。
快速決策:利用FMs的上下文學習能力,快速生成可操作的應急計劃,并實時更新和調整。
復雜數(shù)據(jù)處理:結合多種傳感器進行自主執(zhí)行復雜任務,提高UAVs的實時決策能力。
通信網(wǎng)絡建立:在偏遠或受災地區(qū)建立通信網(wǎng)絡,支持網(wǎng)絡依賴的任務和離線應急響應。
UAVs智能體:基礎模型與UAVs系統(tǒng)集成框架

論文提出了整合大型語言模型(LLMs)和視覺語言模型(VLMs)于UAVs系統(tǒng)的一般框架,稱為“Agentic UAV”。該框架旨在通過結合FMs來增強UAVs的自主性和智能化水平。
數(shù)據(jù)模塊
數(shù)據(jù)模塊是關于如何準備和適配UAVs相關數(shù)據(jù)以供基礎模型(FMs)進行微調和訓練。
數(shù)據(jù)準備
數(shù)據(jù)模塊的主要目標是創(chuàng)建或適配數(shù)據(jù),使其適合于微調和訓練專為UAVs任務設計的FMs。UAVs數(shù)據(jù)通常包括多模態(tài)傳感器數(shù)據(jù)和操作員提供的自然語言指令。
自然語言指令生成
自然語言指令的生成是數(shù)據(jù)模塊的關鍵部分。這通常涉及使用圖像標注模型或其他工具來創(chuàng)建描述性或基于問題的注釋,以便為傳感器數(shù)據(jù)提供上下文。
數(shù)據(jù)集構建
構建UAVs特定的數(shù)據(jù)集對于訓練和微調模型至關重要。這些數(shù)據(jù)集通常用于導航、地理定位和遙感等任務。
基礎模型模塊基礎模型選擇
基礎模型模塊第一步是模型選擇,涉及根據(jù)任務類型確定使用的語言模型或視覺語言模型。選擇合適的模型是確保UAVs系統(tǒng)能夠有效處理復雜任務的關鍵。
語言模型(LLMs):適用于需要自然語言處理的任務,如任務規(guī)劃、決策制定和人機交互。典型模型包括ChatGPT和LLAMA。
視覺語言模型(VLMs):適用于需要處理視覺和語言數(shù)據(jù)的多模態(tài)任務。典型模型包括GPT-4V、LLaVA和Qwen2-VL。
3D模型:適用于在3D環(huán)境中操作的UAVs,能夠處理點云數(shù)據(jù)并進行3D規(guī)劃和任務執(zhí)行。這些模型通過增強場景幾何理解來提高任務執(zhí)行的靈活性。
模型優(yōu)化
在選擇了基礎模型之后,優(yōu)化過程旨在提高模型在UAVs特定任務中的性能。
指令微調(Instruction Tuning):通過創(chuàng)建任務特定的模板,將任務背景知識嵌入模型的交互中。這種方法允許模型更好地理解和執(zhí)行特定任務。
少樣本學習(Few-shot Learning):使用精心策劃的示例幫助模型快速掌握任務目標,特別適用于復雜任務。
思維鏈(Chain of Thought, CoT):將任務分解為多個子任務,逐步解決以提高推理和執(zhí)行能力。
低秩適應(Low-Rank Adaptation, LoRA):通過微調模型的部分參數(shù)來優(yōu)化性能,同時保持計算效率。
基于人類反饋的強化學習(RLHF):通過結合人類反饋的獎勵信號來增強模型的對齊和適應性,使其能夠更好地應對動態(tài)UAVs挑戰(zhàn)。
知識模塊
論文介紹了如何通過檢索增強生成(Retrieval-Augmented Generation, RAG)技術來增強UAVs系統(tǒng)的決策能力和任務執(zhí)行效率。
RAG技術概述
RAG技術結合了檢索和生成能力,通過從外部知識庫中檢索相關信息并將其與生成模型的輸出融合,從而提高生成結果的質量和領域適應性。RAG的核心功能包括:
在UAVs系統(tǒng)中的應用
在UAVs系統(tǒng)中,RAG技術可以應用于多個方面,以提高系統(tǒng)的智能化和自主性:
實時環(huán)境數(shù)據(jù)訪問:RAG可以提供實時的氣象條件、地形信息和空中交通更新等環(huán)境數(shù)據(jù),幫助UAVs進行飛行規(guī)劃和導航。
高級決策支持:通過集成領域特定的知識庫,UAVs可以在動態(tài)環(huán)境中進行更高級別的任務調整和決策。
人機交互增強:RAG可以檢索歷史數(shù)據(jù)或上下文信息,以增強與操作員的交互,提供更清晰的任務指導和系統(tǒng)決策的解釋。
優(yōu)勢與應用前景
RAG技術的優(yōu)勢在于其靈活性和實時性,能夠根據(jù)UAVs的具體任務需求動態(tài)調整和優(yōu)化。這種模塊化的架構允許獨立更新知識庫和生成模型,確保信息的時效性和準確性。
通過結合RAG技術,UAVs系統(tǒng)能夠在復雜和動態(tài)的環(huán)境中實現(xiàn)更智能和自主的操作,為未來的UAVs應用提供了廣闊的前景。
工具模塊
工具模塊包括通用工具和任務特定工具,可以增強UAVs的功能,以應對各種任務需求。
通用工具
通用工具專注于提供多模態(tài)功能,以增強UAVs的感知和交互能力。這些工具通常包括視覺語言模型(VLMs)和視覺基礎模型(VFMs),它們在處理視覺任務時表現(xiàn)出色。
任務特定工具
任務特定工具是為UAVs特定任務設計的,主要用于飛行控制和任務執(zhí)行。這些工具通常包括開源的飛行控制器和任務規(guī)劃軟件。
工具模塊的應用
工具模塊的應用旨在提高UAVs系統(tǒng)的整體性能和任務執(zhí)行效率。通過結合通用工具和任務特定工具,UAVs能夠在復雜環(huán)境中實現(xiàn)更智能和自主的操作。
智能體模塊
智能體模塊是關于如何在UAVs系統(tǒng)中實現(xiàn)智能決策和任務執(zhí)行能力的模塊。該模塊通過集成高層協(xié)調和任務特定智能體工作流,優(yōu)化UAVs在復雜任務中的操作。
管理者智能體
管理者智能體負責UAVs集群的高級任務協(xié)調和調度。其主要職責包括:
UAVs智能體工作流
每個UAVs都遵循一個自主的智能體工作流,該工作流包括一系列處理感知、規(guī)劃和控制任務的智能體。這些智能體按順序操作,以確保UAVs能夠有效地處理必要的數(shù)據(jù)和執(zhí)行任務目標。
感知智能體:首先處理傳感器數(shù)據(jù),使用先進的視覺語言模型(如CLIP)進行對象識別、分割和定位。
規(guī)劃智能體:利用感知智能體提供的數(shù)據(jù)生成優(yōu)化的飛行路徑和任務策略,確保UAVs能夠高效地導航和完成任務。
控制智能體:將規(guī)劃轉化為可執(zhí)行的命令,控制UAVs的飛行和任務執(zhí)行。
智能體協(xié)作與適應性
智能體模塊強調UAVs之間以及UAVs與全局智能體之間的協(xié)作和適應性。這種協(xié)作確保了UAVs群在復雜任務中的協(xié)同工作。
全局指導:全局智能體提供高層次的指令,指導整體任務策略。這些指令被分解為詳細的執(zhí)行計劃,由各個UAVs智能體執(zhí)行。
實時調整:UAVs智能體通過實時數(shù)據(jù)反饋和不斷變化的條件進行任務調整,確保任務的順利進行。
信息共享:UAVs之間通過信息共享和協(xié)調行動,適應共享的情境意識,如避免碰撞或協(xié)同完成任務等。
總結
論文探索了將基礎模型與UAVs結合的潛力,強調了LLMs在提升UAVs自主性和智能化方面的作用。
通過系統(tǒng)綜述現(xiàn)有方法和數(shù)據(jù)資源,提出了實現(xiàn)具有自主智能的UAV的參考路線圖。
未來的研究方向包括進一步整合知識和工具模塊,以創(chuàng)建能夠處理復雜任務和動態(tài)環(huán)境的UAVs系統(tǒng)。
來源:杭州低空無人機中心???
免責聲明:我們尊重原創(chuàng),也注重分享。文中部分素材來源網(wǎng)絡,版權歸原作者所有,如有侵犯您的權益請及時聯(lián)系,我們將第一時間刪除。