在複雜的果園環境中,比較 YOLO11 和 YOLOv8 對遮擋和未遮擋的未成熟綠色果實進行實例分割的效能
แนวคิดหลัก
YOLO11 和 YOLOv8 在辨識未成熟綠色果實方面表現出色,尤其 YOLO11m-seg 在實例分割方面表現最佳,而 YOLOv8n 則在處理速度上佔優。
บทคัดย่อ
YOLO11 與 YOLOv8 實例分割效能比較:針對複雜果園環境中遮擋與未遮擋的未成熟綠色果實
本研究論文評估了 YOLO11 和 YOLOv8 這兩種最新的「You Only Look Once」(YOLO)系列模型在商業果園環境中對未成熟綠色蘋果進行實例分割的能力。研究重點關注這兩種模型及其各種配置如何處理遮擋和未遮擋果實的分割。
แปลแหล่งที่มา
เป็นภาษาอื่น
สร้าง MindMap
จากเนื้อหาต้นฉบับ
Comparing YOLO11 and YOLOv8 for instance segmentation of occluded and non-occluded immature green fruits in complex orchard environment
資料獲取與處理
研究團隊於美國華盛頓州 Prosser 一處種植「Scifresh」蘋果品種的商業果園中進行研究。果園樹距為 10 英尺,樹高維持在約 10 英尺。研究人員使用配備 Microsoft Azure Kinect DK 感測器的機器人成像平台,在果園中拍攝高解析度 RGB 影像。
總共收集了 991 張影像,並手動標註將未成熟果實分類為遮擋或未遮擋,區分標準為果實是否可見。標註後的資料集經過格式化,以相容於 YOLO11 和 YOLOv8 架構,並以 8:1:1 的比例分為訓練、測試和驗證集。
YOLO11 和 YOLOv8 訓練
YOLO11-seg 和 YOLOv8-seg 採用相同的訓練協定,以確保評估的平衡性。資料集包含在統一配置下處理的、處於不同遮擋狀態的未成熟綠色果實的手動標註影像。每個模型都使用了預先訓練的權重,以加速特定任務(未成熟綠色果實分割)的收斂,並利用先前學習到的與資料集相關的特徵。
效能評估
研究採用多種指標評估 YOLO11 和 YOLOv8 模型分割遮擋和未遮擋未成熟綠色蘋果的效能,包括平均交併比 (MIoU)、平均精度 (AP)、平均精度均值 (mAP)、平均召回率均值 (mAR) 和 F1 分數。
實例分割效能
YOLO11n-seg 在所有類別中均取得了最高的分割精度,總體得分為 0.831,突顯了其在果實偵測方面的穩健性。在分析未遮擋和遮擋果實時,YOLO11m-seg 和 YOLO11l-seg 模型分別取得了 0.851 和 0.829 的高分。YOLO11x-seg 在所有類別的遮罩召回率方面均處於領先地位,取得了 0.815 的優異成績,而 YOLO11m-seg 在識別未遮擋果實方面表現出色,召回率為 0.858。YOLOv8x-seg 在遮擋類別中表現出色,取得了 0.800 的最高遮罩召回率。
在 50% 交併比閾值 (mAP@50) 下的平均精度均值評估中,YOLO11m-seg 在所有類別中始終表現出色。對於「所有」類別,該模型不僅在邊界框偵測中取得了 0.876 的最高 mAP@50,而且在遮罩分割方面也表現出色,取得了 0.860 的優異成績。在未遮擋果實類別中,YOLO11m-seg 保持領先地位,邊界框和遮罩 mAP@50 分別為 0.908 和 0.909。這突顯了該模型在識別清晰可見的未遮擋果實方面的效能。對於遮擋果實類別(由於葉片遮擋導致部分可見,因此提出了更複雜的分割挑戰),YOLO11l-seg 和 YOLOv8l-seg 在邊界框 mAP@50 中並列第一,均取得了 0.847 的成績。然而,YOLO11m-seg 在遮罩 mAP@50 中以 0.810 的成績超越了其他模型,突顯了其在準確分割被周圍元素遮擋的果實方面的強大能力。
模型複雜度與訓練效率
YOLO11 模型的參數範圍從「YOLO11n-seg」配置的 283 萬個到「YOLO11x-seg」配置的 6200 萬個不等,而 YOLOv8 系列的參數範圍從「YOLOv8n-seg」的 294 萬個到「YOLOv8x-seg」的 6519 萬個不等。這些數字突顯了不同的複雜性和潛在的計算負擔。
在以 GFLOPs 衡量的計算複雜度方面,YOLO11x-seg 配置需要最高的計算資源,達到 318.5 GFLOPs,而 YOLO11n-seg 模型是該系列中計算效率最高的,僅使用了 10.2 GFLOPs。YOLOv8 系列也呈現出類似的趨勢,其中 YOLOv8x-seg 高達 313 GFLOPs,而 YOLOv8n-seg 的需求最低,為 10.7 GFLOPs。
在卷積層數量方面,YOLO11l-seg 和 YOLO11x-seg 模型包含最多的卷積層,均為 491 層,而 YOLO11n-seg 和 YOLO11s-seg 使用最少的層,均為 265 層。同樣,對於 YOLOv8,YOLOv8l-seg 和 YOLOv8x-seg 配置使用了 313 層,而 YOLOv8n-seg 和 YOLOv8s-seg 使用了 213 層。
YOLO11 和 YOLOv8 模型的訓練時間和完成周期差異很大,這表明效率水平不同,並且由於模型效能缺乏改進而提前停止。對於 YOLO11,YOLO11x-seg 配置在最短的時間內(6.046 小時)完成了 242 個周期的訓練,而 YOLO11l-seg 在僅 172 個周期後最早停止訓練,耗時 3.005 小時。對於 YOLOv8,YOLOv8l-seg 以 5.103 小時完成了 294 個周期,而 YOLOv8x-seg 在 178 個周期後停止訓練,耗時 5.619 小時。
影像處理速度
儘管 YOLO11 模型是最新的,並且融合了最先進的功能,但在影像處理速度方面,YOLOv8n 明顯優於 YOLO11 系列中的其他模型。具體而言,YOLOv8n 的推理速度僅為 3.3 毫秒,明顯快於 YOLO11 系列中最快的模型 YOLO11n(推理速度為 4.8 毫秒)。YOLOv8n 的出色效能突顯了其快速處理高解析度影像的效率,使其非常適合於農業環境中的即時應用,在這些環境中,及時準確地偵測和分割未成熟綠色果實至關重要。
สอบถามเพิ่มเติม
未來 YOLO 模型如何整合多模態資料(如 RGB-D 影像、LiDAR 點雲)以進一步提升果實偵測和分割的準確性?
多模態資料融合是提升 YOLO 模型在果實偵測和分割方面準確性的關鍵。未來 YOLO 模型可以透過以下方式整合 RGB-D 影像和 LiDAR 點雲資料:
多輸入網路結構: 設計一個多輸入網路結構,分別處理 RGB 影像、深度資訊和 LiDAR 點雲資料。例如,可以使用 YOLO 模型處理 RGB 影像,並使用 PointNet++ 等點雲處理網路處理 LiDAR 資料。然後,將兩個網路的特徵圖融合,以進行更準確的果實偵測和分割。
深度資訊增強: 將深度資訊作為額外通道與 RGB 影像融合,形成四通道 RGB-D 影像輸入 YOLO 模型。深度資訊可以提供物體形狀和空間位置的線索,有助於區分果實與背景,特別是在遮擋情況下。
LiDAR 點雲投影: 將 LiDAR 點雲投影到 RGB 影像平面,生成深度圖或點雲密度圖。這些圖像可以作為額外通道與 RGB 影像融合,輸入 YOLO 模型,提供更豐富的環境資訊。
注意力機制: 在融合多模態特徵時,可以使用注意力機制,讓模型學習如何動態地關注來自不同模態的關鍵資訊。例如,可以根據場景上下文,讓模型在遮擋情況下更多地關注深度資訊,而在光照變化時更多地關注 RGB 資訊。
聯合訓練與優化: 使用多模態資料集對 YOLO 模型進行聯合訓練,並針對多模態輸入設計損失函數,以優化模型在果實偵測和分割方面的整體性能。
透過整合多模態資料,未來 YOLO 模型可以更準確地感知果實的三維資訊、空間位置和遮擋關係,從而顯著提升果實偵測和分割的準確性,為農業自動化提供更可靠的技術支持。
如果將 YOLO 模型與其他電腦視覺技術(如目標追蹤、三維重建)相結合,是否可以開發出更全面、更智慧的農業應用?
將 YOLO 模型與目標追蹤、三維重建等電腦視覺技術相結合,可以開發出更全面、更智慧的農業應用,例如:
自動化果實採摘機器人: 結合 YOLO 模型的果實偵測和定位能力,以及目標追蹤技術對果實移動軌跡的預測,可以引導機器手臂準確地採摘果實,實現果園自動化採摘。
果樹生長監測與產量預測: 利用 YOLO 模型偵測果實數量和大小,結合目標追蹤技術記錄果實生長過程,可以建立果樹生長模型,預測果實產量,並根據實際情況調整果園管理策略。
果園三維地圖構建與導航: 將 YOLO 模型偵測到的果樹和果實資訊與三維重建技術相結合,可以構建高精度果園三維地圖,為機器人在果園中的自主導航和作業提供環境資訊。
果實品質評估: 結合 YOLO 模型的果實偵測和分割能力,以及基於影像的品質評估演算法,可以自動化地評估果實的顏色、大小、形狀、缺陷等品質指標,提高分級和包裝效率。
病蟲害早期預警: 利用 YOLO 模型偵測果實和葉片上的病蟲害特徵,結合目標追蹤技術監測病蟲害的發展趨勢,可以實現病蟲害的早期預警,及時採取防治措施,減少損失。
總之,將 YOLO 模型與其他電腦視覺技術相結合,可以充分發揮各自的優勢,開發出功能更強大、應用更廣泛的智慧農業系統,提高農業生產效率和管理水平。
YOLO 模型的發展如何促進農業機器人技術的進步,例如實現自動化果實採摘和精準農業管理?
YOLO 模型的發展為農業機器人技術的進步提供了強大的視覺感知能力,尤其在自動化果實採摘和精準農業管理方面:
自動化果實採摘:
精準定位與識別: YOLO 能夠快速準確地識別和定位果實在樹冠上的位置,即使果實被遮擋或與背景顏色相似,也能有效區分。
引導機器手臂操作: YOLO 偵測到的果實位置資訊可以轉換為機器手臂的操控指令,引導其精準到達目標果實,並根據果實大小和形狀調整抓取力度,避免損傷。
實時性與效率提升: YOLO 的快速處理速度滿足了果實採摘的實時性需求,機器人可以邊移動邊採摘,大幅提升了採摘效率。
精準農業管理:
果實產量預測: YOLO 可以用於自動統計果實數量、大小等資訊,結合歷史數據和生長模型,可以更準確地預測果實產量,為農業生產決策提供依據。
病蟲害監測與防治: YOLO 可以訓練識別果樹病蟲害的特徵,實現自動化病蟲害監測,並根據病蟲害種類和程度,精準噴灑農藥,減少農藥使用量,保護環境。
果園環境監測: YOLO 可以用於監測果園的環境參數,例如溫度、濕度、光照等,並根據實時數據調整灌溉、施肥等操作,實現精準化管理,提高果樹產量和品質。
YOLO 模型的持續發展將進一步推動農業機器人技術的進步:
更高精度和速度: 未來 YOLO 模型將不斷提升識別精度和處理速度,滿足農業機器人對實時性和準確性的更高要求。
更強環境適應性: 研究人員正致力於提高 YOLO 模型在不同光照、天氣、遮擋等複雜環境下的魯棒性,使其在農業場景中更加可靠。
更豐富的功能: 未來 YOLO 模型將整合更多功能,例如深度估計、三維重建等,為農業機器人提供更豐富的環境資訊,使其能夠執行更複雜的任務。
總之,YOLO 模型的發展為農業機器人技術的進步提供了強有力的技術支持,將加速農業自動化和智慧化的進程,為解決農業勞動力短缺、提高農業生產效率、保障糧食安全等問題提供有效的解決方案。