ReID 與 Object Detection 的差異與 Hailo 應用實作

1. Introduction

ReID (Re-Identification) 是一種電腦視覺技術，屬於圖像檢索其中一個子任務。目標在不同攝影機、時間與地點中，透過演算法及目標追蹤的技術達到持續辨識到同一目標，並將圖片存入目標的圖庫中以便後續追蹤。常見應用包含：安管、警用監視系統、人流分析、車流分析等等。

ReID 與 Object Detection 的差異在於：以人為目標物為例，Object Detection 只能標出「畫面中有哪些人或物」，而 Person ReID 則進一步解決「這個人在其他攝影機或不同時間再次出現時，是否能辨識出是同一個人？」的問題，解決人工查詢的困難與耗時，以及人臉辨識系統常常無法拍到人臉的問題。

ReID 在實際應用場景下所牽涉到的環境參數非常的多，如不同攝影機會有不同的解析度、對焦、角度…等等，人的衣著顏色、遮擋物…等等，背景中的光線、陰影…等等，都會影響 ReID 的準確度，因此有效的跨鏡頭追蹤演算法是至關重要的。

2. 使用的模型

YOLO

Object Detection 的目的是將物件依照其特徵與屬性進行歸類和分組，並賦予標籤給予類別。在 ReID 中的功能為框出圖片中目標物，並取得大小及座標，以便後續進行特徵提取與比對。由於 ReID 的重點在於身份識別與跨鏡頭追蹤，因此前端的偵測品質將直接影響後端辨識的準確度。

採用 YOLOv5s 作為 Object Detection 模型，其優勢在於：

輕量化與高效能：YOLOv5s 採用小型的 backbone 結構，能在保持偵測精度的同時，降低運算量並提升推論速度，適合即時應用場景，如下圖用 AIEH2000 跑 YOLOv5s 的 FPS 為 393.29 Frames/Sec。

P.S. 可以使用 Hailo Model Zoo 中的 yolov5s 模型，抓取圖片中的目標，或是使用其他 YOLO 模型，Hailo Model Zoo 都有模型可供下載。

RepVGG

在完成前端偵測之後，ReID 模型的主要任務是針對偵測到的人物作為輸入進行特徵提取，輸出是一段能代表該目標獨特外觀的特徵向量。此處考量即時性與運算資源的限制，可採用 Hailo Model Zoo 中的 RepVGG 作為 ReID 模型的 backbone 完成任務。

RepVGG 的主要優勢如下：

高效的推論速度：RepVGG 在訓練階段使用多分支結構提升表達能力，然而在推論階段透過 Structural Re-parameterization，能將多分支網路壓縮為單一路徑的卷積網路，大幅降低運算量來加速推理，適合需要即時性的 ReID 系統，如下圖，用 AIEH2000 跑 RepVGG，FPS 為 5199.33 Frames/Sec。

降低硬體需求：由於推論結構僅由卷積組成，RepVGG 特別適合部署在嵌入式系統並搭配 Hailo AI Accelerator Series，充分利用硬體加速特性，在低功耗環境下仍維持高效能。
準確性與效率兼具：雖然進行了結構簡化，RepVGG 仍能保留訓練階段所學到的豐富特徵表徵能力，確保在目標再識別任務中具備良好的準確率與判別能力。

綜上所述，RepVGG 在 ReID 任務中的優勢不僅體現在準確率上，更重要的在於推論速度與硬體適配性方面的表現，達成即時性與跨鏡頭追蹤的需求。

3. 實作

開發平台

Hardware	Dell XE4 / Intel 12th Alder Lack i7-12700
OS	Ubuntu 22.04 Kernel 6.8
Hailo AI Accelerator / HailoRT	SUNIX AIEH2000 / Single Hailo8 AI inference processors / HailoRT 4.20.0
API	OpenCV 4.8.0 / XTensor Stack 0.24.7 / XTL 0.7.7

開發流程

Object Detection：
對輸入影像進行 letterbox 前處理 (Pre-processing)，確保影像在縮放至模型輸入大小時維持原始長寬比例，同時填補邊框避免失真。

透過 HailoRT 執行 YOLOv8s 模型推論，獲取偵測任務所需的特徵輸出。

從 HailoRT 中讀取模型輸出的原始張量資料 (Raw Output Data)，作為後續解析的輸入。

對模型輸出進行後處理 (Post-processing)，包含 BBox Decoding 與 NMS，以濾除冗餘框並保留最具代表性的偵測結果。

最終輸出：回傳處理後的 BBox，包含目標的位置與信心分數，作為後續 ReID 模組或應用端的輸入。
ReID：
對輸入影像進行 resize 前處理，將人物區域裁切並調整至符合 RepVGG 模型輸入需求的大小與格式。

透過 HailoRT 執行 RepVGG 模型推論，提取輸入人物的深度特徵表示。

從 HailoRT 讀取模型輸出的原始資料 (特徵向量)，作為身份辨別的輸入來源。

對輸出特徵進行後處理 (Post-processing)，包括正規化或嵌入向量轉換，確保特徵向量具備可比對性與一致性。

呼叫圖庫管理函式 (Gallery Management Function)，將處理後的特徵向量與資料庫中已登錄的特徵比對，並輸出對應的身份編號 (ID) 或建立新身份圖庫。

流程圖與說明

影像輸入與前處理：系統由攝影機輸入連續影像，經由 Load Image 與 Rescale/Letterbox 前處理，將影像轉換為符合 YOLO 模型輸入需求的格式。
目標偵測：前處理後的影像輸入至 YOLO 模型，輸出 BBox。隨後透過 BBox 解碼與 NMS，濾除重疊框，保留最接近真實的檢測結果。
人物裁切與 ReID Pre-processing：偵測出的邊界框會被用於裁切影像中目標人物，並進行 Crop & Rescale。
特徵提取與 ReID 後處理：輸入至 ReID 模型，生成特徵向量並正規化處理，確保統一特徵空間中具有穩定可比性。
身份比對與資料庫更新：將特徵向量送入身份圖庫，透過相似度判斷是否為同一身份或建立新身份。
最終輸出：系統輸出 BBox 與 ID，完成從偵測到跨鏡頭再識別。

執行結果

執行結果如下圖所示，系統在不同攝影機視角與拍攝角度下，仍能正確識別同一人物。兩張影像雖來自不同攝影機，且人物姿態與視角存在差異，ReID 模組仍能將其特徵向量成功匹配至同一身份。此結果驗證了這次實作所建構之 Detection + ReID 整合系統 在跨視角與跨攝影機條件下的有效性，證明其具有實際應用於智慧監控與跨場景身份追蹤的可行性

回上一頁

新聞活動

活動訊息

ReID 與 Object Detection 的差異與 Hailo 應用實作

1. Introduction

2. 使用的模型

YOLO

採用 YOLOv5s 作為 Object Detection 模型，其優勢在於：

輕量化與高效能：YOLOv5s 採用小型的 backbone 結構，能在保持偵測精度的同時，降低運算量並提升推論速度，適合即時應用場景，如下圖用 AIEH2000 跑 YOLOv5s 的 FPS 為 393.29 Frames/Sec。

P.S. 可以使用 Hailo Model Zoo 中的 yolov5s 模型，抓取圖片中的目標，或是使用其他 YOLO 模型，Hailo Model Zoo 都有模型可供下載。

RepVGG

RepVGG 的主要優勢如下：

高效的推論速度：RepVGG 在訓練階段使用多分支結構提升表達能力，然而在推論階段透過 Structural Re-parameterization，能將多分支網路壓縮為單一路徑的卷積網路，大幅降低運算量來加速推理，適合需要即時性的 ReID 系統，如下圖，用 AIEH2000 跑 RepVGG，FPS 為 5199.33 Frames/Sec。

降低硬體需求：由於推論結構僅由卷積組成，RepVGG 特別適合部署在嵌入式系統並搭配 Hailo AI Accelerator Series，充分利用硬體加速特性，在低功耗環境下仍維持高效能。
準確性與效率兼具：雖然進行了結構簡化，RepVGG 仍能保留訓練階段所學到的豐富特徵表徵能力，確保在目標再識別任務中具備良好的準確率與判別能力。

綜上所述，RepVGG 在 ReID 任務中的優勢不僅體現在準確率上，更重要的在於推論速度與硬體適配性方面的表現，達成即時性與跨鏡頭追蹤的需求。

3. 實作

開發平台

Hardware	Dell XE4 / Intel 12th Alder Lack i7-12700
OS	Ubuntu 22.04 Kernel 6.8
Hailo AI Accelerator / HailoRT	SUNIX AIEH2000 / Single Hailo8 AI inference processors / HailoRT 4.20.0
API	OpenCV 4.8.0 / XTensor Stack 0.24.7 / XTL 0.7.7

開發流程

Object Detection：
對輸入影像進行 letterbox 前處理 (Pre-processing)，確保影像在縮放至模型輸入大小時維持原始長寬比例，同時填補邊框避免失真。

透過 HailoRT 執行 YOLOv8s 模型推論，獲取偵測任務所需的特徵輸出。

從 HailoRT 中讀取模型輸出的原始張量資料 (Raw Output Data)，作為後續解析的輸入。

對模型輸出進行後處理 (Post-processing)，包含 BBox Decoding 與 NMS，以濾除冗餘框並保留最具代表性的偵測結果。

最終輸出：回傳處理後的 BBox，包含目標的位置與信心分數，作為後續 ReID 模組或應用端的輸入。
ReID：
對輸入影像進行 resize 前處理，將人物區域裁切並調整至符合 RepVGG 模型輸入需求的大小與格式。

透過 HailoRT 執行 RepVGG 模型推論，提取輸入人物的深度特徵表示。

從 HailoRT 讀取模型輸出的原始資料 (特徵向量)，作為身份辨別的輸入來源。

對輸出特徵進行後處理 (Post-processing)，包括正規化或嵌入向量轉換，確保特徵向量具備可比對性與一致性。

呼叫圖庫管理函式 (Gallery Management Function)，將處理後的特徵向量與資料庫中已登錄的特徵比對，並輸出對應的身份編號 (ID) 或建立新身份圖庫。

流程圖與說明

影像輸入與前處理：系統由攝影機輸入連續影像，經由 Load Image 與 Rescale/Letterbox 前處理，將影像轉換為符合 YOLO 模型輸入需求的格式。
目標偵測：前處理後的影像輸入至 YOLO 模型，輸出 BBox。隨後透過 BBox 解碼與 NMS，濾除重疊框，保留最接近真實的檢測結果。
人物裁切與 ReID Pre-processing：偵測出的邊界框會被用於裁切影像中目標人物，並進行 Crop & Rescale。
特徵提取與 ReID 後處理：輸入至 ReID 模型，生成特徵向量並正規化處理，確保統一特徵空間中具有穩定可比性。
身份比對與資料庫更新：將特徵向量送入身份圖庫，透過相似度判斷是否為同一身份或建立新身份。
最終輸出：系統輸出 BBox 與 ID，完成從偵測到跨鏡頭再識別。

執行結果

回上一頁

新聞活動

活動訊息

ReID 與 Object Detection 的差異與 Hailo 應用實作

1. Introduction

2. 使用的模型

YOLO

採用 YOLOv5s 作為 Object Detection 模型，其優勢在於：

輕量化與高效能：YOLOv5s 採用小型的 backbone 結構，能在保持偵測精度的同時，降低運算量並提升推論速度，適合即時應用場景，如下圖用 AIEH2000 跑 YOLOv5s 的 FPS 為 393.29 Frames/Sec。

P.S. 可以使用 Hailo Model Zoo 中的 yolov5s 模型，抓取圖片中的目標，或是使用其他 YOLO 模型，Hailo Model Zoo 都有模型可供下載。

RepVGG

RepVGG 的主要優勢如下：

高效的推論速度：RepVGG 在訓練階段使用多分支結構提升表達能力，然而在推論階段透過 Structural Re-parameterization，能將多分支網路壓縮為單一路徑的卷積網路，大幅降低運算量來加速推理，適合需要即時性的 ReID 系統，如下圖，用 AIEH2000 跑 RepVGG，FPS 為 5199.33 Frames/Sec。

降低硬體需求：由於推論結構僅由卷積組成，RepVGG 特別適合部署在嵌入式系統並搭配 Hailo AI Accelerator Series，充分利用硬體加速特性，在低功耗環境下仍維持高效能。
準確性與效率兼具：雖然進行了結構簡化，RepVGG 仍能保留訓練階段所學到的豐富特徵表徵能力，確保在目標再識別任務中具備良好的準確率與判別能力。

綜上所述，RepVGG 在 ReID 任務中的優勢不僅體現在準確率上，更重要的在於推論速度與硬體適配性方面的表現，達成即時性與跨鏡頭追蹤的需求。

3. 實作

開發平台

Hardware	Dell XE4 / Intel 12th Alder Lack i7-12700
OS	Ubuntu 22.04 Kernel 6.8
Hailo AI Accelerator / HailoRT	SUNIX AIEH2000 / Single Hailo8 AI inference processors / HailoRT 4.20.0
API	OpenCV 4.8.0 / XTensor Stack 0.24.7 / XTL 0.7.7

開發流程

Object Detection：
對輸入影像進行 letterbox 前處理 (Pre-processing)，確保影像在縮放至模型輸入大小時維持原始長寬比例，同時填補邊框避免失真。

透過 HailoRT 執行 YOLOv8s 模型推論，獲取偵測任務所需的特徵輸出。

從 HailoRT 中讀取模型輸出的原始張量資料 (Raw Output Data)，作為後續解析的輸入。

對模型輸出進行後處理 (Post-processing)，包含 BBox Decoding 與 NMS，以濾除冗餘框並保留最具代表性的偵測結果。

最終輸出：回傳處理後的 BBox，包含目標的位置與信心分數，作為後續 ReID 模組或應用端的輸入。
ReID：
對輸入影像進行 resize 前處理，將人物區域裁切並調整至符合 RepVGG 模型輸入需求的大小與格式。

透過 HailoRT 執行 RepVGG 模型推論，提取輸入人物的深度特徵表示。

從 HailoRT 讀取模型輸出的原始資料 (特徵向量)，作為身份辨別的輸入來源。

對輸出特徵進行後處理 (Post-processing)，包括正規化或嵌入向量轉換，確保特徵向量具備可比對性與一致性。

呼叫圖庫管理函式 (Gallery Management Function)，將處理後的特徵向量與資料庫中已登錄的特徵比對，並輸出對應的身份編號 (ID) 或建立新身份圖庫。

流程圖與說明

影像輸入與前處理：系統由攝影機輸入連續影像，經由 Load Image 與 Rescale/Letterbox 前處理，將影像轉換為符合 YOLO 模型輸入需求的格式。
目標偵測：前處理後的影像輸入至 YOLO 模型，輸出 BBox。隨後透過 BBox 解碼與 NMS，濾除重疊框，保留最接近真實的檢測結果。
人物裁切與 ReID Pre-processing：偵測出的邊界框會被用於裁切影像中目標人物，並進行 Crop & Rescale。
特徵提取與 ReID 後處理：輸入至 ReID 模型，生成特徵向量並正規化處理，確保統一特徵空間中具有穩定可比性。
身份比對與資料庫更新：將特徵向量送入身份圖庫，透過相似度判斷是否為同一身份或建立新身份。
最終輸出：系統輸出 BBox 與 ID，完成從偵測到跨鏡頭再識別。

執行結果

回上一頁

新聞活動

活動訊息

ReID 與 Object Detection 的差異與 Hailo 應用實作

1. Introduction

2. 使用的模型

YOLO

採用 YOLOv5s 作為 Object Detection 模型，其優勢在於：

輕量化與高效能：YOLOv5s 採用小型的 backbone 結構，能在保持偵測精度的同時，降低運算量並提升推論速度，適合即時應用場景，如下圖用 AIEH2000 跑 YOLOv5s 的 FPS 為 393.29 Frames/Sec。

P.S. 可以使用 Hailo Model Zoo 中的 yolov5s 模型，抓取圖片中的目標，或是使用其他 YOLO 模型，Hailo Model Zoo 都有模型可供下載。

RepVGG

RepVGG 的主要優勢如下：

高效的推論速度：RepVGG 在訓練階段使用多分支結構提升表達能力，然而在推論階段透過 Structural Re-parameterization，能將多分支網路壓縮為單一路徑的卷積網路，大幅降低運算量來加速推理，適合需要即時性的 ReID 系統，如下圖，用 AIEH2000 跑 RepVGG，FPS 為 5199.33 Frames/Sec。

降低硬體需求：由於推論結構僅由卷積組成，RepVGG 特別適合部署在嵌入式系統並搭配 Hailo AI Accelerator Series，充分利用硬體加速特性，在低功耗環境下仍維持高效能。
準確性與效率兼具：雖然進行了結構簡化，RepVGG 仍能保留訓練階段所學到的豐富特徵表徵能力，確保在目標再識別任務中具備良好的準確率與判別能力。

綜上所述，RepVGG 在 ReID 任務中的優勢不僅體現在準確率上，更重要的在於推論速度與硬體適配性方面的表現，達成即時性與跨鏡頭追蹤的需求。

3. 實作

開發平台

Hardware	Dell XE4 / Intel 12th Alder Lack i7-12700
OS	Ubuntu 22.04 Kernel 6.8
Hailo AI Accelerator / HailoRT	SUNIX AIEH2000 / Single Hailo8 AI inference processors / HailoRT 4.20.0
API	OpenCV 4.8.0 / XTensor Stack 0.24.7 / XTL 0.7.7

開發流程

Object Detection：
對輸入影像進行 letterbox 前處理 (Pre-processing)，確保影像在縮放至模型輸入大小時維持原始長寬比例，同時填補邊框避免失真。

透過 HailoRT 執行 YOLOv8s 模型推論，獲取偵測任務所需的特徵輸出。

從 HailoRT 中讀取模型輸出的原始張量資料 (Raw Output Data)，作為後續解析的輸入。

對模型輸出進行後處理 (Post-processing)，包含 BBox Decoding 與 NMS，以濾除冗餘框並保留最具代表性的偵測結果。

最終輸出：回傳處理後的 BBox，包含目標的位置與信心分數，作為後續 ReID 模組或應用端的輸入。
ReID：
對輸入影像進行 resize 前處理，將人物區域裁切並調整至符合 RepVGG 模型輸入需求的大小與格式。

透過 HailoRT 執行 RepVGG 模型推論，提取輸入人物的深度特徵表示。

從 HailoRT 讀取模型輸出的原始資料 (特徵向量)，作為身份辨別的輸入來源。

對輸出特徵進行後處理 (Post-processing)，包括正規化或嵌入向量轉換，確保特徵向量具備可比對性與一致性。

呼叫圖庫管理函式 (Gallery Management Function)，將處理後的特徵向量與資料庫中已登錄的特徵比對，並輸出對應的身份編號 (ID) 或建立新身份圖庫。

流程圖與說明

影像輸入與前處理：系統由攝影機輸入連續影像，經由 Load Image 與 Rescale/Letterbox 前處理，將影像轉換為符合 YOLO 模型輸入需求的格式。
目標偵測：前處理後的影像輸入至 YOLO 模型，輸出 BBox。隨後透過 BBox 解碼與 NMS，濾除重疊框，保留最接近真實的檢測結果。
人物裁切與 ReID Pre-processing：偵測出的邊界框會被用於裁切影像中目標人物，並進行 Crop & Rescale。
特徵提取與 ReID 後處理：輸入至 ReID 模型，生成特徵向量並正規化處理，確保統一特徵空間中具有穩定可比性。
身份比對與資料庫更新：將特徵向量送入身份圖庫，透過相似度判斷是否為同一身份或建立新身份。
最終輸出：系統輸出 BBox 與 ID，完成從偵測到跨鏡頭再識別。

執行結果

回上一頁

搜尋

物聯網時代智慧連網專家

ReID 與 Object Detection 的差異與 Hailo 應用實作

1. Introduction

2. 使用的模型

YOLO

RepVGG

3. 實作

開發平台

開發流程

流程圖與說明

執行結果

新聞活動

ReID 與 Object Detection 的差異與 Hailo 應用實作

1. Introduction

2. 使用的模型

YOLO

RepVGG

3. 實作

開發平台

開發流程

流程圖與說明

執行結果

新聞活動

ReID 與 Object Detection 的差異與 Hailo 應用實作

1. Introduction

2. 使用的模型

YOLO

RepVGG

3. 實作

開發平台

開發流程

流程圖與說明

執行結果

新聞活動

ReID 與 Object Detection 的差異與 Hailo 應用實作

1. Introduction

2. 使用的模型

YOLO

RepVGG

3. 實作

開發平台

開發流程

流程圖與說明

執行結果

新聞活動

訂閱三泰科技電子報

訂閱三泰科技電子報