OpenCV Vision Automation | 智慧化視覺辨識與自動化操作系統

Joseph Chen

2024 - 2025

12 min read

智慧自動化

在手機自動化測試領域中，傳統流程主要依賴 XY 軸點擊設備 (XY Auto Clicker) 模擬人工操作。

然而，過去的座標點擊模式存在明顯缺陷：一旦手機版面微調、螢幕解析度改變或系統更新導致 UI 位移，工程師就必須手動重新校正成千上萬個座標點。這種「硬連結 (Hard-linked)」的自動化方式維護成本極高。

為了解決這個問題，我開發了一套基於 OpenCV 的視覺導航系統，將操作邏輯從「固定座標」轉向「動態辨識」。

系統架構流程 (Pipeline)

Camera Stream

OpenCV Processing

Coordinate Mapping

Python Controller

XY Device Action

實戰案例：維護成本的轉變

Before (傳統模式)

iPhone 更新後，確認按鈕位移了 20px。由於腳本採用固定座標，導致後續數百筆自動化測試全部失效，工程師需花費整天重新手動校正所有相關座標。

After (視覺導航模式)

系統透過 OpenCV 自動搜尋「確認」圖示位置。即使 UI 版面微調，系統仍能精確鎖定動態座標並觸發 XY 設備，達成無人值守的零維護轉型。

核心技術細節

座標映射與校正 (Coordinate Mapping)

核心難點在於影像像素座標 (Pixel Position) 與實體設備座標 (Physical Coordinate) 的映射。我設計了一套校正邏輯：

比例換算 (Scaling)

Offset Calibration

座標系映射

透視校正 (Perspective Transform)

多重辨識驗證 (Hybrid Detection)

為了避免 Template Matching 在複雜背景下的誤判，系統導入了混合判斷機制：

OCR 文字辨識：二次確認按鈕上的文字內容，確保目標狀態正確。
Feature Matching：在影像變形或縮放時，提供比單純模板匹配更高的魯棒性。

我在專案中負責的工作

OpenCV 視覺辨識開發

實作 Template Matching 與影像預處理流程，提升極端光影下的辨識率。

座標映射算法設計

開發像素與實體座標轉換邏輯，實現 ±1mm 內的點擊精度。

Python 系統整合

串接影像處理模組與 Serial Port 控制器，建立完整的自動化閉環。

校正系統 UI 開發

設計視覺化校正介面，讓工程師能快速完成攝影機與點擊器的初步對位。

未來規劃與演進

目前的系統已成功驗證「視覺導向自動化」的潛力，未來的發展方向將專注於更高的智慧化程度：

UI 異常自動檢測系統

OCR + Vision 混合判斷邏輯優化

AI-based UI State Recognition

自動化生成測試操作流

視覺化測試結果熱點圖報告

OpenCV XY Vision Automation
智慧化視覺辨識與自動化操作系統

系統架構流程 (Pipeline)

實戰案例：維護成本的轉變

核心技術細節

座標映射與校正 (Coordinate Mapping)

多重辨識驗證 (Hybrid Detection)

我在專案中負責的工作

未來規劃與演進

延伸閱讀：更多 AI 技術分享

AI 離線部署系列 EP.01：架構簡介

TTS 模型語音合成技術

LoRA 參數高效微調

OpenCV XY Vision Automation智慧化視覺辨識與自動化操作系統

系統架構流程 (Pipeline)

實戰案例：維護成本的轉變

核心技術細節

座標映射與校正 (Coordinate Mapping)

多重辨識驗證 (Hybrid Detection)

我在專案中負責的工作

未來規劃與演進

延伸閱讀：更多 AI 技術分享

AI 離線部署系列 EP.01：架構簡介

TTS 模型語音合成技術

LoRA 參數高效微調

OpenCV XY Vision Automation
智慧化視覺辨識與自動化操作系統