Computer Vision
EP.10

OpenCV XY Vision Automation
智慧化視覺辨識與自動化操作系統

透過 OpenCV 視覺辨識與座標轉換,讓傳統依賴固定 XY 座標的自動化測試,
升級為可動態辨識 UI 的智慧化操作系統。

Joseph Chen

2024 - 2025
12 min read
智慧自動化

在手機自動化測試領域中,傳統流程主要依賴 XY 軸點擊設備 (XY Auto Clicker) 模擬人工操作。

然而,過去的座標點擊模式存在明顯缺陷:一旦手機版面微調、螢幕解析度改變或系統更新導致 UI 位移, 工程師就必須手動重新校正成千上萬個座標點。這種「硬連結 (Hard-linked)」的自動化方式維護成本極高。

為了解決這個問題,我開發了一套基於 OpenCV 的視覺導航系統,將操作邏輯從「固定座標」轉向「動態辨識」。

系統架構流程 (Pipeline)

Camera Stream
OpenCV Processing
Coordinate Mapping
Python Controller
XY Device Action

實戰案例:維護成本的轉變

Before (傳統模式)

iPhone 更新後,確認按鈕位移了 20px。由於腳本採用固定座標,導致後續數百筆自動化測試全部失效,工程師需花費整天重新手動校正所有相關座標。

After (視覺導航模式)

系統透過 OpenCV 自動搜尋「確認」圖示位置。即使 UI 版面微調,系統仍能精確鎖定動態座標並觸發 XY 設備,達成無人值守的零維護轉型。

核心技術細節

座標映射與校正 (Coordinate Mapping)

核心難點在於影像像素座標 (Pixel Position) 與實體設備座標 (Physical Coordinate) 的映射。我設計了一套校正邏輯:

比例換算 (Scaling)
Offset Calibration
座標系映射
透視校正 (Perspective Transform)

多重辨識驗證 (Hybrid Detection)

為了避免 Template Matching 在複雜背景下的誤判,系統導入了混合判斷機制:

  • OCR 文字辨識:二次確認按鈕上的文字內容,確保目標狀態正確。
  • Feature Matching:在影像變形或縮放時,提供比單純模板匹配更高的魯棒性。

我在專案中負責的工作

OpenCV 視覺辨識開發

實作 Template Matching 與影像預處理流程,提升極端光影下的辨識率。

座標映射算法設計

開發像素與實體座標轉換邏輯,實現 ±1mm 內的點擊精度。

Python 系統整合

串接影像處理模組與 Serial Port 控制器,建立完整的自動化閉環。

校正系統 UI 開發

設計視覺化校正介面,讓工程師能快速完成攝影機與點擊器的初步對位。

未來規劃與演進

目前的系統已成功驗證「視覺導向自動化」的潛力,未來的發展方向將專注於更高的智慧化程度:

UI 異常自動檢測系統
OCR + Vision 混合判斷邏輯優化
AI-based UI State Recognition
自動化生成測試操作流
視覺化測試結果熱點圖報告

延伸閱讀:更多 AI 技術分享

上一篇

EP.09 — Test Management System (TMS)

下一篇

更多精彩實戰,敬請期待...