[Paper] All About Direct Methods－拾人牙慧

1 Introduction

Direct Methods 的定義是：利用兩張影像中，直接計算相對應 pixel 之間的 measurable image quantities 的變化，來得到 motion estimation 或 shape estimation。

所謂的 measurable image quantities，舉例來說，是 image brightness 或 brightness-based cross-correlation …等；image brightness 是指影像亮度，也就是 pixel 的 RGB 值，而 brightness-based cross-correlation，則尚在理解中。

Feature-based Methods 是會在影像中，先取出 feature points，接著利用 feature matching 或 feature tracking 將 feature points 配對，再分析已經配成對的 feature points 之間所形成的 optical flow，進而得到 frame 與 frame 之間的 motion 或是物體的 shape。

2 The Brightness Constraint

The Brightness Constraint 是指：在給定兩張同一影像序列的影像 J(x, y) 及 I(x, y) 中，會有如下的關係：
J(x, y) = I(x + u(x,y), y + v(x,y))
其中 (x, y) 是指 pixel coordinates，(u, v) 是指該 pixel 在兩張影像之間的位移。
(假設兩張影像之間的關係，只有小部分的位移，而位移的方向、距離，以 u, v 表示)

在 (u, v) 很小的情況下，對 I(x, y) 作線性處理，可以得到下列限制：
I_xu + I_yv + I_t = 0 --- (1)
其中 (I_x, I_y) 是在該影像中，對該 pixel 的亮度作 x 軸、y 軸微分後的結果，而 I_t = I - J。
(兩張影像中的差值 = 第一張影像的微分結果 x 位移)

這些限制，對於兩張影像中，所有的 pixel 都是成立的，所以對影像中的物體，這些限制也都是成立的，所以再將 (u, v) 的表示方式分成兩種不同的模式：

Two-dimensional (2D) motion models
Three-dimensional (3D) motion models

3 2D Global Motion Model

在 2D Global Motion Models 中，常被使用的是 Affine motion model，此 model 特別適用於空拍影像或是遠端監視影像，此時 (u, v) 的定義為：
u(x,y) = a₁ + a₂x + a₃y
v(x,y) = a₄ + a₅x + a₆y --- (2)

將公式 (2) 代入公式 (1) 可以得到：
I_x(a₁ + a₂x + a₃y) + I_y(a₄ + a₅x + a₆y) + I_t = 0 --- (3)

由公式 (3) 可以得知有 6 個未知數，因此最少只需要有 6 個不同 pixel ，就能求得完整解，但實際上，這個公式對於影像中全部的 pixel 都要適用，所以將進化成求近似解，使得差值愈小愈好：
E(a₁, ..., a₆) = Σ( I_x(a₁ + a₂x + a₃y) + I_y(a₄ + a₅x + a₆y) + I_t )²

4 Coarse-to-Fine Iterative Estimation

上述的推論中，全都仰賴對影像作線性化的處理，也就是公式 (1) ，當 (u, v) 的值愈小 (最好小於 1 pixel)，則此線性化的預測就愈準，但，實際上的情況並非如此完美。

所以實際在應用上，會先利用適當的金字塔(Pyramid) 及濾波器(filter) 來降低影像之間的 motion，例如本來的 motion 是 4 個 pixel，將解析度降為 1/4 時，motion 只會剩下約 2 個 pixel，如果將解析度降為 1/64，則 motion 只會剩下約 0.5 個 pixel。

在完成低解析度影像的計算之後，所得到的 (u, v)，可以先將該形變套用在較高解析度影像，用來降低這兩張影像間的 (u, v)，再對該兩張較高解析度影像作相同計算，以此類推，最後對全解析度影像作計算，進而得到最後的 (u, v)。

5 Properties of Direct Methods

Sub-Pixel Accuracy:
Direct Methods 是利用影像全部的 pixel 資料來作運算，其精確度可以到 sub-pixel。

Locking Property and Outlier Rejection:
在影像中，如果存在某部分 pixel ，它的移動方向 (motion) 與整張影像所計算出來的 motion 不同，可以將該部分的 pixel 視為 outlier ，進而去除該動態物體，只留下相對靜態物體。

6 3D Motion Models

3D Motion Models 可以解決 2D Motion Models 無法處理的問題，例如：影像與影像之間的 motion 過大或是影像間有深度變化的情況。

3D Motion Models 包含兩組參數，一組是 global parameters：用來表示相機的 motion，另一組是 local parameters：用來表示 3D 結構或 shape；唯每個 pixel 都有自己的 local parameter。

3D Motion Models 的例子：

Instantaneous Velocity Field Model：

其中 (Ω_x, Ω_y, Ω_z) 及 (T_x, T_y, T_z) 分別表示相機的旋轉及位移， Z 為深度表示該 pixel 的 shape。

Discrete 3D Motion Model：

其中 (h₁, ..., h₉) 為 homography 的參數，(t₁, t₂, t₃) 為 epipole 的座標，γ 表示 local shape。

Plane + Parallax Model：

其中 (x^w, x^w) 表示影像在經過 warping 後的位置，warping 的依據是來自於 induced homography of a dominant planar surface。

3D Motion Models 也可以搭配 Multi-resolution Coarse-to-Fine Estimation 來處理大範圍的 motion。

(這篇文章對 3D Motion Models 只是簡單介紹，其原理及公式由來，還是得去看原本的 paper，所以… 不熟。)

7 Handling Changes in Brightness

每個相同的 pixel 維持同樣的亮度，是 Direct Methods 的前提條件，如果 pixel 亮度的變動很明顯，則需作另外處理。

第一個方式是使用 image normalization (影像正規化)，來調整影像的亮度。
第二個方式為不要使用亮度作為計算方式，詳情在 Section 8 作說明。

8 Other Local Match Measures

Normalized-Correlation Surfaces

(論文中，此 section 的內容只有簡單說明，有些名詞沒看懂，跳過。)

9 Summary

Direct Methods 利用整張影像中的 brightness variation (pixel 亮度值) 或是 image cross-correlation measures(不確定這是什麼) 的資訊，用來計算 2D Motion 或 3D Motion 的變化。
在 2D models 中，可以計算整張影像的 Affine transforms, Quadratic transforms 或 Homography。
在 3D models 中，可以同時計算該物體的 3D 結構以及整張影像的位移。

Reference
All About Direct Methods - M. Irani and P. Anandan (1999)

文字內容或影像內容部份參考、引用自網路，如有侵權，請告知，謝謝。