视频特效检测算法

A feature-based algorithm for detecting and classifying production effects

Multimedia Systems 1999* **Ramin Zabih, Justin Miller, Kevin Mai

Introdution

现有的Scene Breaks检测算法：

计算连续两帧之间的相似度，常用的衡量指标为：1）image differencing；2）intensity histogramming，主要影响因素为镜头或主体运动，可以用来检测非渐变的镜头切换；
不采用intensity histogramming进行衡量，用前后两帧强度差除以后一帧的强度，定义该图为chromatic image（阶图）。理论上讲，如果阶图均匀分布且非零证明处在fade特效阶段，但此方法在复杂的镜头或主体运动的情况下FN和FP率都较高；

A feature-based approach

假设/观察：新的灰度边缘出现的位置与旧的灰度边缘相隔较远，同样的新旧边缘的消失位置相隔也较远。
定义出现在现有边缘较远的边缘像素为entering edge pixel，消失在较远处的边缘像素为exiting edge pixel
计算两种像素点之间的空间分布关系即可检测和区分不同的转场特效

Algorithm

1）运动量补偿
加入对画面运动的考虑，首先采用 registration algorithm 进行画面运动的检测，再对 I 进行运动后的补偿调整，减少画面运动对本算法的影响。本文尝试了两种计算画面运动的算法：1） using census transform correlation；2）Hausdorff distance。
2）特征值计算
对前后两帧 $I，I'$ 进行边缘检测（基于Canny Algorithm），得到两张二进制边缘图 $E，E$ ' ，记 $E$ 中某点到 $E$ ' 中所有点最近的距离为 $d$ , $E$ 中 $d$ 大于某阈值 $r$ 的点的占比为 $\rho_{in}$ ，即新出现在画面中的边缘像素；同样的我们可以得到 $\rho_{out}$ ，即将要消失的边缘。 $\rho_{in}$ 的具体算法如下
$\rho_{in}=1-\frac{\sum_{x,y}E[x+\delta_x,y+\delta_{y}]\overline{E'}[x,y]}{\sum_{x,y}E[x,y]}$
其中， $\delta_{x}$ 为第一步计算得到的画面运动补偿量， $\overline{E'}$ 为 $E'$ 中的边缘点以菱形向外扩张后的结果，菱形对角线为 $2r+1$ 。
记最终的 $\rho$ 为: $\rho=max(\rho_{in},\rho_{ out})$ ，下图展示了不同特效对应的不同 $\rho$ 峰值。

不同特效对应的峰值
3）特征值分析
1. 首先选择检测窗口（event horizon）的宽度和峰值的阈值（event threshold），对曲线进行平滑
2. cut 只有一个波峰；fade-in 的 $\rho_{out}<\rho_{in}$ ，fade-out 正好相反；dissolve（溶解）同时伴随着 fade-in 和 fade-out，一般而言先是 $\rho_{out}<\rho_{in}$
3. wipe（擦除），认为画面中会有一条明显的分割线，算完画面的边缘像素后，统计上下区域和左右区域的所有边缘像素的占比，即可得到擦除的方向
4. caption（注释），caption一般都有比较明显的边缘，出现的 $\rho$ 类似于cut
5. 使用豪斯多夫距离计算 $\rho$ ，若 $h(E',E)<r$ ，则 $\rho_{in}=0$ 原始的豪斯多夫距离如下： $h(A,B)=max_{a\in A}min_{b\in B}||a-b||$
  partial Hausdorff distance 计算如下： $h_K(A,B)=K_{a \in A}^{th}min_{b \in B}||a-b||$
  理论上应该使用 partial Hausdorff distance 取出前K个满足要求的点加入到 $\rho_{out}$ 或 $\rho_{in}$ 的集合中，为了计算方便，本文采用了固定阈值 $r$ 的方法。
4）算法的输入参数
由实验得到了以下的参数：
1. 边缘检测算子的宽度 $\sigma=1.2$ 和阈值 $\tau=24$
2. 豪斯多夫距离的阈值 $r=6$