Исследование эффективности фазового метода на основе банка фильтров Габора для восстановления аудиосигнала из видеозаписи
Аннотация
В данной работе исследуется задача пассивного восстановления акустических сигналов путем анализа видеопоследовательностей вибрирующих объектов. Звуковые волны, распространяясь в пространстве, оказывают переменное давление на физические объекты, вызывая микроскопические вибрации их поверхности. Амплитуда таких вибраций часто составляет доли пикселя (10⁻³–10⁻² пикселя), что делает затрудненным их обнаружение классическими методами компьютерного зрения, основанными на анализе оптического потока.
Работа развивает подход «визуального микрофона», предложенный в статье Davis et al. (2014). С опорой на принципы компьютерного зрения, изложенные в Torralba et al. (2024), в качестве теоретической основы используется свойство сдвига преобразования Фурье, связывающее пространственное смещение объекта с линейным фазовым сдвигом. Однако, при сохранении общей математической модели, модифицируется этап частотно-пространственной декомпозиции. Исследование посвящено анализу эффективности применения собственной реализации банка комплексных фильтров Габора (в отличие от Steerable Pyramid в оригинальной работе) для решения поставленной задачи.
Проводится сравнительный анализ устойчивости фазового метода к шуму сенсора (Janesick, 2001) и показывается преимущество фазового подхода на полученных экспериментальных данных по сравнению с методами, основанными на интенсивности. Экспериментальные результаты, полученные с использованием высокоскоростной камеры (2200 кадров в секунду), показывают возможность восстановления акустической информации в полосе до частоты Найквиста (Shannon, 1948; Котельников, 1933) и тональных сигналов при съемке легких объектов с расстояния нескольких метров, при этом влияние некогерентного шума матрицы существенно снижается за счёт пространственного взвешивания и фильтрации.
Литература
A. Davis, M. Rubinstein, N. Wadhwa, G. J. Mysore, F. Durand, and W. T. Freeman,“Thevisualmicrophone:passiverecoveryofsoundfromvideo,” ACM Trans. Graph. (Proc. SIGGRAPH), vol. 33, Art. no. 79, no. 4, pp. 1–10, 2014.
N. Wadhwa, M. Rubinstein, F. Durand, and W. T. Freeman, “Phase-based video motion processing,” ACM Transactions on Graphics (TOG). (Proc. SIGGRAPH), vol. 32, no. 4, Art. no. 80, pp. 80:1–80:10, 2013, doi: 10.1145/2461912.2461966.
A. Torralba, P. Isola, and W. T. Freeman, Foundations of Computer Vision. Cambridge, MA: MIT Press, 2024.
E.P.Simoncelli,W.T.Freeman,E.H.Adelson,andD.J.Heeger“Shiftable multiscale transforms,” IEEE Trans. Inf. Theory, vol. 38, no. 2, pp. 587– 607, Mar. 1992.
J. Portilla and E. P. Simoncelli, “A parametric texture model based on joint statistics of complex wavelet coefficients,” International Journal of Computer Vision, 2000.
J. G. Daugman, “Uncertainty relation for resolution in space, spatial frequency, and orientation optimized by two-dimensional visual cortical filters,” J. Opt. Soc. Am. A, vol. 2, no. 7, pp. 1160–1169, 1985, doi: 10.1364/JOSAA.2.001160.
W.T.FreemanandE.H.Adelson,“Thedesignanduseofsteerablefilters,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 13, no. 9, pp. 891–906, 1991.
D. J. Fleet and A. D. Jepson, “Computation of component image velocity from local phase information,” International Journal of Computer Vision, vol. 5, no. 1, pp. 77–104, 1990.
B.D.LucasandT.Kanade,“Aniterativeimageregistrationtechniquewith an application to stereo vision,” in Proc. DARPA Image Understanding Workshop, 1981, pp. 121–130.
P. J. Burt and E. H. Adelson, “The Laplacian pyramid as a compact image code,” IEEE Trans. Commun., vol. COM-31, no. 4, pp. 532–540, Apr. 1983.
А. Б. Сергиенко, Цифровая обработка сигналов: учебник для вузов. 3-е изд. СПб.: БХВ-Петербург, 2011.
Р. Гонсалес и Р. Вудс, Цифровая обработка изображений, изд. 3-е, испр. и доп. М.: Техносфера, 2019.
В. А. Сойфер, Методы компьютерной обработки изображений. М.: Физматлит, 2003.
В. В. Старовойтов и А. А. Голуб, Цифровая обработка изображений и компьютерная графика. Минск: ОИПИ НАН Беларуси, 2020.
C. E. Shannon, “A mathematical theory of communication,” Bell System Technical Journal, vol. 27, pp. 379–423 and 623–656, Jul./Oct. 1948.
В. А. Котельников, “О пропускной способности “эфира” и проволоки в электросвязи,” Материалы к I Всесоюзному съезду по вопросам технической реконструкции дела связи и развития слаботочной промышленности (по радиосекции), М.: Управление связи РККА, 1933, с. 1–19.
C. H. Knapp and G. C. Carter, “The generalized correlation method for estimation of time delay,” IEEE Trans. Acoust., Speech, Signal Process., vol. 24, no. 4, pp. 320–327, Aug. 1976, doi: 10.1109/TASSP.1976.1162830.
J.R.Janesick, ScientificCharge-CoupledDevices.Bellingham,WA,USA: SPIE Press, 2001, doi: 10.1117/3.374903.
M. Meingast, C. Geyer, and S. S. Sastry, “Geometric models of rolling- shutter cameras,” arXiv preprint cs/0503076, 2005.
Программная реализация по материалу статьи на С++ https://gitverse.ru/rremca/Gabor-Visual-Microphone
Материал публикуется под лицензией:
