Роль видеоаналитики для систем наблюдения

В рубрику "Видеонаблюдение (CCTV)" | К списку рубрик | К списку авторов | К списку публикаций

Роль видеоаналитики для систем наблюдения

В.А. Юдинцев
Ведущий инженер ГУП НЦП "Элвис"

Переход от аналоговой к цифровой обработке видеоизображений принес ожидаемые выгоды для систем безопасности большей частью потому, что цифровое сжатие обеспечивает передачу и хранение большего объема данных. Однако новые достижения связаны с повышением стоимости. Цифровое видео позволяет использовать больше камер, но это требует расширения персонала для их управления. Решением этой проблемы является разработка системы анализа видеоизображений

В последнее десятилетие техника видеонаблюдения (системы, приборы, программное обеспечение) получила значительное развитие. По прогнозам специалистов, мировой рынок средств видеонаблюдения в 2010 году составит 8 млрддолла-ров, доля видеоаналитики (интеллектуальное программное обеспечение) - около 600 млн долларов, а Smart-карт и интеллектуальных встраиваемых приборов - приблизительно 3 млрд долларов. В целом среднегодовой прирост рынка средств видеонаблюдения на следующее десятилетие будет равен примерно 10,8%.

В настоящее время продолжается разработка новых методов, которые позволяют повысить эффективность контроля средств видеонаблюдения и безопасности. Анализ видеоизображений способен электронным способом распознавать основные особенности серии кадров и подавать системе сигнал предостережения при совершении событий определенного типа, ускоряя реакцию по обеспечению безопасности в реальном времени. Хранение видеоизображений поможет уменьшить количество рассматриваемых объектов, поскольку векторы движения и детекторы, используемые для сжатия, могут быть использованы для устранения кадров с незначительной активностью. Система анализа видеоизображений (CAB) осуществляет автоматический поиск запомненных видеокадров по специфическим признакам содержания, освобождая персонал от утомительных часов просмотра. Это также позволяет уменьшить количество операторов, работающих с видеокамерами, а следовательно, уменьшить и затраты. Техника CAB является развивающейся и имеет большие перспективы.

Следует отметить, что CAB требует значительных ресурсов для обработки данных и идентификации интересуемых объектов в громадном потоке в форме видеопикселей. CAB должны быть программируемыми для того, чтобы соответствовать изменениям в применениях, распознавая различные типы содержания, и адаптироваться к используемым алгоритмам. Имеющиеся в распоряжении новые видеопроцессоры обеспечивают исключительно высокий уровень характеристик и гибкость программирования сжатия для CAB и других цифровых видеосистем Программные платформы и инструментальные средства, которые дополняют процессоры, упрощают разработку изделий обеспечения безопасности и наблюдения.

До сегодняшнего дня на CAB не распространены международные стандарты, но характерный поток данных может быть представлен следующим образом:

Удлиненная последовательность данных разделена на отдельные сцены или кадры, подлежащие анализу. Так как они имеют различные гистограммы или цветные частотные распределения, кадр с радикальным изменением гистограммы от первоначального кадра может обрабатываться как изменение сцены.
Изменение информационной части изображений обнаруживается отдельно от статического фона.
Отдельные информационные части изображений (объекты) выделяются или сегментируются, затем отслеживаются от кадра к кадру. Отслеживание включает обнаружение положения и скорость объекта, которые могут быть переменными или временно постоянными
Если требуется распознавание, особенности объекта выделяются так, чтобы объект мог быть классифицирован.
Если событие представляет интерес, выдается сигнал предостережения управляющей программе или оператору.

Обнаружение переднего плана и фона

Работа CAB базируется на способности обнаружения подозрительного действия, которое меняется на переднем плане фона, являющегося в целом статичным и не представляющего интереса. В прошлом обнаружение переднего плана/фона было ограниченным по причине вычислительных возможностей. В настоящее время высокопроизводительные процессоры для цифровой обработки сигнала (ПЦОС) и видеопроцессоры делают возможным выполнять более сложные алгоритмы обнаружения. В общем случае существуют два метода обнаружения переднего плана/фона:

В неадаптивных методах используются только несколько видеокадров и не поддерживается модель фона.
В адаптивных методах поддерживается модель поддерживается модель фона, которая прослеживается все время. В адаптивных САВ-алгоритмах обратная связь с этапа 2 по 4 посылается в вышестоящий перечень для обновления, и поддерживается модель фона, которая затем используется в качестве входа для этапа 1.

Неадаптивное обнаружение

В простейшем неадаптивном случае каждый пиксель предшествующего кадра вычитается из соответствующего пикселя текущего кадра для определения абсолютной разницы. Абсолютная разница пикселей затем сравнивается с заранее установленным пороговым значением, что представляет уровень "zero" после компенсации искажений на сцене и от блока формирования изображений. Если абсолютная разница превышает порог, соответствующий пиксель относится к переднему плану, в противном случае - к фону. Пиксели переднего плана показывают его изменения в обоих кадрах. На рис. 1 фон замаскирован, пиксели переднего плана показывают движущийся автомобиль в текущем кадре, а его повторное изображение - в предыдущем.

Наличие повторных изображений означает, что только 2 кадра могут использоваться для обнаружения простого перемещения, так что отслеживание и распознавание объекта не требуется. В добавление к повторным изображениям другие пиксельные искажения могут быть неправильно идентифицированы на переднем плане. Изображение переднего плана может быть улучшено посредством незначительного увеличения вычислительных возможностей за счет введения дополнительного кадра в алгоритм. При наличии 3 кадров абсолютная разница между пикселями определяется между предыдущим и текущим кадрами (рис. 1а), затем - между текущим и последующим, где повторный объект появляется в другом месте (рис. 1b) Если обе абсолютные разницы больше, чем пороговое значение, соответствующий пиксель относится к переднему плану. В других случаях он относится к фону. Повторные изображения исчезают на рис. 1а и 1b, оставляя изображение только на рис. 1с. При использовании 3 кадров возможно краткосрочное видеоотслеживание и распознавание объекта в контролируемой среде.

Неадаптивные методы полезны только в высоко-контролируемых применениях с краткосрочным отслеживанием без значительных изменений вида сцены. Если происходят изменения сцены или фона, требуется ручная повторная инициализация. Без этого стечением времени происходит накопление искажений, что приводит к ненадежным результатам.

Адаптивное обнаружение

Ввиду ограничений неадаптивных методов в САВ-применениях используется адаптивное обнаружение переднего плана/фона. Оно поддерживает модель фона, которая непрерывно обновляется посредством добавления данных от каждого нового видеокадра.

Адаптивные методы требуют большей вычислительной мощности, чем неадаптивные, а сложность модели фона может меняться. В базовом адаптивном методе алгоритм вычитает модель фона попиксельно из текущего кадра для определения переднего плана. Таким образом, происходит адаптация к происходящим фоновым изменениям без необходимости перезапуска. Этот метод эффективен для многих сценариев видеонаблюдения, в которых объекты постоянно перемещаются, а фоновые помехи присутствуют на протяжении длительного периода времени.

Более сложное обнаружение переднего плана/фона базируется на статистической модели фона, при которой каждый фоновый пиксель в данном видеокадре моделируется как произвольная переменная, отвечающая Гауссовому распределению. Среднее и стандартное отклонение каждого отдельного пикселя во времени базируется на видеоданных для каждого кадра. Например, если сцена охватывает берег реки, игра света на водной поверхности делает отклонения речных пикселей гораздо больше, чем их отклонения от сравнительно неизменяемого берега. Пиксели переднего плана и фона определяются их сравнением с порогом, вычисляемым из стандартных отклонений их соответствующих пикселей в модели фона Другими словами, для установления переднего плана его пиксель должен сильно отличаться от пикселя фона при значительном изменении последнего (река), однако если пиксель фона меняется незначительно (берег), передний план должен мало отличаться. Это метод очень эффективен, если области сцены имеют различные условия освещения или уровни искажений, так как однородный порог, который определяет высокий уровень искажений (реки), может привести к исчезновению объектов, когда они вступают в области низких искажений (берег).

Отслеживание/распознавание объекта

После обнаружения переднего плана/фона создается маска (рис. 1с). Все элементы одного объекта че могут бытьсоединены ввиду искажений от окружающей среды, поэтому реализуется интенсивный вычислительный процесс расширения до соединения всех элементов в единое целое. Расширение включает в себя помещение сетки на маску, обсчет пикселей переднего плана в каждой области сетки и подключение остальных пикселей в каждой области, где, по обсчету, отдельные элементы не должны подсоединяться.

После расширения и подсоединения компонентов для каждого объекта формируется ограничивающий прямоугольник. Он представляет собой минимальный прямоугольник, который содержит полный объект и может появиться в различных кадрах, приводя ксегментации (рис. 2).

Отслеживание

Отслеживание объектов переднего плана включает в себя 3 этапа:

предсказание, при котором каждый объект должен быть расположен в текущем кадре;
определение объекта, наилучшим образом соответствующего описанию;
коррекцию траектории объекта для предсказания очередного кадра.

Этапы 1 и 3 выполняются с использованием рекурсивного фильтра Кальмана. Поскольку только одна позиция объекта может наблюдаться в одном кадре, необходимо выполнить расчет ее скорости и одновременно положения с использованием матричных вычислений. В начале процесса фильтр инициируется на положение объекта переднего плана относительно модели фона. Для каждого кадра, в котором отслеживается объект, фильтр предсказывает относительное положение объекта переднего плана в последующем кадре. Если в последующем кадре сцена перемещается, фильтр локализует объект и корректирует траекторию.

2-й этап в отслеживании включает в себя соединение данных, которые определяют соответствие объектов в пределах кадров на базе одинаковых особенностей. Размер, форма и расположение объекта могут базироваться на ограничивающих прямоугольниках и их перекрытиях от кадра к кадру. Гистограммы, связывающие различные объекты с их цветом, и скорость являются главным аспектом в предсказании с использованием фильтра Кальмана. Однако те или иные особенности могут меняться.

Например, белый грузовике красной кабиной приближается к камере вдоль улицы, въезжает ча подъездную дорогу, разворачивается и уходит в противоположном направлении. Все особенности объекта меняются в ходе сцены: размеры, форма, скорость и цвет. Программное обеспечение должно быть приспособлено к таким изменениям для точной идентификации грузовика. Кроме того, если необходимо отслеживать несколько объектов, программное обеспечение должно давать возможность их различения.

Классификация

Сложности отслеживания приводят к проблемам, связанным с классификацией объектов. Например, для системы проще давать сигнал тревоги, если что-либо пересекает линию перед камерой, а не когда объект, похожий на человека, пересекает линию. Размеры объекта и его скорость могут обеспечить вектор для грубой классификации, но для большей точности требуется подробная информация. Крупные объекты обеспечивают больше пикселей информации, хотя их может быть слишком много для выполнения быстрой классификации. В этом случае требуется использование техники размерного уменьшения для реакции в реальном времени, хотя более поздние исследования позволяют использовать полную пиксельную информацию из записанных в память кадров.

Эффективная реализация CAB связана с преодолением большого количества проблем помимо классификации объекта. Сюда относятся изменения уровней света по причине наступления ночи, водной поверхности, облаков, ветра в деревьях, снега и тумана; отслеживание траекторий движения объектов, которые пересекаются, вызывая от каждого пиксели переднего плана, которые скорее сливаются, чем разделяются; отслеживание объектов с последовательным просмотром в многокамерных системах. Решение указанных проблем в CAB все еще продолжается.

Конструирование CAB

Реализация CAB и видеокодирования требует использования быстродействующего процессора и разнообразного оснащения. Появление новых аналитических методов нуждается в гибкости программирования. Это может быть реализовано при помощи процессоров, которые интегрируют наивысшую производительность с программируемым ядром ЦОС и ядром RISC микропроцессора в добавление к видеоаппаратным сопроцессорам. Необходима также интеграция связных периферийных устройств с высокой скоростью передачи данных и цепи для передачи видеосигналов для уменьшения количества системных компонентов и стоимости, какэто выполнено на процессорах TMS320DM644x на базе технологии DaVinci (блок-диаграмма на рис. 3).

Два процессора DaVinci могут обеспечить быстродействие, необходимое для работы ранних моделей CAB, и кодирование источника видео с разрешением 720x1080 (HD) и скоростью 30 кадр/с.

Многоядерные процессоры (ЦОС - RISC) предоставляют дополнительное преимущество благодаря использованию каждого ядра для выполнения задач наилучшим образом: функции кодека и прочие функции обработки сигнала в реальном времени осуществляет ЦОС, системный контроль и пользовательский интерфейс выполняет RISC-процессор. Возможности программирования RISC-процессора используются для контроля высокого быстродействия ЦОС-процессора, обеспечивая возможности дальнейшего развития и интеграции на любом уровне (от применений высокого уровня до развитых кодеков). Используя такие многоядерные конструкции, изготовители промышленных видеоустройств получают возможности создавать широкий диапазон изделий с высоким быстродействием, гибкостью, легкостью использования, что позволяет сократить время разработки и стоимость производства и в свою очередь открывает возможности для новых применений.

С незначительной модификацией конструкция может быть перестроена на одноплатный вариант на базе одного процессора, обеспечивающий те же характеристики, что и у 2-процессорной версии со средним уровнем CAB и кодирования.

При применении указанного способа интеграции CAB с камерой можно обеспечить реализацию надежной и эффективной формы сети. Программное обеспечение CAB может быть также интегрировано с ПК, которые служат в качестве концентрирующих устройств для многочисленных камер. Кроме собственного потока CAB здесь могут понадобиться операции предварительной обработки данных, которые осуществляют возврат очередности до обнаружения переднего плана/фона и другие аналитические операции. Прикладное ПО может внести дополнительные операции для обнаружения объекта и других целей.

Для успешной работы CAB исключительное значение приобретают последние тенденции в области систем видеонаблюдения. Важное значение имеют кодеки, для которых выработаны требования: низкая задержка, высокая эффективность сжатия, гибкость разрешения и частоты кадров, невысокая сложность и низкая стоимость. Из всех известных вариантов кодеков наиболее компромиссным вариантом является базовый вариант Н.264 (Н.264 Baseline profile), однако и у него отсутствует масштабируемость, необходимая для применений наблюдения. В настоящее время разработан масштабируемый видеокодек Scalable Video codec (SVC), представляющий собой расширение существующего стандарта Н.264. SVC был разработан с целью использования одного кодированного потока данных для удовлетворения различных требований: битовой скорости передачи данных, качества и разрешения. SVC поддерживает высокую степень масштабирования, которое производится пространственно, допуская различные разрешения отображения. Масштабирование осуществляется также во времени, обеспечивая изменение частоты кадров по качеству и изменение окончательного качества изображения. Например, Н.264 SVC-видеопоток может быть декодирован двумя различными приборами с различными частотой кадров и разрешениями. Использование SVC предоставляет значительные выгоды пользователю: облегчается адаптация для различных дисплеев, передача, хранение и отображение да иных с сохранением ресурсов, повышенная надежность передачи данных, легкость поддержки гетерогенной сети. Дополнительным преимуществом является то, что сжимаемый поток может быть проанализирован при одновременной записи на диск. Часть файлов, которые используются для перестройки высокой частоты кадров или изображений высокого качества, могут быть постепенно стечением времени удалены. Возможны следующие варианты масштабирования:

Временная масштабируемость, при которой зависимости компенсации движения структурируются таким образом, что законченные изображения могут быть извлечены из разрядного потока. Временная масштабируемость уже используется в H.264/MPEG-4 AVC. SVC обеспечивает только дополнительное улучшение информации для более полного ее использования.
Пространственная масштабируемость заключается в том, что видеоизображение кодируется на несколько пространственных разрешений. Данные и дешифрованные выборки с пониженным разрешением могут использоваться для предсказания данных, а выборки с повышенным разрешением используются для того, чтобы уменьшить битовую скорость передачи данных для кодирования повышенных разрешений.
Масштабируемость отношения сигнал/шум, качества, точности: видеоизображение кодируется на одно пространственное разрешение, но при различных уровнях качества. Данные и дешифрованные выборки с пониженным разрешением могут использоваться для предсказания данных, а выборки с повышенным разрешением используются для того, чтобы уменьшить битовую скорость передачи данных для кодирования повышенных разрешений.
Комбинируемая масштабируемость, при которой происходит совместное использование трех видов масштабируемости, представленных выше.

С точки зрения уменьшения потерь стандарт Н.264 SVC предоставляет следующие возможные преимущества по сравнению с однослойным кодированием.

- Возможность использования иерархических структур предсказания для обеспечения временной масштабируемости с несколькими слоями при одновременном улучшении эффективности кодирования и повышении эффективности качественного и пространственного масштабируемого кодирования.

- Новые методы межслойного предсказания движения и остаточное улучшение эффективности кодирования с использованием пространственного масштабирования и качественного масштабируемого кодирования.

- Концепция ключевых рисунков для эффективного контроля смещения качественного масштабируемого кодирования на основе пакетов с иерархическими структурами предсказания.

- Декодирование компенсационного контура одиночного движения для пространственного и качественного масштабируемого кодирования, что обеспечивает сложность декодера, близкую сложности при однослойном кодировании.

- Поддержка модифицированного процесса декодирования, который обеспечивает перезапись невысокого уровня сложности без потерь качественного масштабируемого разрядного потока, который соответствует немасштабируемому профилю H.264/AVC.

В следующих областях применения может быть получена выгода от использования SVC: потоковое видео, видео/телеконференции, наблюдение, широковещание, хранение.

Что касается интеллектуального видео, то видеоаналитика имеет дело с алгоритмами, которые обнаруживают и отслеживают объекты с точки зрения возможных угроз или нарушения безопасности. Например, видеоаналитика позволяет следить за человеком, ступившим в неразрешенную зону, или за теми, кто оставляет багаж в гостиной аэропорта на период времени, который превышает допустимую продолжительность. Обычно такие случаи вызывают высылку видеосигнала наблюдателю для дальнейших исследований.

Осуществление видеоаналитики предоставляет много преимуществ операторам наблюдения Так как аналитика выполняется в реальном времени, обеспечивается безопасность персонала посредством немедленного извещения об угрозе. Кроме того, происходит улучшение качества наблюдения посредством фильтрации активности, не представляющей интереса. И, возможно, самым главным является то, что аналитика позволяет уменьшить количество персонала, необходимого для управления системой. Это особенно важно для систем, в которых используется большое количество камер, например в общественном транспорте и больших зданиях. Кроме того, аналитика позволяет уменьшить усталость оператора при улучшении качества наблюдения.

В последнее время получило распространение интеллектуальное кодирование, в котором совмещаются ситуационная осведомленность (через видеоаналитику) и гибкое кодирование. Когда алгоритмы видеоаналитики обнаруживают движение, изменение сцены или другую потенциально подозрительную активность, интеллектуальный кодер может не только сделать метку на сцене соответствующего сотрудника безопасности, но и также адаптировать ее для кодирования. Например, когда обнаруживается подозрительная активность, кодер может увеличить частоту кадров, разрешение и качество кодирования (рис. 4).

Процессоры, используемые в видеонаблюдении, сталкиваются с множеством сложных вычислительных проблем. Они должны выполнять постоянно усложняющиеся задачи в реальном времени, такие какалгоритмы видеоаналитики, обслуживание датчиков высокого разрешения и управление сетью. Выполнение всего этого требует использования архитектуры с высоким уровнем быстродействия и гибкости. Решение задачи представляется в использовании процессора с программным конфигурированием.

В процессоре такого типа совмещаются программируемое процессорное устройство и программируемая система коммутации Instruction Set Extension Fabric (ISEF). Последняя представляет собой программно-конфигурируемую систему коммутации, которая позволяет конструкторам системы расширить набор команд процессора и сформулировать новые команды с использованием кода C/C++. Эти "команды расширения" затем автоматически синтезируются, размещаются и направляются в ISEF. Системный конструктор затем оптимизирует набор команд процессора для специфических приложений в реальном времени, таких как видеообработка, аналитика, управление сетью (рис. 5). Теперь конструктор может реализовать часть нужного алгоритма аппаратным способом, используя ISEF, которая располагается в пределах тракта данных процессора. При этой архитектуре логика команд процессора, а также интеллектуальный компилятор могут полностью использовать указанные аппаратные функции и направлять их в поток выполнения команд.

Опубликовано: Журнал "Системы безопасности" #3, 2008
Посещений: 11714

Автор

Юдинцев В.А.

Ведущий инженер ГУП НПЦ "ЭЛВИИС"

Всего статей: 5

В рубрику "Видеонаблюдение (CCTV)" | К списку рубрик | К списку авторов | К списку публикаций

Роль видеоаналитики для систем наблюдения

Роль видеоаналитики для систем наблюдения

Юдинцев В.А.

Мы в соцсетях