Relatório Laboratório 5

Processamento de Vídeo

1. Introdução

Este relatório documenta o Laboratório 5 — Experimentos de Subtração de Fundo — da disciplina de Processamento de Vídeo. O objetivo deste trabalho é estudar métodos de detecção de movimento e segmentação de primeiro-plano através de subtração de fundo, comparar algoritmos e avaliar o impacto de parâmetros práticos em vídeos reais.

2. Fundamentos Básicos

O processamento de vídeo e imagem se baseia na manipulação de dados em formato de matriz, sendo a biblioteca OpenCV a ferramenta central, responsável por fornecer as rotinas de Entrada/Saída.

No OpenCV, uma imagem estática é carregada como uma matriz NumPy, onde cada elemento é um pixel de cor, sendo o padrão de canais o BGR (Azul, Verde, Vermelho).

Já o vídeo é tratado como uma sequência de imagens estáticas, chamadas de frames, que são processadas individualmente em um loop através do objeto `cv2.VideoCapture` e exibidas na tela a uma taxa de FPS (Frames por Segundo), métrica fundamental para a avaliação do desempenho de qualquer algoritmo de processamento em tempo real.

3. Materiais e Métodos

3.1 Ambiente de Desenvolvimento

1. Ubuntu (Linux OS)

O que é: Uma distribuição Linux de código aberto.

Finalidade: Fornece o sistema operacional e o ambiente de desenvolvimento onde todas as ferramentas serão instaladas e executadas.

2. Terminal (Linux Shell)

O que é: Interface de linha de comando (CLI).

Finalidade: Utilizado para executar comandos do sistema, gerenciar ambientes, instalar softwares e rodar programas.

3. Conda / Miniconda3

O que é: Miniconda é um gerenciador de pacotes e ambientes leve para Python.

Finalidade:

Gerenciar versões do Python e suas dependências.
Criar ambientes isolados (como o PV25) para evitar conflitos entre projetos.

4. OpenCV

O que é: Biblioteca de Visão Computacional de Código Aberto.

Finalidade: Principal biblioteca usada para tarefas de visão computacional e processamento de imagens/vídeos (detecção de objetos, transformações, extração de características etc.).

Variantes:

OpenCV (compilado do código-fonte): Instalação completa com suporte a C++ e Python.
OpenCV-Contrib: Módulos extras desenvolvidos pela comunidade (ex.: reconhecimento facial, SIFT, SURF).
opencv-python (pip): Pacote pré-compilado do OpenCV para Python.
opencv-contrib-python (pip): Adiciona os módulos extras à instalação em Python.

5. Ferramentas de Compilação e Dependências

Essenciais para compilar e executar o OpenCV a partir do código-fonte:

build-essential: Compilador e ferramentas básicas de compilação.
cmake: Configura e gera os arquivos de build do OpenCV.
git: Usado para clonar os repositórios do OpenCV.
pkg-config: Auxilia no gerenciamento de caminhos de bibliotecas e dependências.
libgtk-3-dev: Suporte de interface gráfica para exibição de imagens.
libavcodec-dev, libavformat-dev, libswscale-dev: Codecs de vídeo/áudio.
libjpeg-dev, libpng-dev, libtiff-dev: Suporte a formatos de imagem.
libxvidcore-dev, libx264-dev: Bibliotecas de codificação de vídeo.
gfortran, libatlas-base-dev: Aceleração matemática.
python3-dev, python3-numpy: Cabeçalhos Python + NumPy.
libtbb-dev: Suporte a multithreading.
libopenexr-dev: Suporte para imagens HDR.
libv4l-dev, libdc1394-dev: Suporte a captura de vídeo.
libgstreamer-dev: Suporte a streaming de vídeo.

6. pkg-config

O que é: Ferramenta auxiliar para configurar flags de compilação e linkagem de bibliotecas.

Finalidade: Verifica se o OpenCV está instalado e acessível (pkg-config --modversion opencv4).

7. Python e C++

O que sao: Linguagens de programação usadas para rodar os scripts com OpenCV.

Finalidade: Fornece o ambiente de programação para desenvolver tarefas de visão computacional.

9. VLC Media Player

O que é: Reprodutor multimídia gratuito e de código aberto.

Finalidade: Permite visualizar vídeos e imagens fora do OpenCV, útil para testes e validação de resultados do processamento de vídeo.

3.2 Processamentos Basicos de Imagem

3.3 Procedimentos Experimentais

Passo 1 – Gravação de vídeos

Desenvolvimento de programa para gravação utilizando cv2.VideoWriter

Objetivo: Registrar e salvar transmissões para análise posterior.

Vídeos Gabriel

Demonstração com movimetos rápidos

Demonstração com movimentos lentos

Este laboratório explora técnicas de subtração de fundo usando OpenCV (MOG2, KNN). O código de apoio e instruções estão disponíveis na pasta ../lab5/.

Arquivos principais:

bg_sub_custom.cpp — código (KNN baseado)

Ver código

Como compilar (exemplo)

g++ -std=c++17 ../lab5/bg_sub_custom.cpp -o bg_sub_custom `pkg-config --cflags --libs opencv4`

Como executar (exemplos)

./bg_sub_custom ../lab5/vtest.avi fast — rodar com vídeo de teste (modo rápido)
./bg_sub_custom ../lab5/vtest.avi slow — rodar com modo mais preciso/lento
./bg_sub_custom 0 fast — usar webcam (0) em modo rápido

Código (exemplo) — bg_sub_custom.cpp

Copie o código abaixo para bg_sub_custom.cpp ou abra o arquivo em ../lab5/.


#include <opencv2/opencv.hpp>
#include <iostream>
#include <string>
#include <filesystem>

using namespace cv;
using std::cout;
using std::cerr;
using std::endl;
using std::string;

struct Config {
    int min_brightness;
    int max_brightness;
    int min_area;
    double learning_rate;
    int bg_thresh;
    Size morph_kernel;
};

int main(int argc, char** argv)
{
    if (argc < 3) {
        cerr << "Usage: " << argv[0] << " <video_path> <mode: fast|slow>" << endl;
        return 1;
    }

    string video_path = argv[1];
    string mode = argv[2];

    Config cfg;
    if (mode == "fast") {
        cfg.min_brightness = 30;
        cfg.max_brightness = 220;
        cfg.min_area = 800;
        cfg.learning_rate = 0.7; // fast adaptation
        cfg.bg_thresh = 900;
        cfg.morph_kernel = Size(3,3);
    } else if (mode == "slow") {
        cfg.min_brightness = 40;
        cfg.max_brightness = 180;
        cfg.min_area = 1200;
        cfg.learning_rate = 0.05; // slow adaptation
        cfg.bg_thresh = 300;
        cfg.morph_kernel = Size(7,7);
    } else {
        cerr << "Mode must be 'fast' or 'slow'" << endl;
        return 1;
    }

    VideoCapture cap(video_path);
    if (!cap.isOpened()) {
        cerr << "❌ Cannot open video: " << video_path << endl;
        return 1;
    }

    int frame_width = static_cast<int>(cap.get(CAP_PROP_FRAME_WIDTH));
    int frame_height = static_cast<int>(cap.get(CAP_PROP_FRAME_HEIGHT));
    double fps = cap.get(CAP_PROP_FPS);
    if (fps <= 0.0) fps = 20.0;
    Size frame_size(frame_width, frame_height);

    // ensure outputs directory
    std::filesystem::create_directories("./outputs");
    string output_path = "./outputs/" + mode + "_output_video.avi";
    int fourcc = VideoWriter::fourcc('M','J','P','G');
    VideoWriter writer(output_path, fourcc, fps, frame_size);
    if (!writer.isOpened()) {
        cerr << "Could not open output writer: " << output_path << endl;
        // continue, we can still show windows
    }

    Ptr<BackgroundSubtractorKNN> backSub = createBackgroundSubtractorKNN(false);
    backSub->setDist2Threshold(cfg.bg_thresh);

    cout << "▶ Processing " << mode << " mode... Press 'q' to quit" << endl;

    Mat frame, gray, mask, gray_masked, fgmask;
    Mat kernel = getStructuringElement(MORPH_ELLIPSE, cfg.morph_kernel);

    while (true) {
        if (!cap.read(frame) || frame.empty())
            break;

        // convert to grayscale
        cvtColor(frame, gray, COLOR_BGR2GRAY);

        // brightness mask
        inRange(gray, Scalar(cfg.min_brightness), Scalar(cfg.max_brightness), mask);
        bitwise_and(gray, gray, gray_masked, mask);

        // apply background subtraction on masked grayscale
        backSub->apply(gray_masked, fgmask, cfg.learning_rate);

        // morphological cleanup (erode then dilate)
        erode(fgmask, fgmask, kernel, Point(-1,-1), 1);
        dilate(fgmask, fgmask, kernel, Point(-1,-1), 2);

        // find contours
        std::vector<std::vector<Point>> contours;
        std::vector<Vec4i> hierarchy;
        findContours(fgmask, contours, hierarchy, RETR_EXTERNAL, CHAIN_APPROX_SIMPLE);

        Mat result = frame.clone();
        for (const auto &cont : contours) {
            double area = contourArea(cont);
            if (area < cfg.min_area) continue;
            Rect r = boundingRect(cont);
            rectangle(result, r, Scalar(0,255,0), 2);
            putText(result, std::to_string(static_cast<int>(area)), Point(r.x, r.y-10), FONT_HERSHEY_SIMPLEX, 0.5, Scalar(0,255,0), 2);
        }

        // write FG mask as 3-channel for video output (if writer opened)
        if (writer.isOpened()) {
            Mat fg_bgr;
            cvtColor(fgmask, fg_bgr, COLOR_GRAY2BGR);
            writer.write(fg_bgr);
        }

        // display
        imshow("Motion Detection (" + mode + ")", fgmask);
        imshow("Result (" + mode + ")", result);

        char c = static_cast<char>(waitKey(30));
        if (c == 'q' || c == 27)
            break;
    }

    cap.release();
    if (writer.isOpened()) writer.release();
    destroyAllWindows();
    cout << "✅ Output saved to " << output_path << endl;

    return 0;
}

OBS: Caso não tenha vtest.avi, baixe-o no repositório OpenCV ou utilize um arquivo de vídeo próprio. Verifique também se o pkg-config encontra opencv4 na sua máquina.

5. Conclusões e Comentários Finais

O experimento permitiu compreender de forma prática os fundamentos da captura, exibição e gravação de imagens e vídeos com OpenCV.

Conceitos-chave e Lições Aprendidas

Subtratores de fundo

A subtração de fundo é uma família de métodos que modelam o fundo da cena e extraem o primeiro-plano em movimento. No OpenCV, as implementações mais utilizadas são MOG2 e KNN. Ambos constroem um modelo por pixel ao longo do tempo e classificam cada novo pixel como fundo ou primeiro-plano com base nesse modelo.

Principais pontos: inicialização do modelo, atualização contínua (taxa de aprendizado) e limiar para decidir se um pixel diverge do fundo.

Parâmetros de imagem e pré-processamento

Qualquer pipeline de detecção depende fortemente da qualidade das imagens: exposição, balanço de branco, ruído, resolução e compressão alteram significativamente os resultados. Pré-processamentos úteis:

Conversão para escala de cinza para reduzir variação de cor;
Máscara por brilho (threshold) para remover áreas muito escuras ou estouradas;
Filtro morfológico (erode/dilate) para reduzir ruído e preencher buracos;
Redimensionamento para aumentar a velocidade ou normalizar entradas.

Mecanismos: KNN vs MOG2

Breve comparação técnica:

KNN: usa um conjunto de amostras recentes por pixel e classifica um novo valor pela distância às amostras (robusto a ruído e flutuações, bom quando há variação lenta no fundo).
MOG2: modelo Gaussiano por pixel (mixture of Gaussians), captura multimodalidade do fundo (p. ex. árvores, telas piscantes) e fornece uma máscara de sombra opcional.

Escolha prática: MOG2 costuma lidar melhor com fundos multimodais; KNN pode ser mais estável em cenários com ruído periódico.

Observações práticas

Durante os experimentos observamos problemas comuns e formas de mitigá-los:

Sombra e reflexos: podem causar falsos positivos; usar máscara de sombra do MOG2 ou filtrar por brilho/forma ajuda.
Iluminação variável: altas variações exigem maior rate de aprendizado ou recalibração periódica.
Objetos parados: desaparecem do FG se o modelo adaptar rápido demais — escolha do learning_rate é crucial.
Ruído de câmera / compressão: aplique blur leve e morfologia para reduzir detecções espúrias.
Resolução vs desempenho: reduzir resolução aumenta FPS, mas pode perder pequenos objetos;

Aplicações Práticas e Experimento Recomendado

Que aplicações práticas são possíveis com subtração de fundo e detecção de movimento?

As técnicas de subtração de fundo e detecção de movimento têm ampla aplicação prática. Exemplos:

Vigilância e segurança: detecção de intrusos, alarmes por movimento, análise de eventos suspeitos.
Contagem de pessoas/veículos: estimativa de fluxo em entradas, passarelas, controle de tráfego e estatísticas em lojas.
Monitoramento de tráfego: detecção de congestionamento, contagem de veículos, detecção de eventos (acidentes, fila).
Iluminação e automação predial: ligar luzes ou sistemas HVAC quando presença detectada em zonas específicas.
Análise esportiva: segmentação de atletas, extração de trajetórias e métricas de desempenho.

Conclusão curta: background subtraction + motion detection são blocos construtivos para muitas aplicações reais — vigilância, contagem, análise de tráfego e automação - fornece evidências práticas sobre sensibilidade, robustez e desempenho para escolher a configuração adequada.