Object Detection with YOLOv11: Real-Time Web Application

Artificial Intelligence (AI) has revolutionized several industries by enabling machines to perform tasks that once required human abilities, such as visual perception and pattern recognition. Within this context, Convolutional Neural Networks (CNNs) stand out as powerful tools for image processing. CNNs operate through convolutional layers that hierarchically extract relevant features from images, making them ideal for tasks such as classification and object detection [1].

Among the most efficient CNN implementations is the YOLO (You Only Look Once) algorithm, widely used in computer vision applications that require speed and accuracy. Unlike approaches that analyze image regions separately, YOLO performs object detection in a single step by processing the entire input image simultaneously. This results not only in a significant inference speed gain but also in strong accuracy, even in scenarios with multiple objects and occlusions [2]. With the evolution of its architecture, newer versions such as YOLOv11 further enhance the model’s robustness and applicability, bringing improvements in precision, computational efficiency, and generalization capacity in complex environments [3].

In this context, an object detection system was developed using the YOLOv11 architecture, combined with a user-friendly interface built in Streamlit, targeting real-time applications. The application enables users to:

a) Perform object detection on images (JPG, PNG, JPEG formats);

b) Process videos (MP4, AVI, MOV) with side-by-side visual analysis;

c) Detect objects in real time using a webcam;

d) View results with instant feedback in a lightweight and interactive interface.

The system was built with modern tools for data science and computer vision, including Python, Ultralytics, OpenCV, Pillow, NumPy, PyTorch, and CUDA. These technologies ensure the performance required for high-demand applications such as intelligent surveillance, autonomous vehicles, and industrial automation systems. The project’s GitHub repository is publicly available, contributing to the scientific community and encouraging experimentation and future enhancements [4].

Warley Rodrigues de Almeidaλ

Bruno de Alencar Ferreira Ψ

DOI: https://doi.org/10.5281/zenodo.15282569

References
[1] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444, 2015.
[2] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only look once: Unified, real-time object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2016.
[3] J. Redmon et al., “You only look once: Unified, real-time object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., pp. 779–788, 2016.
[4] https://github.com/oBrunoz/object-detection-yolov11

Detecção de Objetos com YOLOv11: Aplicação Web em Tempo Real

A inteligência artificial (IA) tem revolucionado diversos setores ao permitir que máquinas executem tarefas que antes exigiam capacidades humanas, como percepção visual e reconhecimento de padrões. Dentro desse contexto, as redes neurais convolucionais (CNNs) destacam-se como ferramentas poderosas para o processamento de imagens. As CNNs operam por meio de camadas convolucionais que extraem, de forma hierárquica, características relevantes das imagens, tornando-as ideais para tarefas como classificação e detecção de objetos [1].

Entre as implementações mais eficientes de CNNs está o algoritmo YOLO (You Only Look Once), amplamente utilizado em aplicações de visão computacional que exigem rapidez e precisão. Diferentemente de abordagens que analisam regiões da imagem separadamente, o YOLO realiza a detecção de objetos em uma única etapa, tratando toda a imagem de entrada simultaneamente. Isso permite não apenas um ganho significativo em velocidade de inferência, mas também uma boa acurácia, mesmo em cenários com múltiplos objetos e oclusões [2]. Com o avanço da arquitetura, versões mais recentes como a YOLOv11 ampliam ainda mais a robustez e aplicabilidade do modelo, trazendo melhorias em precisão, eficiência computacional e capacidade de generalização em ambientes complexos [3].

Neste contexto, foi desenvolvido um sistema de detecção de objetos baseado na YOLOv11, com uma interface amigável implementada em Streamlit, visando aplicações em tempo real. A aplicação permite ao usuário:

a) Realizar detecção de objetos em imagens (formatos JPG, PNG, JPEG);

b) Processar vídeos (MP4, AVI, MOV) com análise visual comparativa;

c) Detectar objetos em tempo real utilizando a webcam;

d) Visualizar os resultados com feedback instantâneo em uma interface leve e interativa.

O sistema foi construído com ferramentas modernas de ciência de dados e computação visual, incluindo Python, Ultralytics, OpenCV, Pillow, NumPy, PyTorch e CUDA. Essas tecnologias garantem a performance necessária para aplicações de alta demanda computacional, como a vigilância inteligente, veículos autônomos e sistemas industriais automatizados. O repositório do projeto está disponível publicamente no GitHub, contribuindo com a comunidade científica e incentivando a experimentação e aprimoramentos futuros [4].

Warley Rodrigues de Almeidaλ

Bruno de Alencar Ferreira Ψ

Referências
[1] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444, 2015.
[2] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only look once: Unified, real-time object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2016.
[3] J. Redmon et al., “You only look once: Unified, real-time object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., pp. 779–788, 2016.
[4] https://github.com/oBrunoz/object-detection-yolov11

Ψ https://orcid.org/0009-0002-0890-3346

λ https://orcid.org/0009-0005-8767-5880

Citation

Rodrigues de Almeida, W., & Alencar Ferreira, B. (2025). Object Detection with YOLOv11: Real-Time Web Application. In Amazontech: Revista de Esutdos Interdisciplinares (Vol. 7, Número 1). DOI: https://doi.org/10.5281/zenodo.15282569