Vantagens de modelos de transformadores para detecção de objetos em aplicações de visão de máquina

Em aplicações de visão mecânica, como direção autônoma, fabricação inteligente e vigilância, a detecção precisa de objetos é crucial. Vários modelos de IA foram desenvolvidos ao longo dos anos, incluindo YOLO, Faster R-CNN, Mask R-CNN, RetinaNet e outros, para detectar e interpretar objetos em imagens ou vídeos. No entanto, os modelos de transformadores surgiram como soluções mais eficazes para detecção de objetos.

O sistema visual humano pode identificar rapidamente objetos com base em seu tamanho, cor e profundidade, enquanto filtra detalhes irrelevantes do fundo. Da mesma forma, um modelo de IA deve ser capaz de focar em objetos importantes, filtrar o fundo e classificá-los com precisão. Isso requer capturar os objetos alvo e fazer previsões com base no treinamento do modelo.

Os sistemas de visão mecânica hoje usam sensores de imagem e lentes que alimentam um bloco especializado de processamento de sinal de imagem (ISP). A saída deste bloco é então processada por aceleradores ou CPUs de uso geral para análise posterior.

Os requisitos de detecção de objetos variam dependendo do aplicativo. Em cenários de vigilância e de fábrica, a visão mecânica pode ser usada para contagem de pessoas ou detecção de defeitos em linhas de produção. Em aplicações automotivas, a visão mecânica é usada para sistemas avançados de assistência ao motorista (ADAS), como frenagem automática de emergência e assistência para manutenção de faixa.

Os modelos de transformadores, incluindo detecção de objetos orientados com transformador (O2DETR) e DEtection TRansformer (DETR), oferecem várias vantagens sobre modelos tradicionais como Faster R-CNN. Eles têm designs mais simples e usam uma abordagem de detecção de objetos ponta a ponta e de passagem única. O DETR, por exemplo, usa codificação e decodificação de transformador, juntamente com um conjunto de perdas de previsões para impor a correspondência entre as previsões e a verdade fundamental.

Ao contrário dos modelos tradicionais que dependem de caixas de âncora e supressão não máxima, modelos de transformadores como o DETR processam dados em paralelo e podem lidar com objetos sobrepostos sem essas etapas adicionais. Isso torna os modelos de transformadores mais eficientes e precisos para detecção de objetos.

Concluindo, os modelos de transformadores revolucionaram a detecção de objetos em aplicações de visão artificial. Sua capacidade de capturar objetos importantes, filtrar detalhes de fundo e classificar objetos com precisão os torna uma escolha preferida em relação aos modelos tradicionais. Os avanços no desenvolvimento de hardware e software também estão abrindo caminho para veículos autônomos que dependem de entradas de sensores e capacidades avançadas de visão mecânica.