Vantagens de modelos de transformadores para detecção de objetos em aplicações de visão de máquina
LarLar > Notícias > Vantagens de modelos de transformadores para detecção de objetos em aplicações de visão de máquina

Vantagens de modelos de transformadores para detecção de objetos em aplicações de visão de máquina

Jul 03, 2023

Em aplicações de visão mecânica, como direção autônoma, fabricação inteligente e vigilância, a detecção precisa de objetos é crucial. Vários modelos de IA foram desenvolvidos ao longo dos anos, incluindo YOLO, Faster R-CNN, Mask R-CNN, RetinaNet e outros, para detectar e interpretar objetos em imagens ou vídeos. No entanto, os modelos de transformadores surgiram como soluções mais eficazes para detecção de objetos.

O sistema visual humano pode identificar rapidamente objetos com base em seu tamanho, cor e profundidade, enquanto filtra detalhes irrelevantes do fundo. Da mesma forma, um modelo de IA deve ser capaz de focar em objetos importantes, filtrar o fundo e classificá-los com precisão. Isso requer capturar os objetos alvo e fazer previsões com base no treinamento do modelo.

Os sistemas de visão mecânica hoje usam sensores de imagem e lentes que alimentam um bloco especializado de processamento de sinal de imagem (ISP). A saída deste bloco é então processada por aceleradores ou CPUs de uso geral para análise posterior.

Os requisitos de detecção de objetos variam dependendo do aplicativo. Em cenários de vigilância e de fábrica, a visão mecânica pode ser usada para contagem de pessoas ou detecção de defeitos em linhas de produção. Em aplicações automotivas, a visão mecânica é usada para sistemas avançados de assistência ao motorista (ADAS), como frenagem automática de emergência e assistência para manutenção de faixa.

Os modelos de transformadores, incluindo detecção de objetos orientados com transformador (O2DETR) e DEtection TRansformer (DETR), oferecem várias vantagens sobre modelos tradicionais como Faster R-CNN. Eles têm designs mais simples e usam uma abordagem de detecção de objetos ponta a ponta e de passagem única. O DETR, por exemplo, usa codificação e decodificação de transformador, juntamente com um conjunto de perdas de previsões para impor a correspondência entre as previsões e a verdade fundamental.

Ao contrário dos modelos tradicionais que dependem de caixas de âncora e supressão não máxima, modelos de transformadores como o DETR processam dados em paralelo e podem lidar com objetos sobrepostos sem essas etapas adicionais. Isso torna os modelos de transformadores mais eficientes e precisos para detecção de objetos.

Concluindo, os modelos de transformadores revolucionaram a detecção de objetos em aplicações de visão artificial. Sua capacidade de capturar objetos importantes, filtrar detalhes de fundo e classificar objetos com precisão os torna uma escolha preferida em relação aos modelos tradicionais. Os avanços no desenvolvimento de hardware e software também estão abrindo caminho para veículos autônomos que dependem de entradas de sensores e capacidades avançadas de visão mecânica.