April 8, 2026

IA y Visión por Computadora: Detección de Peligros en Construcción

Email

By Safety Team

Revisamos 14 estudios académicos sobre detección de peligros con IA en obras de construcción. Qué funciona, qué no, y qué debe saber todo gerente de seguridad.

emerging technology

Una cámara capturó lo que el inspector pasó por alto

En un experimento de 2025, investigadores dirigieron un sistema de IA a fotografías reales de obras de construcción y le pidieron identificar cada violación de seguridad. La IA señaló 96 de cada 100 peligros reales --- una tasa de detección que ningún inspector humano podría sostener de manera realista durante un turno de ocho horas. Pero también marcó docenas de cosas que no eran peligros reales: una sombra que parecía un borde sin protección, un chaleco reflectante doblado sobre un barandal, un barandal conforme visto desde un ángulo extraño (Wang et al.).

Ese resultado captura la tensión central del monitoreo de seguridad con IA en 2026. La tecnología es notablemente buena para detectar peligros. También es notablemente mala para saber cuándo algo está bien. Y esa brecha --- entre capturar todo y dar falsas alarmas --- es la pregunta que todo gerente de seguridad debe entender antes de decidir si esta tecnología pertenece a su obra.

Para obtener un panorama claro de dónde se encuentra realmente la ciencia, revisamos 14 estudios publicados entre 2015 y 2026, extraídos de revistas de ingeniería revisadas por pares y principales repositorios de investigación. Lo que sigue no es un discurso de ventas para IA ni un rechazo. Es una evaluación práctica de lo que funciona, lo que no, y lo que significa para las personas responsables de mantener vivos a los trabajadores.

Qué hacen realmente estos sistemas

Si ha usado un sistema de cámara de seguridad con alertas de movimiento, ya entiende el concepto básico. El monitoreo de seguridad con IA usa cámaras --- a veces fijas en estructuras, a veces montadas en drones o robots --- para vigilar continuamente una obra. El software analiza la transmisión de video y señala peligros potenciales.

Pero la tecnología ha evolucionado mucho más allá de la simple detección de movimiento. Los sistemas de hoy caen en tres categorías amplias, y entender las diferencias importa porque cada una tiene fortalezas y limitaciones distintas.

Los sistemas de detección de objetos son los más directos. Estos usan algoritmos entrenados en miles de fotografías etiquetadas para reconocer elementos específicos: cascos, chalecos de seguridad, barandales, escaleras, maquinaria pesada. La tecnología más común se llama YOLO (You Only Look Once), que puede escanear un fotograma de video e identificar cada objeto reconocible en milisegundos (Adil et al.; Choi y Greer). Piénselo como una lista de verificación visual muy rápida y muy enfocada. El sistema sabe cómo se ve un casco, escanea el fotograma y reporta si cada trabajador lo está usando.

Los modelos de visión-lenguaje representan un salto significativo. En lugar de solo identificar objetos, estos sistemas de IA pueden describir lo que ven en lenguaje natural y razonar sobre si una situación es peligrosa. Apunte uno a una foto de construcción y podría reportar: "Un trabajador en el andamio del segundo piso no lleva arnés anticaídas, y el barandal del lado este parece no tener un travesaño intermedio". Estos modelos --- incluidos sistemas comerciales de OpenAI, Google y Anthropic --- entienden el contexto, no solo los objetos (Chaudhary et al.; Chen y Zou).

Las tuberías integradas combinan múltiples enfoques de IA en un solo sistema. Un estudio montó una tubería de IA en un robot de cuatro patas que caminaba autónomamente por una obra, usó un modelo de IA para describir cada escena, otro para buscar la regulación OSHA relevante, y un tercero para generar un reporte de inspección de seguridad por escrito --- todo sin intervención humana (Naderi et al.). Otro sistema combinó transmisiones de cámara con grabaciones de audio en el sitio y cruzó todo con una base de datos de regulaciones de seguridad para producir reportes de inspección (Wang et al.).

Los números: ¿Qué tan bien funciona realmente?

Aquí es donde la investigación se vuelve interesante --- y donde los gerentes de seguridad deben prestar mucha atención, porque los números principales pueden ser engañosos sin contexto.

Las mejores tasas de detección son impresionantes

El sistema de mayor rendimiento revisado, un marco llamado SiteShield que combina análisis visual y de audio con referencias cruzadas regulatorias, capturó el 96% de los peligros reales en datos reales de obras de construcción. Logró lo que los investigadores llaman una puntuación F1 de 0.82 --- una medida combinada tanto de capturar peligros reales como de evitar falsas alarmas, donde 1.0 sería perfecto (Wang et al.).

Un sistema de inspección montado en robot que funcionaba completamente con modelos de IA gratuitos y de código abierto capturó el 92.2% de los peligros en su mejor escenario. Ese sistema fue probado en 442 fotogramas de video que contenían 20 violaciones de seguridad diferentes abarcando cuatro categorías OSHA: peligros de caída, orden y limpieza y peligros de tropiezo, seguridad eléctrica, y cumplimiento del EPP (Naderi et al.).

Para la tarea específica de detección de cascos --- la aplicación más estudiada --- los modelos de detección de objetos lograron 93.3% de precisión simplemente localizando trabajadores y equipo en un fotograma (Adil et al.). Un estudio separado mostró que incluso los modelos de IA de propósito general sin entrenamiento específico de construcción podían identificar cascos con aproximadamente 65% de precisión en más de 5,200 imágenes (Choi y Greer).

Pero el problema de las falsas alarmas es real

Aquí está el número que más importa para el despliegue práctico: cuando los investigadores compararon directamente el rendimiento de la IA con inspectores humanos en el mismo conjunto de violaciones de seguridad de construcción, los resultados fueron reveladores. Los inspectores humanos identificaron correctamente los peligros con 95.6% de precisión --- lo que significa que cuando un humano decía "eso es una violación", casi siempre tenía razón. El mejor modelo de IA logró solo 18.2% de precisión en la misma tarea, lo que significa que aproximadamente cuatro de cada cinco alertas que levantaba eran falsas alarmas (Chen y Zou).

En términos operativos: si un sistema de IA genera 100 alertas de seguridad en un turno, aproximadamente 80 pueden no ser peligros reales. Ese volumen de falsas alarmas crea un riesgo real de fatiga de alertas --- el mismo fenómeno que hace que las enfermeras ignoren los monitores que suenan y los conductores desconecten los sensores de estacionamiento. Si su equipo de seguridad aprende a descartar las alertas de IA porque la mayoría están equivocadas, el sistema se vuelve peor que inútil porque crea una falsa sensación de cobertura.

Sin embargo, el recall de la IA --- su capacidad para capturar peligros que realmente existen --- fue del 89.4%, en comparación con el 66.6% del inspector humano. La IA pasó por alto menos peligros reales. El inspector humano pasó por alto más peligros reales pero casi nunca marcó algo que no fuera realmente un problema (Chen y Zou).

Esta no es una historia sobre si la IA es mejor o peor que los inspectores humanos. Es una historia sobre la IA y los inspectores humanos teniendo fortalezas complementarias. La IA captura más cosas. El humano sabe qué cosas realmente importan. Juntos, cubren más terreno que cualquiera por separado.

Cómo le pregunte a la IA importa más que cuál IA use

Uno de los hallazgos más prácticamente importantes en estos estudios es que la forma en que configura y le da instrucciones a un sistema de IA tiene un mayor impacto en su precisión que qué modelo de IA elige.

Chaudhary et al. probaron cinco de los sistemas de IA comerciales más poderosos disponibles actualmente --- Claude-3 Opus, GPT-4.5, GPT-4o, GPT-o3 y Gemini 2.0 Pro --- en el mismo conjunto de 16 fotografías reales de obras de construcción. Cuando se les daba una instrucción simple ("identifica peligros en esta imagen"), la precisión promedio entre todos los modelos era pobre, con puntuaciones F1 alrededor de 0.31 --- lo que significa que los sistemas pasaban por alto la mayoría de los peligros y marcaban muchos no-peligros. Cuando se les daban instrucciones de razonamiento paso a paso (una técnica llamada chain-of-thought prompting), la precisión se duplicó a un F1 promedio de 0.64. La mejora fue estadísticamente significativa (p < 0.001), y bajo la estrategia de instrucción mejorada, las diferencias entre los cinco modelos de IA ya no eran estadísticamente significativas (Chaudhary et al.).

Ese hallazgo tiene implicaciones directas de costo. Si cómo se hace la pregunta importa más que qué producto se compra, entonces un gerente de seguridad usando un sistema de IA menos costoso con instrucciones bien diseñadas podría superar a un competidor usando un producto premium con configuración genérica.

Sammour et al. confirmaron este patrón en un contexto diferente. Probando IA en 385 preguntas de exámenes de certificación de seguridad profesional, encontraron que el diseño de instrucciones podía cambiar la precisión hasta 13.5 puntos porcentuales. Ninguna configuración única funcionaba mejor en todas las áreas temáticas --- la configuración óptima para preguntas de identificación de peligros era diferente de la configuración óptima para preguntas de respuesta a emergencias (Sammour et al.).

Los modelos pequeños y económicos están alcanzando rápidamente

Para los gerentes de seguridad preocupados por el costo, uno de los hallazgos más sorprendentes en la investigación reciente es que los modelos de IA pequeños, gratuitos y de código abierto están cerrando rápidamente la brecha con sistemas comerciales costosos.

Sahraoui probó un modelo llamado Qwen2 VL con solo 2 mil millones de parámetros --- lo suficientemente pequeño para ejecutarse en una laptop --- en la detección de violaciones de seguridad de construcción. Usando una técnica llamada ensamblaje de instrucciones, donde el sistema revisa la misma imagen con múltiples instrucciones diferentes y agrega los resultados, este modelo diminuto logró 72.6% de precisión y capturó 98% de los peligros reales. Para comparación, el modelo comercial GPT de OpenAI en una configuración estándar logró solo 32.2% de precisión en la misma tarea (Sahraoui).

Adil et al. demostraron que emparejar un modelo rápido de detección de objetos con un modelo pequeño de visión-lenguaje podía lograr un rendimiento útil de detección de peligros mientras agregaba solo 2.5 milisegundos de procesamiento por imagen --- lo suficientemente rápido para el monitoreo de video en tiempo real. Incluso el modelo más pequeño que probaron, con solo 1 mil millones de parámetros, mostró una mejora de 15 puntos porcentuales al emparejarse con el sistema de detección. La configuración completa podía ejecutarse en un dispositivo de cómputo de borde en la obra, sin requerir conexión a la nube (Adil et al.).

Naderi et al. construyeron un robot autónomo completo de inspección ejecutándose enteramente en modelos de código abierto y encontraron que superaba consistentemente al GPT-4o de OpenAI en todos los escenarios probados --- a aproximadamente un décimo del costo por imagen. Su sistema usó cuatro modelos de IA de código abierto diferentes trabajando en secuencia, cada uno manejando una parte diferente de la tubería de inspección, y cada paso intermedio era visible para auditoría humana (Naderi et al.).

La trayectoria aquí es clara. En 2015, la detección automatizada de cascos requería un laboratorio de investigación especializado y conjuntos de datos personalizados (Shrestha et al.). Para 2020, requería experiencia en aprendizaje automático pero podía usar conjuntos de datos más pequeños a través de técnicas de aprendizaje activo (Kim et al.). Para 2026, un sistema ejecutándose en modelos de código abierto en un dispositivo común puede detectar peligros, explicar su razonamiento, cruzar referencias con regulaciones OSHA y generar un reporte escrito --- todo por menos del costo de una suscripción de software comercial.

Lo que la IA aún no puede hacer

La investigación es igualmente clara sobre las limitaciones, y los gerentes de seguridad deben entenderlas antes de tomar decisiones de compra.

La interpretación detallada de reglas sigue siendo débil

Los sistemas de IA se desempeñan razonablemente bien en el reconocimiento grueso de peligros --- "¿está ese trabajador cerca de un borde sin protección?" --- pero tienen dificultades con el tipo de interpretación regulatoria detallada que los profesionales de seguridad experimentados hacen intuitivamente. Cuando Chen y Zou probaron modelos de IA en el cumplimiento de reglas OSHA específicas, la precisión en reglas detalladas cayó por debajo del 20%. Los modelos podían identificar que algo parecía inseguro pero no podían determinar con confianza qué regulación específica se violaba o si aplicaba una excepción (Chen y Zou).

De manera similar, Sammour et al. encontraron que aunque la IA pasó exámenes de certificación de seguridad profesional con puntuaciones de 73-85%, se desempeñó mal en preguntas que involucraban cálculos matemáticos, procedimientos de respuesta a emergencias y detalles de prevención de incendios. El análisis de errores fue instructivo: 38% de los errores provinieron de lagunas en el conocimiento, 31% de razonamiento defectuoso, 24% de limitaciones de contexto y memoria, y 7% de errores de cálculo (Sammour et al.).

La brecha laboratorio-obra es real

La mayoría de los estudios revisados se realizaron en entornos controlados o en conjuntos de datos de imágenes curadas. Las obras de construcción reales presentan desafíos que las condiciones de laboratorio no: polvo pesado, cambios dramáticos de iluminación durante el día, trabajadores ocultos detrás de equipo o materiales, diseños de obra que cambian constantemente, y el puro caos visual de una obra activa.

Chharia et al. abordaron directamente uno de estos desafíos --- la oclusión visual --- usando cuatro ángulos de cámara en lugar de uno. La precisión de su sistema saltó del 81.7% con una sola cámara al 92.0% con cuatro cámaras. La detección de cascos, el escenario más afectado por la oclusión (trabajadores inclinándose, volteándose, parándose detrás de equipo), mejoró 10.3 puntos porcentuales con múltiples puntos de vista. También desarrollaron un generador de escenas sintéticas que crea entornos de construcción realistas para entrenar sistemas de IA, reduciendo la necesidad de recolección costosa de datos del mundo real (Chharia et al.).

Pero múltiples cámaras, dispositivos de cómputo de borde y la infraestructura para conectarlos todos representan costos reales y complejidad real. La brecha entre "esto funcionó en nuestro experimento" y "esto funciona en su obra todos los días" es donde muchas tecnologías prometedoras se estancan.

Privacidad, responsabilidad y aceptación del trabajador

Los artículos de investigación se enfocan casi enteramente en el rendimiento técnico. No abordan las preguntas prácticas que determinarán si esta tecnología realmente se adopta: ¿Los trabajadores aceptan la vigilancia constante con cámara? ¿Qué sucede cuando un sistema de IA pasa por alto un peligro y alguien resulta lesionado --- quién es responsable? ¿Cómo se manejan los datos que estos sistemas recolectan, especialmente si capturan a los trabajadores cometiendo errores? ¿Cuáles son las implicaciones sindicales?

Estas no son preocupaciones hipotéticas. Cualquier gerente de seguridad que despliegue un sistema de monitoreo con IA tendrá que navegar el consentimiento del trabajador, las políticas de retención de datos, y la pregunta legal de si las alertas de peligros generadas por IA crean un "conocimiento" documentado que aumenta la exposición a responsabilidad si no se actúa. La tecnología está adelante del marco de política, y la literatura de investigación no se ha puesto al día con estas realidades operativas.

La oportunidad real: IA como su segundo par de ojos

Si hay una conclusión única de estos 14 estudios, es esta: La IA no viene por el trabajo del inspector de seguridad. Viene por los puntos ciegos del inspector de seguridad.

Los datos muestran consistentemente que la IA y los inspectores humanos tienen capacidades casi perfectamente complementarias. Los humanos son precisos --- cuando identifican un peligro, casi siempre tienen razón, y entienden el contexto regulatorio intuitivamente. La IA es exhaustiva --- observa todo, nunca se cansa, y captura peligros que los humanos pasan por alto. La combinación de alta precisión humana y alto recall de IA es más poderosa que cualquiera por separado.

Liu et al. encontraron que más de la mitad de los peligros en obras de construcción pasan desapercibidos debido a lagunas en la experiencia y conocimiento del inspector, particularmente entre personal menos experimentado. Su trabajo sobre el uso de realidad aumentada para transferir experiencia de inspectores experimentados a trabajadores nuevos apunta a un tema más amplio: el valor real de la IA en seguridad no es reemplazar la experiencia sino distribuirla (Liu et al.).

Para el gerente de seguridad práctico, la investigación sugiere el siguiente enfoque:

Comience con el monitoreo de cumplimiento de EPP. La detección de cascos y chalecos de seguridad es la aplicación más madura, más validada. Funciona, produce resultados medibles, y es la más fácil de validar contra sus propias observaciones. Si un proveedor no puede demostrar detección confiable de EPP en las condiciones específicas de su sitio, sus características más avanzadas tampoco están listas.

Invierta en configuración, no solo en adquisición. La investigación muestra consistentemente que cómo configura un sistema de IA determina su valor más que qué sistema compra. Si está evaluando herramientas de IA para seguridad, pregunte a los proveedores sobre sus estrategias de instrucciones, sus tasas de falsos positivos en condiciones reales, y si le permiten personalizar el enfoque de análisis del sistema para los peligros específicos de su sitio. Un sistema de nivel medio bien configurado probablemente superará a uno premium mal configurado.

Diseñe para revisión humana, no automatización. Construya su flujo de trabajo para que las alertas de IA vayan a una persona competente para evaluación, no directamente a acciones de aplicación. La fortaleza de la tecnología es capturar cosas que los humanos pasan por alto, no reemplazar el juicio humano. Rastree su tasa de falsos positivos a lo largo del tiempo --- si está por encima del 50%, el sistema está creando más ruido que señal y necesita reconfiguración.

Observe la curva de costo. La investigación muestra que los modelos de código abierto ejecutándose en dispositivos de borde están acercándose al rendimiento comercial para tareas específicas de seguridad. Si el presupuesto es una barrera hoy, vale la pena revisarlo en doce meses. El costo del monitoreo efectivo de seguridad con IA está cayendo más rápido que casi cualquier otra tecnología de seguridad en memoria reciente (Oliveira et al.; Pour Rahimian et al.; Adil et al.).

Considere múltiples cámaras. Si despliega un sistema basado en visión, la investigación de Chharia et al. hace un fuerte caso para múltiples ángulos de cámara. Una configuración de cuatro cámaras detectó peligros con 92% de precisión versus 82% para una sola cámara. La mejora es especialmente pronunciada para violaciones de EPP, donde un solo ángulo de cámara a menudo no puede ver si un trabajador cumple (Chharia et al.).

Hacia dónde va esto

El ritmo de mejora en este campo es extraordinario. En 2015, el estado del arte era detectar si una mancha de color en una obra de construcción era un casco. En 2026, los sistemas de IA pueden observar una obra, describir lo que cada trabajador está haciendo, identificar qué regulaciones OSHA aplican, y generar un reporte de inspección escrito --- usando software gratuito ejecutándose en un dispositivo que cabe en su bolsillo.

La investigación aún no muestra un sistema listo para despliegue sin supervisión. Cada estudio revisado reconoce la necesidad de supervisión humana. Pero la trayectoria es inconfundible, y la pregunta para los gerentes de seguridad no es si la IA se convertirá en parte del monitoreo de seguridad en construcción, sino cuándo y cómo la integra en su programa.

Los estudios revisados aquí sugieren que "cuándo" puede estar más cerca de lo que la mayoría de los profesionales de seguridad se dan cuenta.

Limitaciones de esta revisión

Este artículo revisó 14 estudios disponibles a través de revistas académicas y repositorios de preimpresiones hasta abril de 2026. No incluye investigación industrial propietaria, programas piloto no publicados, o datos de rendimiento de productos comerciales. La mayoría de los estudios se publicaron entre 2024 y 2026, y el trabajo anterior puede haber sido superado. Muchos estudios se basan en conjuntos de datos curados que pueden no representar la diversidad completa de entornos de construcción, poblaciones de trabajadores o marcos regulatorios regionales. La validación de campo bajo condiciones auténticas y a largo plazo de obras de construcción sigue siendo limitada en toda la literatura. Esta es una revisión narrativa de investigación, no un meta-análisis estadístico formal; los estudios revisados usan métricas, conjuntos de datos y métodos de evaluación diferentes que impiden la comparación estadística directa.

Obras Citadas

Adil, Muhammad, et al. "Integration of Object Detection and Small VLMs for Construction Safety Hazard Identification." arXiv preprint, arXiv:2604.05210, 6 Apr. 2026, doi.org/10.48550/arXiv.2604.05210.

Chaudhary, Nishi, et al. "Prompt to Protection: A Comparative Study of Multimodal LLMs in Construction Hazard Recognition." arXiv preprint, arXiv:2506.07436, 9 Jun. 2025, doi.org/10.48550/arXiv.2506.07436.

Chen, Xuezheng, and Zhengbo Zou. "Are Large Pre-trained Vision Language Models Effective Construction Safety Inspectors?" arXiv preprint, arXiv:2508.11011, 14 Aug. 2025, doi.org/10.48550/arXiv.2508.11011.

Chharia, Aviral, et al. "Safe-Construct: Redefining Construction Safety Violation Recognition as 3D Multi-View Engagement Task." arXiv preprint, arXiv:2504.10880, 15 Apr. 2025, doi.org/10.48550/arXiv.2504.10880.

Choi, Lucas, and Ross Greer. "Evaluating Cascaded Methods of Vision-Language Models for Zero-Shot Detection and Association of Hardhats for Increased Construction Safety." arXiv preprint, arXiv:2410.12225, 16 Oct. 2024, doi.org/10.48550/arXiv.2410.12225.

Kim, Jinwoo, et al. "Towards Database-Free Vision-Based Monitoring on Construction Sites: A Deep Active Learning Approach." Automation in Construction, vol. 118, Oct. 2020, article 103376. doi.org/10.1016/j.autcon.2020.103376.

Liu, Pengkun, et al. "Sharing Construction Safety Inspection Experiences and Site-Specific Knowledge through XR-Augmented Visual Assistance." arXiv preprint, arXiv:2205.15833, 31 May 2022, doi.org/10.48550/arXiv.2205.15833.

Naderi, Hossein, et al. "Autonomous Construction-Site Safety Inspection Using Mobile Robots: A Multilayer VLM-LLM Pipeline." arXiv preprint, arXiv:2512.13974, 16 Dec. 2025, doi.org/10.48550/arXiv.2512.13974.

Oliveira, Bruno, et al. "Automated Monitoring of Construction Sites of Electric Power Substations Using Deep Learning." IEEE Access, vol. 9, 2021, pp. 27865-80. doi.org/10.1109/ACCESS.2021.3054468.

Pour Rahimian, Farzad, et al. "On-Demand Monitoring of Construction Projects Through a Game-Like Hybrid Application of BIM and Machine Learning." Automation in Construction, vol. 110, Feb. 2020, article 103012. doi.org/10.1016/j.autcon.2019.103012.

Sahraoui, Islem. "Automated Hazard Detection in Construction Sites Using Large Language and Vision-Language Models." arXiv preprint, arXiv:2511.15720, 13 Nov. 2025, doi.org/10.48550/arXiv.2511.15720.

Sammour, Farouq, et al. "Responsible AI in Construction Safety: Systematic Evaluation of Large Language Models and Prompt Engineering." arXiv preprint, arXiv:2411.08320, 13 Nov. 2024, doi.org/10.48550/arXiv.2411.08320.

Shrestha, Kishor, et al. "Hard-Hat Detection for Construction Safety Visualization." Journal of Construction Engineering, vol. 2015, 2015, article 721380. doi.org/10.1155/2015/721380.

Wang, Chenxin, et al. "Automating Construction Safety Inspections Using a Multi-Modal Vision-Language RAG Framework." arXiv preprint, arXiv:2510.04145, 5 Oct. 2025, doi.org/10.48550/arXiv.2510.04145.