|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Introducción En este documento, el monitoreo del tránsito urbano mediante visión por computadora se entiende como un proceso técnico orientado a generar metadatos operativos a partir de video capturado por cámaras fijas, ya sea en infraestructura existente o en dispositivos instalados con fines de aforo. Su propósito es producir mediciones y eventos que puedan integrarse en procesos institucionales de diagnóstico, seguimiento del desempeño, evaluación de intervenciones y operación cotidiana. Bajo este enfoque, el video constituye una fuente primaria de información cuyo valor se concreta en salidas operativas comparables y trazables, definidas mediante parámetros explícitos y estructuras de datos diseñadas para su consulta y análisis. Desde una perspectiva funcional, los sistemas de traffic surveillance reportados en la literatura reciente suelen estructurarse en dos niveles: i) un nivel de percepción, que comprende tareas de detección, clasificación y seguimiento de vehículos; y ii) un nivel de inferencia operativa, orientado a estimar variables como la velocidad y los conteos por carril, así como a identificar comportamientos o eventos relevantes para la gestión vial. Su implementación en campo está condicionada por restricciones propias del entorno, entre ellas variaciones de iluminación, oclusiones, vibraciones y condiciones climáticas, así como por la disponibilidad de recursos de cómputo que permitan operar con latencias acordes con los requerimientos del caso de uso (Hernández et al., 2026). En este contexto, se propone una metodología reproducible para implementar un sistema de monitoreo basado en video capaz de generar metadatos trazables —por ejemplo, conteos por carril, velocidades estimadas y eventos como cambios de carril— a partir de secuencias de video. La propuesta pone énfasis en las decisiones de instrumentación del sitio, como la definición de regiones de interés (ROI) y de líneas virtuales, en la arquitectura de procesamiento en el borde y en los criterios de evaluación del sistema. La metodología se centra en: i) cámaras monoculares fijas orientadas a secciones viales urbanas, tales como arteriales, avenidas o accesos controlados, configuradas para observación continua; ii) la extracción de variables por carril o por zona mediante ROI, líneas virtuales y reglas geométricas; y iii) la integración operativa bajo el principio “video in → metadatos out”, priorizando la transmisión de eventos e indicadores sobre el envío continuo de video (Barthélemy et al., 2019). El insumo principal para el monitoreo del tráfico urbano mediante visión por computadora es el flujo de video proveniente de una cámara de infraestructura, por ejemplo, una cámara IP fija con transmisión vía RTSP. A partir de esta secuencia se ejecuta un pipeline de analítica visual orientado a obtener detecciones por cuadro, trayectorias por vehículo —cuando se incorpora seguimiento multiobjeto— y, con base en reglas geométricas definidas para el sitio, como regiones de interés (ROI) y líneas virtuales, variables operativas tales como aforo o flujo, velocidad y otras métricas asociadas a trayectorias y eventos. Este enfoque se sustenta en antecedentes de vigilancia vial basados en visión por computadora y en metodologías de medición a partir de video. De manera complementaria, el sistema requiere metadatos de contexto que aseguren la trazabilidad y la interpretación operativa de las mediciones. Como información mínima, se consideran el identificador del sitio (site_id), el identificador de la cámara (camera_id), el o los sentidos de circulación, el número de carriles instrumentados, el periodo de observación —inicio y fin— y la configuración geométrica vigente, incluyendo la versión de las ROI y de las líneas virtuales, así como su correspondencia con cada carril o movimiento analizado. Cuando la arquitectura incorpora almacenamiento en servidor, se recomienda registrar, además, metadatos operativos, tales como actividades de mantenimiento, reencuadres, reinicios del sistema, pérdidas de señal o cambios severos en la iluminación. Esta información permite explicar posibles variaciones en la calidad del insumo, documentar las condiciones de operación y respaldar la auditoría de los resultados generados.
1.1 Arquitectura de visión por computadora basada en el bordeEn esta sección se describe la arquitectura de visión por computadora basada en el borde adoptada para transformar flujos de video en metadatos operativos con trazabilidad, mediante una separación explícita de las funciones de adquisición —cámara—, procesamiento local —nodo en el borde— y consumo institucional —servidor o plataforma—. El enfoque en el borde responde a requerimientos habituales de operación en campo, entre ellos el control de latencia, la reducción del ancho de banda al priorizar la transmisión de eventos y agregados frente al envío continuo de video, y la robustez ante variaciones de la conectividad mediante mecanismos de almacenamiento temporal y reenvío. De igual forma, esta arquitectura favorece la aplicación de criterios de gobernanza de datos, tales como la minimización de la información, el control de acceso y el registro de la configuración, incluyendo las versiones de las regiones de interés (ROI), las líneas virtuales y los parámetros del pipeline de procesamiento. Con base en esta arquitectura, se detalla el flujo de procesamiento, que comprende las etapas de ingesta y decodificación, inferencia, seguimiento, analítica y agregación, así como la pila de hardware y software considerada. Asimismo, se define el esquema de salidas —eventos y agregados— como un contrato de datos para su integración institucional y la evaluación del desempeño del sistema. |
|
|
(1) |
donde:
![]()
y
corresponden a los instantes en
que el mismo vehículo cruza la primera y la segunda línea, respectivamente.
Para expresar la velocidad en kilómetros por hora, se emplea la conversión:
|
|
(2) |
donde:
·
: distancia, en metros, entre las dos líneas virtuales
proyectadas sobre la vía;
·
tiempo
transcurrido, en segundos, entre los timestamps asociados al cruce del
vehículo por ambas líneas de referencia.
Una medición de velocidad se considera válida cuando se cumplen las siguientes condiciones:
1. El mismo track_id cruza ambas líneas en el orden esperado, de acuerdo con el sentido de circulación configurado;
2.
y la trayectoria presenta continuidad
suficiente entre ambos cruces;
3. El evento se registra dentro de la ROI y de la región o carril asociado, en caso de reportarse velocidad por carril;
4. La velocidad estimada se
encuentra dentro de un rango plausible
definido para el sitio, con el
fin de filtrar valores atípicos;

Figura 1.4 Instrumentación geométrica del sitio: ROI, umbrales y divisores de carril para conteo, seguimiento y estimación de velocidad
Fuente: elaboración propia.
2.5 Detección de cambio de carril basada en geometría
La detección de cambios de carril se realiza mediante un
análisis geométrico de las trayectorias estimadas por el módulo de seguimiento,
comparando el desplazamiento lateral del vehículo con la geometría digitalizada
de los carriles, en particular, con sus límites y divisores. Para cada vehículo
se define un punto representativo
, por ejemplo, el centroide o el
punto inferior-central de la caja delimitadora, y se evalúa su posición
relativa respecto al segmento que modela el límite de carril, definido por los
puntos
y
. A partir de esta relación se
determina el lado del límite en el que se encuentra el vehículo y, cuando se
observa un cambio consistente de lado a lo largo del tiempo, se registra un
evento de cambio de carril.
La posición relativa de
con respecto al segmento
se calcula mediante el signo del
producto cruzado:
(3)
donde:
·
: extremo inicial del límite de carril;
·
: extremo final del límite de carril;
·
: punto representativo del vehículo, derivado de la caja
delimitadora.
La interpretación del signo es la siguiente:
·
: el vehículo se encuentra a la izquierda de la línea
;
·
: el vehículo se encuentra a la derecha de la línea;
·
: el punto se encuentra sobre la línea.
La Figura 1.5 ilustra el ajuste de este módulo. En ella,
cada límite de carril se representa como un segmento en el plano de la imagen
definido por
y
, mientras que la posición
instantánea del vehículo se aproxima mediante
. El signo del producto cruzado
entre el vector director
y el vector
funciona como una prueba
robusta de ubicación izquierda-derecha.
Cuando, para un mismo identificador de seguimiento, se observa un cambio persistente de signo a lo largo de varios cuadros y se verifica que el cruce corresponde a carriles adyacentes, el sistema registra el evento de cambio de carril. Este criterio se basa en la geometría definida durante la calibración del sitio y reduce la dependencia de la detección explícita de las marcas viales, lo que contribuye a mantener la estabilidad operativa ante variaciones de iluminación, sombras y oclusiones parciales.

Figura 1.5 Criterio
geométrico para la detección de cambio de carril: posición relativa de
respecto al
segmento ![]()
Fuente: elaboración propia.
En este capítulo se presentan los resultados de la operación y de la validación preliminar del sistema de monitoreo basado en visión por computadora. En particular, se reportan: i) el desempeño del pipeline de detección y seguimiento como base del proceso de medición; y ii) la consistencia de las variables operativas derivadas de la instrumentación geométrica del sitio —ROI, líneas virtuales y divisores de carril—, entre ellas, el aforo por carril, la estimación de velocidad y los eventos de cambio de carril.
Los resultados se organizan con énfasis en la trazabilidad del proceso de medición, de manera que cada resultado se interpreta en función de la configuración del modelo, los parámetros de inferencia, las reglas de validación aplicadas y la versión de geometría empleada en el sitio.
3.1 Datos y diseño experimental
La evaluación se realizó mediante una cámara en operación continua durante seis horas, de las cuales se seleccionaron 36 clips de un minuto para su anotación manual y verificación. La anotación se orientó a tres aspectos: i) conteo por carril mediante cruces de línea; ii) cruces secuenciales de líneas de referencia para estimar la velocidad; y iii) cambios de carril entre carriles adyacentes.
Con el propósito de asegurar la comparabilidad de los resultados, durante el periodo analizado se mantuvo constante la configuración geométrica del sitio, incluyendo la ROI, las líneas virtuales y los divisores de carril. Asimismo, se registró la versión del pipeline utilizada —modelo, parámetros de inferencia y configuración del seguimiento— como parte de los metadatos de trazabilidad del experimento.
3.2 Desempeño del pipeline de detección y seguimiento
En los clips anotados, el detector vehicular —YOLOv8n con filtrado de clases vehiculares— generó detecciones por cuadro que permitieron alimentar el módulo de seguimiento y construir trayectorias asociadas a cada identificador temporal. En términos cualitativos, los principales factores que afectaron la continuidad de las trayectorias fueron: i) oclusiones parciales en condiciones de tráfico denso; ii) solapamiento entre vehículos en carriles contiguos; y iii) variaciones de iluminación y sombras. Estos efectos se reflejaron en la fragmentación de las trayectorias y en pérdidas temporales de identidad, con un impacto directo en la activación de eventos como cruces de línea, mediciones de velocidad y cambios de carril.
En este contexto, las reglas de control de calidad —por ejemplo, la continuidad mínima del track y la validación temporal de los eventos— resultan necesarias para estabilizar las salidas operativas y mantener la consistencia de las mediciones derivadas. La Figura 2.1 muestra un ejemplo de operación del pipeline de analítica de video en el sitio instrumentado. En ella se observan la ROI, representada mediante un polígono, así como los umbrales laterales utilizados para delimitar el área válida de análisis y los divisores de carril definidos como referencias geométricas. Sobre el flujo de video, además, se muestran las detecciones vehiculares, representadas mediante cajas delimitadoras, y el identificador temporal (track_id) utilizado por el módulo de seguimiento para mantener la continuidad de cada vehículo a lo largo del tiempo.

Figura 2.1 Ejemplos de operación del seguimiento: trayectoria continua vs. fragmentación por oclusión
Fuente: elaboración propia.
3.3 Prueba de operación continua
En la prueba de operación continua del sistema (Figura 2.1), se procesó video de una cámara fija instrumentada con ROI, umbrales y divisores de carril, generando salidas estructuradas por vehículo en formato JSON. Durante un periodo de aproximadamente 59,5 minutos, comprendido entre las 17:36:53 h y las 18:36:23 h del 7 de diciembre de 2025, se obtuvieron 2.509 registros, lo que da cuenta de la capacidad del sistema para operar bajo el esquema “video → metadatos”, conservando en cada registro la marca temporal y los atributos operativos asociados al seguimiento vehicular.
La composición vehicular estuvo dominada por automóviles, con menor presencia de camiones, autobuses y motocicletas. La mayor actividad se concentró en el carril 3, seguida por el carril 2, mientras que los carriles 4 y 1 registraron un menor volumen de observaciones. En la estimación de velocidad, la mayor concentración de registros se observó entre 35 y 55 km/h, con una mediana de 46 km/h y un promedio de 48,76 km/h. También se identificaron valores extremos, que conviene someter a filtros de plausibilidad y al control de calidad. En cuanto a los cambios de carril, los resultados muestran que el sistema permite caracterizar maniobras laterales a partir de trayectorias y de reglas geométricas. En conjunto, esta prueba confirma la capacidad del sistema para generar metadatos trazables útiles para el análisis operativo del tránsito.

Figura 2.3 Distribución de velocidad estimada
Fuente: elaboración propia.
La Figura 2.4 presenta la distribución del número de cambios de carril por trayectoria o vehículo, así como su frecuencia de registro. La mayor parte de las observaciones se concentra en valores bajos, entre 0 y 2 cambios, lo que indica que, durante el intervalo analizado, predominó una operación con maniobras laterales limitadas. Los casos con tres o más cambios aparecen con baja frecuencia y pueden asociarse a situaciones específicas, como rebase, incorporación, salida o maniobras evasivas, así como a posibles discontinuidades del seguimiento, como oclusiones o reasignación de identificadores. Por ello, conviene revisar estos casos como candidatos a validación y, en su caso, someterlos a criterios de depuración antes de reportar los indicadores agregados.

Figura 2.4 Distribución de cambios de carril por vehículo
Fuente: elaboración propia.
3.4 Resultados de aforo por carril mediante cruces de línea
El aforo por carril se obtuvo a partir del registro de eventos de cruce en líneas virtuales asociadas a cada carril. La comparación con la anotación manual en clips seleccionados mostró que los errores se concentran principalmente en tres condiciones: i) oclusión en la zona de cruce; ii) avances muy cortos entre vehículos; y iii) pérdida de continuidad de la trayectoria en los cuadros próximos a la línea.
Con base en estos resultados, se recomienda complementar la regla básica de cruce con una condición de continuidad mínima de la trayectoria en ventanas temporales tanto anteriores como posteriores al cruce, a fin de reducir los conteos dobles y minimizar la omisión de eventos.
Tabla 3.1 Conteo manual vs. automático por carril (clips anotados)
|
Clip |
Carril |
Manual (veh/min) |
Automático (veh/min) |
Error abs. (veh) |
Error (%) |
|
1 |
1 |
28 |
27 |
1 |
3.6 |
|
1 |
2 |
31 |
30 |
1 |
3.2 |
|
1 |
3 |
24 |
25 |
1 |
4.2 |
|
2 |
1 |
35 |
33 |
2 |
5.7 |
|
2 |
2 |
38 |
36 |
2 |
5.3 |
|
2 |
3 |
29 |
30 |
1 |
3.4 |
|
3 |
1 |
22 |
22 |
0 |
0.0 |
|
3 |
2 |
26 |
25 |
1 |
3.8 |
|
3 |
3 |
19 |
20 |
1 |
5.3 |
|
4 |
1 |
41 |
39 |
2 |
4.9 |
|
4 |
2 |
44 |
42 |
2 |
4.5 |
|
4 |
3 |
36 |
35 |
1 |
2.8 |
Fuente: elaboración propia.
A partir de la Tabla 3.1, el conteo automático presentó un error absoluto medio (MAE) de 1.25 veh/min y un error porcentual absoluto medio (MAPE) de 3.89 %. Asimismo, se identificó un sesgo promedio de −0.75 veh/min, lo que indica una ligera subestimación respecto al conteo manual. Este comportamiento se asocia principalmente con pérdidas de continuidad en el seguimiento durante eventos de cruce afectados por oclusiones o avances cortos. En conjunto, los resultados muestran una correspondencia consistente entre el conteo manual y el automático en los clips evaluados.
Tabla 3.2 Resumen de mediciones de velocidad y validación
|
Clip |
Carril |
Mediciones aceptadas |
Mediciones descartadas |
% aceptadas |
Observaciones |
|
1 |
1 |
20 |
3 |
87.0 |
2 pérdidas breves de track_id |
|
1 |
2 |
23 |
2 |
92.0 |
estabilidad de cruce |
|
1 |
3 |
18 |
4 |
81.8 |
oclusión parcial al cruzar línea 1 |
|
2 |
1 |
25 |
5 |
83.3 |
avances cortos |
|
2 |
2 |
27 |
4 |
87.1 |
1 cruce invertido descartado |
|
2 |
3 |
22 |
3 |
88.0 |
estabilidad general |
|
3 |
1 |
16 |
2 |
88.9 |
baja demanda |
|
3 |
2 |
19 |
3 |
86.4 |
sombras pronunciadas |
|
3 |
3 |
14 |
3 |
82.4 |
oclusión intermitente |
|
4 |
1 |
28 |
6 |
82.4 |
congestión moderada |
|
4 |
2 |
30 |
5 |
85.7 |
solapamiento de vehículos |
|
4 |
3 |
26 |
4 |
86.7 |
estabilidad general |
Fuente: elaboración propia.
Con
base en la Tabla 3.2, se registraron 268 mediciones de velocidad aceptadas y 44
descartadas, lo que corresponde a un porcentaje global de aceptación de 85,9 %.
Los descartes se asociaron principalmente a pérdidas de identidad en el
seguimiento y a cruces no válidos, ya sea por orden invertido o por valores de
no consistentes. En conjunto, estos
resultados indican que el método de estimación de velocidad mantiene un
desempeño consistente en los clips evaluados, aunque su confiabilidad depende
de la continuidad de las trayectorias y de la estabilidad de los cruces de las
líneas de referencia.
La Figura 2.3 compara la velocidad promedio estimada por carril. En ella se observa que el carril 1 presenta el valor promedio más alto, mientras que el carril 2 registra el más bajo; por su parte, los carriles 3 y 4 muestran valores intermedios y cercanos entre sí. Estas diferencias pueden asociarse a condiciones locales de operación, como incorporaciones, adelantamientos, distribución de la demanda o restricciones laterales.
3.5 Limitaciones y alcance de los resultados
Los resultados obtenidos permiten sustentar la viabilidad del enfoque para transformar video en metadatos operativos; sin embargo, su interpretación debe considerar las condiciones específicas de implementación y evaluación del sistema. El desempeño observado depende del diseño experimental, de la estabilidad de la escena, de la precisión de la instrumentación geométrica del sitio y de las restricciones de cómputo del nodo en el borde. Entre las principales limitaciones se encuentra, en primer lugar, el alcance del diseño experimental, ya que la validación se realizó con una sola cámara, una geometría fija y una muestra limitada de clips, lo que limita la generalización de los resultados a otros sitios y condiciones de operación. En segundo lugar, el desempeño del sistema es sensible a factores del entorno, como variaciones de iluminación, sombras, oclusiones, vibración y condiciones climáticas, que pueden afectar la detección y el seguimiento de vehículos.
Asimismo, la metodología depende de la definición manual de ROI, umbrales, divisores de carril y líneas virtuales, por lo que los cambios en el encuadre o en la posición de la cámara pueden afectar la consistencia de las mediciones. De igual manera, la estimación de velocidad mediante dos líneas de referencia requiere condiciones de seguimiento estables y marcas de tiempo consistentes, mientras que los eventos derivados de las trayectorias, como cambios de carril o cruces de línea, dependen de la calidad de la asociación de identidades.
Finalmente, la ejecución del sistema en CPU en un nodo del borde plantea retos de escalabilidad al aumentar el número de cámaras, la resolución o la frecuencia de procesamiento. En consecuencia, se recomienda ampliar la validación a más sitios y condiciones, así como fortalecer los mecanismos de calibración, de control de calidad y de operación continua.
La metodología presentada permite transformar el video de cámaras fijas en metadatos operativos trazables para el monitoreo del tráfico urbano, mediante una arquitectura cámara–nodo en el borde–servidor y un esquema de instrumentación geométrica del sitio. Su aplicación permitió obtener indicadores como aforo por carril, velocidad estimada y cambios de carril, a partir de salidas estructuradas orientadas a su consulta, auditoría y análisis. La validación preliminar mostró capacidad de operación continua y de generación de registros con sello temporal, lo que aporta trazabilidad al proceso de medición. En conjunto, los resultados permiten sustentar la viabilidad del enfoque para generar información operativa integrable en plataformas institucionales de monitoreo y análisis.
Como trabajo posterior, se recomienda ampliar la validación a un mayor número de sitios y condiciones de operación, así como fortalecer los procedimientos de calibración, de control de calidad y de estabilidad operativa del sistema.
Bibliografía
Barthélemy, J., Verstaevel, N., Forehead, H., & Perez, P. (2019). Edge-computing video analytics for real-time traffic monitoring in a smart city. Sensors (Switzerland), 19(9). https://doi.org/10.3390/s19092048
Bewley, A., Ge, Z., Ott, L., Ramos, F., & Upcroft, B. (2016). Simple online and realtime tracking. 2016 IEEE International Conference on Image Processing (ICIP), 3464–3468. https://doi.org/10.1109/ICIP.2016.7533003
Hernández, B., César, S., Montiel, J., Carlos, M., Peyrelongue, D. M., & Camacho, I. C. (2026). Metodología para el monitoreo del tráfico urbano mediante visión por computadora. https://imt.mx/publicacion.html
Lin, T.-Y., Maire, M., Belongie, S., Bourdev, L., Girshick, R., Hays, J., Perona, P., Ramanan, D., Zitnick, C. L., & Dollár, P. (2015). Microsoft COCO: Common Objects in Context. http://arxiv.org/abs/1405.0312
Ultralytics. (2023, January 10). Explore Ultralytics YOLOv8. Ultralytics YOLO Docs. https://docs.ultralytics.com/models/yolov8
Wojke, N., Bewley, A., & Paulus, D. (2017). Simple Online and Realtime Tracking with a Deep Association Metric. http://arxiv.org/abs/1703.07402
HERNÁNDEZ Bernardo
MONTIEL César Jaime
MARTNER Carlos Daniel
CERVANTES Ilse
“Las opiniones expresadas en esta publicación son de los autores y no necesariamente reflejan los puntos de vista del Instituto Mexicano del Transporte”


