RECONSTRUCCIÓN DE ENTORNOS 3D MEDIANTE UN SISTEMA …

1

RECONSTRUCCIÓN DE ENTORNOS 3D MEDIANTE UN SISTEMA DE VISION

ARTIFICIAL ESTEREOSCÓPICO, PARA APLICACIONES EN NAVEGACIÓN

ROBÓTICA.

ETAPA 1: IMPLEMENTACIÓN DE UN SISTEMA DE VISIÓN ARTIFICIAL

ESTEREOSCÓPICO PARA LA ESTIMACIÓN DE LAS COORDENADAS 3 – D DE

OBJETOS PRESENTES EN UN ENTORNO BAJO CONDICIONES DE LUZ

CONTROLADAS.

JUAN ESTEBAN SILVA NARVÁEZ

ANA MARÍA ZAPATA HERRERA

UNIVERSIDAD DE SAN BUENAVENTURA SECCIONAL MEDELLÍN

FACULTAD DE INGENIERÍAS

PROGRAMA DE INGENIERÍA ELECTRÓNICA

MEDELLÍN

2015

2

RECONSTRUCCIÓN DE ENTORNOS 3D MEDIANTE UN SISTEMA DE VISION

ARTIFICIAL ESTEREOSCÓPICO, PARA APLICACIONES EN NAVEGACIÓN

ROBÓTICA.

ETAPA 1: IMPLEMENTACIÓN DE UN SISTEMA DE VISIÓN ARTIFICIAL

ESTEREOSCÓPICO PARA LA ESTIMACIÓN DE LAS COORDENADAS 3 – D DE

OBJETOS PRESENTES EN UN ENTORNO BAJO CONDICIONES DE LUZ

CONTROLADAS.

JUAN ESTEBAN SILVA NARVÁEZ.

ANA MARÍA ZAPATA HERRERA.

Proyecto de grado presentado para optar al título de Ingeniero Electrónico

Asesor

Camilo Andrés Flórez Velásquez, Ingeniero Electricista

UNIVERSIDAD DE SAN BUENAVENTURA SECCIONAL MEDELLÍN

FACULTAD DE INGENIERÍAS

PROGRAMA DE PREGRADO DE INGENIERÍA ELECTRÓNICA

MEDELLÍN

2015

3

DEDICATORIA

Queremos dedicar estos años de esfuerzo a Dios por habernos dado la fuerza y las

personas necesarias para acompañarnos a lo largo de este proceso.

A nuestras Familias, habría sido imposible llegar a donde llegamos sin la fuerza, el

sacrificio, la confianza, la educación y el amor que ustedes siempre tuvieron con

nosotros. Por ustedes somos las personas que hoy en día somos, ya que crecimos en el

amor, la confianza y la fe que se imparte en un verdadero hogar en el que siempre

estamos los unos para los otros. Gracias por ser como son, gracias desde lo profundo de

nuestros corazones.

Camilo Andrés Flórez, maestro, asesor, amigo, gracias por ser ese motor que nos impulsó

a encontrar el camino hacia nuestro éxito.

Sebastián Higuita, gracias por atravesar esta etapa con nosotros, por apoyar nuestros

sueños y darnos ánimo, compañía e inspiración en todo los momentos.

4

AGRADECIMIENTOS

Camilo Andrés Flórez Velásquez, gracias maestro por su entrega en nuestro aprendizaje,

por compartir su sabiduría y por impulsarnos a ser cada día mejores.

5

CONTENIDO

1. RESUMEN Y PALABRAS CLAVES……………………………………………………6

2. INTRODUCCIÓN………………………………………………………………………………..8

3. MODELOS ÓPTICO – GEOMÉTRICOS DE LENTES PRESENTES EN CÁMARAS

DIGITALES………………………………………………………………………………………...15

4. MODELOS DE FORMACIÓN DE IMÁGENES EN CÁMARAS…………………………..39

5. TÉCNICAS DE ESTIMACIÓN DE LOS MODELOS DE FORMACIÓN DE IMÁGENES

EN CÁMARAS, O PROCESO DE CALIBRACIÓN……………………………………………66

6. PRINCIPIOS BÁSICOS DE MEDICIÓN DE COORDENADAS TRIDIMENSIONALES..99

7. METODOLOGÍA Y EXPERIMENTOS DISEÑADOS……………………………………..103

8. RESULTADOS………………………………………………………………………………..116

9. CONCLUSIONES…………………………………………………………………………….145

10. LISTA DE TABLAS…………………………………………………………………………147

11. LISTA DE FIGURAS……………..………………………………………………………...150

12. ANEXOS………………………………………………………………………………….…153

13. BIBLIOGRAFÍA……………………………………………………………………………...166

6

1. RESUMEN

La visión artificial es ampliamente utilizada a nivel mundial en aplicaciones donde se

requiere la información del mundo 3D para la toma de decisiones: en medicina, búsqueda

de objetivos militares, aplicaciones de rescate en desastres y en particular en la

resolución de problemas asociados a la navegación robótica. Para implementar estas

aplicaciones, se emplean cámaras para capturar la información del mundo tridimensional

en dos dimensiones, y a partir de algoritmos de procesamiento de imágenes y de

inteligencia artificial proceder a reconstruir el medio donde el agente robótico navegará.

Existen diversas técnicas que permiten reconstruir la información 3D, dentro de las cuales

se destaca, la visión estereoscópica por su alta precisión en la medición de las

coordenadas de puntos 3D.

A raíz de los diversos desarrollos a nivel mundial y de la creciente necesidad de avances

en esta área que enfrenta la nación (Plan ETI, 2013), se propone Implementar un sistema

metrológico para la medición de las coordenadas 3D de objetos presentes en un entorno

bajo condiciones de luz controlada, mediante el uso de técnicas de visión estereoscópica

y algunos algoritmos de visión artificial, con la finalidad de emplear el sistema

implementado en aplicaciones de navegación de agentes robóticos móviles.

Para llevar a cabo este proyecto, se propone emplear una investigación de tipo

cuantitativo y el método planteado para alcanzar los objetivos propuestos es del tipo

“deductivo-inductivo” e “inductivo- deductivo”, donde se busca corroborar de manera

experimental la calidad o validez de los modelos y técnicas propuestas a lo largo de la

investigación, modelos como el de Pin-Hole, necesario para estudiar la formación de

imágenes, las diferentes técnicas de calibración para hallar los parámetros intrínsecos

(Zhang) y extrínsecos de las cámaras (Faugeras, técnica homogénea y técnica no

homogénea), las ecuaciones necesarias para la estimación de la profundidad de los

objetos 3D usando la Técnica de Estereoscopía y finalmente el algoritmo empleado para

la reconstrucción de superficies 3 – D a partir de la nube de puntos del objeto

tridimensional, estimados por el sistema de visión artificial.

7

Los mejores resultados estimando las coordenadas tridimensionales de un objeto real, se

obtuvieron a partir del uso de matrices de calibración lineal, aplicando la técnica

homogénea y la técnica de Faugeras, generando resultados con un alta precisión cuando

el objeto se encuentra desde la distancia mínima de captura hasta 1.2 metros de

profundidad, con respecto al centro de referencia del sistema de coordenadas (cámara

uno).

Palabras claves:

Visión Artificial, Visión Estereoscópica, Reconstrucción 3D, Modelo Pin-Hole, Técnicas de

Calibración.

8

2. INTRODUCCIÓN

La visión artificial es ampliamente utilizada a nivel mundial para aplicaciones donde se

requiere información del mundo 3D para la toma de decisiones: en medicina

(escáneres y procesamiento, tomografía, resonancia magnética, tomografía axial,

radiología, endoscopias, sistemas de oftalmología, odontología, medicina forense,

ortopedia, cirugía robotizada), búsqueda de objetivos militares, aplicaciones de

rescate en desastres, procesamiento de imágenes climatológicas, cámaras de

automóviles, medida de nivel y detección de impureza en líquidos y en particular en la

resolución de problemas asociados a la navegación robótica.

En particular, la visión artificial se emplea para resolver problemáticas asociadas a la

navegación de agentes robóticos, como por ejemplo en la reconstrucción de entornos

3D para la planificación de navegación en entornos estructurados / no estructurados,

cuyas aplicaciones van desde la planificación de tareas de enjambres de robots hasta

el control automático de la dirección de automóviles, área en la cual ya se han

realizado avances tecnológicos importantes, como por ejemplo, el desarrollo de un

prototipo de laboratorio de un dispositivo universal, que puede controlar la dirección de

un automóvil en carretera sin intervención del conductor (Naranjo y Jiménez, 2012), y

el desarrollo de un sistema de un que actúa como copiloto y podría tomar el control del

automóvil, solo con la finalidad de evitar accidentes (MIT, año 2012).

Para implementar estas aplicaciones, se emplean cámaras para capturar la

información del mundo tridimensional en dos dimensiones, y a partir de algoritmos de

procesamiento de imágenes y de inteligencia artificial se procede a reconstruir el

medio donde el agente robótico navegará. Para reconstruir la información 3D usando

visión artificial, existen las siguientes técnicas: Telemetría láser, control de parámetros

ópticos, visión estereoscópica empleando (2) o más cámaras, técnicas de luz

estructurada entre otras; sobresaliendo las técnicas de estereoscopía por su alta

precisión en la medición de coordenadas de puntos 3D y elemental implementación de

sus algoritmos en sistemas computacionales.

La nación no es ajena a estas aplicaciones que emplean de forma extensiva la visión

artificial, y por tal motivo ha enmarcado en el plan (ETI, 2013) (Electrónica –

Telecomunicaciones – Informática), la necesidad de promover en los grupos de

9

investigación de las universidades, el desarrollo de proyectos de I + D que incentiven

la generación de prototipos industriales y patentes en las áreas de procesamiento

digital de señales unidimensionales y bidimensionales (imágenes) y en el desarrollo de

robots que sirvan para impulsar el desarrollo de la industria nacional. Bajo estas

premisas es claro que el programa de Ingeniería Electrónica de la Universidad de San

Buenaventura Seccional Medellín, con su línea de investigación de robótica, debe

propender por la ejecución de proyectos de investigación que impulsen y apoyen las

áreas estratégicas de interés de los gobiernos local, regional y nacional en lo que

concierne a Ciencia y Tecnología; en particular en el diseño y puesta en marcha de

robots industriales y de sensórica avanzada para estos sistemas, fundamentadas por

ejemplo en la visión artificial.

A partir de lo expuesto, se propone desarrollar un sistema de reconstrucción de

entornos 3D, usando técnicas de visión artificial cimentadas en sistemas de cámaras

estereoscópicas, para su futuro uso en el control de navegación de vehículos a

gasolina o eléctricos bajo condiciones experimentales.

La metodología experimental que se propondrá en el proyecto para la reconstrucción

de entornos y objetos 3 - D, pretende retomar y potenciar las técnicas actualmente

empleadas en Colombia mencionadas por (Suárez & Loaiza, 2011), (Jaramillo Ortíz,

Jiménez, & Ramos, 2013),(Nope & Loaiza, 2008); con el objeto de generar un

prototipo experimental de visión artificial que sirva para reconstruir la información 3 - D

del mundo, inicialmente bajo condiciones de luz controlada, y en un futuro proyecto

bajo condiciones de luz sin control de algún tipo.

2.1 Breve Descripción del Estado del Arte

La visión artificial tiene como objetivo principal conseguir que una computadora pueda

analizar una escena del mundo real como lo haría una persona; para llevar a cabo

esta tarea es necesario crear un modelo 3D de dicha escena con dos cámaras, que

obtienen dos imágenes desde dos puntos de vista diferentes (visión estereoscópica),

esto permite capturar la información del mundo de una forma tridimensional, como lo

haría el ojo humano; es por esto que la visión artificial es ampliamente utilizada a nivel

mundial en diferentes áreas que necesitan la información del mundo 3D para la toma

10

de decisiones, como lo son la medicina, el área militar, el civil y en particular en la

resolución de problemas asociados a la navegación robótica.

La visión artificial se emplea especialmente para la resolución de problemáticas

asociadas a la navegación de agentes robóticos, en particular en la reconstrucción de

entornos 3D para la planificación de navegación en ambiente controlados o no

controlados.

A nivel mundial, varios autores han desarrollado diferentes técnicas que permiten la

reconstrucción de entornos 3D, algunas de las cuales se mencionan a continuación:

(Vilá Ubieto, 2009), propone la reconstrucción de objetos sencillos, a partir de

imágenes adquiridas desde dos cámaras puestas en forma paralela; para realizar

dicha tarea, realizó un algoritmo en Matlab. Sin embargo, este algoritmo sólo

funcionaba de manera adecuada con objetos que tuvieran geometría recta. El sistema

no está capacitado para la reconstrucción de objetos con puntas redondeadas.

Carabias et al (2010), proponen desarrollar una aplicación que obtenga la

representación 3D del medio en el cual navega el agente robótico autónomo, a partir

de dos imágenes tomadas por diferentes cámaras, y a partir de la información

recolectada por estas, planificar la ruta del mismo. El algoritmo implementado por

Carabias, presentó algunos errores, pues al momento de reconstruir la imagen, está

se encontraba un poco desplazada respecto a la original, claro está que los resultados

obtenidos son suficientes para reconocer la existencia o no de obstáculos y a partir de

esta información planificar la navegación del agente robótico.

Suarez y Loaiza (2011), implementaron un sistema de estereovisión de bajo costo

para ser empleado en agentes robóticos móviles, que permite estimar la distancia a la

cual se encuentran los objetos presentes en el campo de visión del agente. Ellos

lograron desarrollar un sistema de visión que permitía la navegación de un robot móvil

autónomo en un ambiente estructurado desconocido con un error al momento de

realizar la medición de 5.04 cm, y con un campo de acción entre 60 cm y 240 cm.

En la Universidad Politécnica de Madrid, Jiménez y Naranjo (2012), han desarrollado

un prototipo de laboratorio de un dispositivo universal, que puede controlar la dirección

de un automóvil en carretera sin intervención del conductor, también un grupo de

ingenieros del MIT ha estado trabajando en el desarrollo de un sistema que actúa

11

como copiloto y podría tomar el control del automóvil, solo con la finalidad de evitar

accidentes.

En Colombia existen los siguientes trabajos asociados a la reconstrucción de entornos

2D y 3D para la navegación de agentes robóticos:

Correa Niño et al (2010), proponen un agente robótico para servicios cooperativos,

con un sistema de sensores muy básicos compuesto por un medidor óptico de cortas

distancias (0-1m) usando el sensor GP2D12 y una cámara digital que solo se emplea

para reconocer colores de objetos. El sistema no está capacitado para la

reconstrucción de entornos 3D.

(Acosta, 2010), propone un sistema Multi - Agente robótico para la navegación

colaborativa en escenarios estructurados; que sirven para la reconstrucción de

entornos 2D a partir de la información recolectada por los sensores ultrasónicos,

mientras el robot evita el choque contra obstáculos en un ambiente de control; sin

embargo el sistema Multi - Agente no está en la capacidad de extraer información

tridimensional del entorno, para su respectivo uso en la navegación.

(Rojas Gualdrón, 2007), propone un control automático fundamentando en redes

neuronales para resolver, el problema de navegación de un agente robótico móvil en

un ambiente estructurado, donde el sensor empleado para la navegación es una

sistema compuesto por cuatro sensores binarios (1-0), que solo indican la existencia o

no existencia del obstáculo alrededor del robot a muy cortas distancias (decenas de

centímetros). La información recolectada (patrones de unos y ceros asociados a los

obstáculos), no se usa para reconstruir el entorno de navegación.

(Díaz Celiz & Romero Molano, 2011), proponen un sistema de visión artificial

implementado con una cámara Kinect de Microsoft, que sirve para obtener la

profundidad en metros de cada punto de un objeto en 3D (cámara de rango), en un

intervalo entre 0.8 m y 3.5 m, usando triangulación con luz infrarroja. La información

obtenida (profundidad) se emplea para planificar la navegación del robot. Los

resultados obtenidos evidencian que este tipo de sensores no son altamente precisos

a la hora de medir distancias (profundidad). Ballester y Phectectt (2011), proponen el

uso experimental de un sensor Kinect de Microsoft, para la medición de distancias.

Este sensor está compuesto por un sistema de iluminación infrarrojo y un arreglo de

12

sensores electrópticos CMOS, que triangulan la posición 3D de los objetos en un

rango de 0.8 m y 3.5 m. El sensor tiene limitaciones respecto a la resolución esperada

y no está orientada a tareas de reconstrucción.

(Aristizábal & Restrepo, 2013), implementaron un prototipo para la medición de la

velocidad de un automóvil con cámara de video, usando técnicas de triangulación y

medición de tiempos entre frames consecutivos. La propuesta no resuelve el problema

de la reconstrucción del entorno 3D para la medición de variables cinemáticas.

2.2 Técnicas de Reconstrucción 3D

La visión artificial se emplea para resolver problemáticas asociadas a la navegación

de agentes robóticos, de especial interés, en la reconstrucción de entornos 3D para la

planificación de navegación en entornos estructurados o no estructurados. Las

técnicas de reconstrucción permiten estimar las coordenadas 3D que corresponden a

diversos puntos del objeto tridimensional a partir de la muestra de imágenes

bidimensionales.

Existen diversas técnicas de reconstrucción 3D, algunas de las cuales se mencionan a

continuación.

Técnica de visión artificial activa:

La técnica de visión activa o cámara móvil, emplea una cámara de video que

obtiene diferentes posiciones del objeto que se desea reconstruir.

Las cámaras están en constante movimiento, manteniendo correspondencia entre

el plano de referencia de la cámara y el plano del objeto.

Telemetría Laser:

La telemetría láser consiste en emitir un rayo luminoso hacia un objeto. Al obtener

las medidas del tiempo de vuelo en diferentes puntos o por métodos de

triangulación, permite estimar las profundidades de este y realizar su

reconstrucción 3D.

13

Técnicas de luz estructurada:

Las técnicas de luz estructurada, son ampliamente empleadas en la industria;

estas permiten reconstruir un entorno 3D mediante el análisis de la deformación

que sufre un rayo luminoso emitido hacia el objeto u entorno a reconstruir. En la

técnica es necesario la adquisición de las imágenes que contienen la deformación

de los rayos emitidos correspondientes al objeto mediante una o varias cámaras.

Técnica de visión artificial Multi-Vistas:

Para obtener la información tridimensional de un objeto por medio de técnicas de

visión artificial, es necesario que existan dos (2) o más perspectivas del mismo; el

proceso se debe realizar de esta forma, ya que al ser procesada la imagen

digitalmente, el punto capturado por ésta pierde el eje asociado a la profundidad.

Las técnicas de visión Multi-Vistas, según la cantidad de imágenes utilizadas, se

clasifican en:

Visión artificial estereoscópica (2 cámaras).

Visión artificial Trifocal (3 cámaras).

Visión artificial n-focal (n cámaras).

En la siguiente tabla se ilustra las diferentes ventajas y desventajas que presenta cada

técnica de reconstrucción 3D al ser aplicadas en la navegación de agentes robóticos.

14

Tabla 1. Tabla comparativa entre las diferentes técnicas de reconstrucción 3D. Propiedad

de los autores.

VENTAJAS DESVENTAJAS

Visión Estereoscópica -Construye el entorno

rápidamente.

-Económico

computacionalmente.

-Correspondencia entre

pixeles de 2 imágenes.

Visión activa -Extrae la información 3D

de un objeto en

movimiento.

- Económico.

-Los Parámetros de

calibración cambian.

-Las cámaras deben

moverse adecuadamente

en el entorno.

Telemetría Laser -Preciso. - Requiere ambientes de

luz controlada y de la

geometría del objeto.

Luz Estructurada -Preciso

-Construye el entorno

rápidamente y con

exactitud.

- Requiere ambientes de

luz controlada y de la

geometría del objeto.

-Costoso

computacionalmente.

A partir de la información anteriormente expuesta, se propone elegir la técnica de visión

artificial estereoscópica, como la más adecuada para la reconstrucción de entornos 3D;

esto debido a las diversas ventajas que esta tiene frente a las demás como los son: rápida

construcción del entorno, la funcionabilidad de la técnica tanto en ambiente controlados

como nos controlados, el bajo costo computacional de sus algoritmos y finalmente su alta

precisión en la medición de coordenadas de puntos 3D.

15

3. MODELOS ÓPTICO – GEOMÉTRICOS DE LENTES PRESENTES EN CÁMARAS

DIGITALES

En el presente capítulo se desarrollarán los marcos conceptuales asociados a la

propagación de rayos luminosos en lentes de sistemas de cámaras digitales, bajo la

perspectiva de la óptica geométrica, donde no se tendrá en cuenta el fenómeno

ondulatorio de la aberración cromática, donde los rayos de luz no se concentran

adecuadamente en el foco por efectos de la dependencia del índice de refracción de la

lente con la longitud de onda (Jerry & J. Buffa, 2014). El estudio de la propagación de la

luz a través de las lentes, permite establecer de forma clara el modelo de formación de

imágenes en una cámara digital, elemento trascendental en las técnicas de visión

estereoscópica bicameral, tricameral y de 4 o más cámaras.

3.1 Cámaras Digitales y Formatos Digitales de Imágenes

El elemento principal de todo sistema de visión artificial estereoscópica es la cámara

digital, que se emplea para adquirir la información visual proveniente de objetos

previamente iluminados. En la figura 1 se ilustran los subistemas más relevantes que

componen a una cámara digital.

Figura 1. Subsistemas que componen a una cámara digital. La fuente de la imagen es el

sitio web http://www.digitalcameraworld.com/2012/08/31/cheat-sheet-friday-how-your-

digital-camera-turns-light-into-an-image/.

http://www.digitalcameraworld.com/2012/08/31/cheat-sheet-friday-how-your-digital-camera-turns-light-into-an-image/

http://www.digitalcameraworld.com/2012/08/31/cheat-sheet-friday-how-your-digital-camera-turns-light-into-an-image/

16

Para capturar una escena la cámara captura y absorbe la luz a través de la lente guiando

los rayos luminosos hasta el sensor fotoeléctrico implementado en circuito integrado

llamado Charged Couple Device (CCD), que se encarga de convertir la energía y longitud

de onda de los fotones emitidos por cada punto de la escena, en una señal eléctrica

bidimensional llamada señal de video, que está en formato análogo. En la figura 2 se

ilustra un CCD típico de una cámara digital.

Figura 2: Fotografía de un CCD de una cámara webcam digital.

La fuente de la imagen está disponible en el sitio web http://en.wikipedia.org/wiki/Charge-

coupled_device#/media/File:Webcam_CCD_-_640x480px_Colour.jpg, etiquetada para

reutilización no comercial.

El CCD es un arreglo matricial de células fotoeléctricas de dimensiones del orden de los

µm, y cada célula está compuesta por tres elementos electro – ópticos capacitada para

distinguir y medir la potencia lumínica asociada a las longitudes de onda de los colores

básicos verde – rojo y azul. Cada célula registra la unidad básica de información de una

imagen conocida como “píxel”, por lo tanto todas las imágenes son matrices donde cada

posición del arreglo son píxeles.

Si el sensor tiene dimensiones Lx [m] de ancho y Ly [m] de largo, entonces se pueden

definir la cantidad de píxeles por unidad de longitud en la dirección horizontal y la cantidad

de píxeles por unidad de longitud en la dirección vertical así:

http://en.wikipedia.org/wiki/Charge-coupled_device#/media/File:Webcam_CCD_-_640x480px_Colour.jpg

http://en.wikipedia.org/wiki/Charge-coupled_device#/media/File:Webcam_CCD_-_640x480px_Colour.jpg

17

metro

Píxel

L

HorizontalDirecciónPíxelesdeCantidad

X

(1)

metro

Píxel

L

VerticalDirecciónPíxelesdeCantidad

Y

(2)

Entre mayores sean los valores de y de un CCD de una cámara A respecto a los

valores de y de un CCD de una cámara B, mejor es la resolución de la imagen o lo

que es lo mismo mejor es el muestreo espacial de la misma.

Las señales eléctricas bidimensionales provenientes del CCD, son previamente

digitalizadas mediante un CODEC típicamente con formatos de 8 – 16 – 24 y 32 bits, y

posteriormente procesadas en un DSP (Digital Signal Processor: Procesador digital de

señales), que se encarga de aplicar algoritmos de corrección, interpolación y filtrado de la

imagen, y por último la entrega en un archivo con formatos estándares para el

almacenamiento de imágenes.

Los formatos típicos para almacenar y manipular la información contenida en una imagen

se fundamentan en 2 estándares: estándar de almacenamiento de imágenes de mapa de

bits y estándar de almacenamiento de imágenes por técnicas vectoriales. (Ordoñez

Santiago, 2005).

En el estándar de mapas de bits las imágenes se encuentran conformadas por una rejilla

o matriz, donde sus celdas se les conocen como píxeles. Para cada pixel existe un valor

de intensidad de color o de luminancia propia (escala de grises de la imagen) típicamente

expresada en formato entero de N – Bits de longitud.

En las imágenes Vectoriales conocidas como gráficos orientados a objetos, se almacenan

las características geométricas de las imágenes capturadas como por ejemplo, la longitud

de arco, los radios de las circunferencias, el ángulo entre segmentos de rectas, los

perímetros entre otros; y el color es almacenado en un mapa que especifica las

tonalidades de cada elemento descrito geométricamente.

18

Las imágenes digitales se pueden representar en diferentes formatos; algunos de los

cuales se explican a continuación:

BMP (Bitmap – Mapa de Bits).

Es una de las extensiones más empleadas, porque, permite guardan gran cantidad de

información de la imagen, permitiendo esto la manipulación de las mismas sin riesgo de

sufrir alteraciones en su calidad; su único inconveniente es que al almacenar tanta

información, el archivo termina siendo de un tamaño muy grande.

GIF (Graphics Interchange Format – Formato de Intercambio Gráfico).

Por el contrario de la extensión BMP, GIF ha sido diseñado con el propósito de comprimir

imágenes digitales. Este formato, es apto para publicar animaciones o dibujos en la web,

esto debido a que permite reducir el tamaño del archivo, al disminuir la paleta de colores;

aunque no es muy aconsejable para imágenes que necesiten cierta calidad.

JPG-JPEG (Joint Photographic Experts Group - Grupo de Expertos Fotográficos

Unidos).

JPG utiliza un sistema de compresión, que reduce el tamaño del archivo. En contraste con

el GIF, JPEG permite guardar las imágenes con una paleta de hasta 16 millones de

colores. La compresión que emplea este formato, también podría causar pérdidas en la

calidad.

PNG (Portable Network Graphic - Gráfico portable para la red).

Es un formato ideal para ser empleado e internet, reúne las ventajas de GIF y de JPG, al

permitir emplear compresión, una paleta superior a 256 colores y finalmente, al admitir la

creación de semi - transparencias o transparencias en las imágenes.

Luego de revisar de forma introductoria los elementos que conforman una cámara digital,

y los formatos para representar digitalmente las imágenes capturadas, se procede a

describir los modelos matemáticos que rigen la óptica geométrica de las lentes que hacen

parte de los equipos mencionados.

19

3.2 Modelo de Lentes de Cámaras Digitales

Una lente de una cámara es un dispositivo óptico que sirve para dirigir y concentrar los

haces de luz provenientes de un objeto hacia el CCD, con la finalidad de muestrear

espacialmente los elementos o píxeles que conforman la imagen a ser capturada.

Las lentes típicamente empleadas en sistemas de visión artificial son del tipo “Biconvexas

Convergentes” (Jerry & J. Buffa, 2014), y algunos de los modelos de propagación de

rayos lumínicos geométricos de estas lentes se estudian a continuación.

3.2.1 Modelo de la lente delgada

La lente biconvexa se considera como un sistema formado por un conjunto de lentes de

ancho cero, cuyos rayos característicos se enseñan en la figura 3.

Figura 3. Modelo de la Lente Delgada. La fuente de la imagen es propiedad de los

autores.

Donde:

F [metros] es el foco de la lente biconvexa. RF .

P es el punto de tres dimensiones cuyos rayos luminosos son capturados por la lente.

P’ es el punto de 2 dimensiones formado sobre la superficie del CCD.

20

Para este modelo se cumplen las siguientes propiedades.

1. Todos los rayos provenientes del punto P deben converger en un solo punto sobre

el plano del CCD (plano de formación de la imagen) P’, si el CCD está ubicado a

una distancia de enfocamiento respecto al centro óptico. Si el CCD no está a la

distancia adecuada respecto al centro óptico, el punto P se difumina en varios

puntos sobre el área del sensor provocando el efecto del desenfoque, tal como se

ilustra en la figura 4. El desenfoque genera la sensación visual de “borrosidad” de

la imagen.

2. Todo rayo incidente que viaja paralelo al eje óptico (RP en la figura 3), atravesará

la lente y pasará por el foco en el otro extremo.

3. Todo rayo incidente que pasa por el foco (RF en la figura 3), emerge paralelo al

eje óptico.

4. Todo rayo incidente que cruza por el centro óptico (RC en la figura 3), seguirá su

trayectoria original sin desvío alguno.

Figura 4. Fenómeno del desenfoque. El rayo de luz proveniente de P genera múltiples

puntos sobre el plano de formación de la imagen. La fuente de la imagen es propiedad de

los autores.

A partir de las propiedades enunciadas, se pueden formular las expresiones que rigen al

modelo de lente delgada de la lente biconvexa. En la figura 5 se ilustran los rayos y el

sistema de referencia empleado para determinar dichas expresiones.

21

Figura 5. Obtención de las expresiones que rigen las coordenadas del punto P’ sobre el

CCD, empleando el modelo de lente delgada. La fuente de la imagen es propiedad de los

autores.

Empleando la información de la figura 5, se obtiene que:

Nótese que

'

'tan

y

z

y

z (3)

Además es elemental verificar que:

'

'tan

y

zz

F

z

(4)

De la ecuación 3 se obtiene que:

'' y

y

z

z (5)

Y de (4):

Fy

F

z

z

'' (6)

22

Igualando las expresiones (5) y (6) se llega al siguiente resultado:

Fy

y11

1'

(7) Muy importante.

Esta expresión sirve para predecir el valor de la coordenada 'y del punto P’ formado en

el CCD, o lo que es lo mismo, la distancia a la cual debe estar el plano de formación de

imagen para que se enfoquen los rayos provenientes de P en un solo punto que define al

punto P’ de 2 dimensiones.

Por último la coordenada 'z del punto P’ se calcula empleando la expresión (5) y (7):

Fy

y

zz

11

1' (8) Muy importante

De la expresión (7) se puede notar que la distancia 'y donde se forma el punto P’ no es

constante, depende del valor de la coordenada y del punto P, lo cual implica que no es

factible garantizar que todos los puntos de la imagen se generen sobre el plano de

formación de la imagen, generando el molesto fenómeno del desenfoque explicado

anteriormente.

Aunque este modelo representa de forma muy precisa la propagación de los rayos

luminosos por una lente biconvexa, el fenómeno del desenfoque predicho por este modelo

ocasiona que un (1) punto P genere múltiples puntos ''

3

'

2

'

1 ,,,, KPPPP , que va en contra

del paradigma de la visión estereoscópica que requiere que todo punto P de tres

dimensiones solo posea un punto P’ de dos dimensiones capturado por una cámara.

23

3.2.2 Modelo de Lente Pin-Hole

(Zhang, 2000; Tsai, 1987;Faugeras, 1992) proponen modelar la lente biconvexa de la

cámara como una lente de dimensiones iguales a cero o modelo Pin - Hole (pequeño

orificio circular), que provoca que sólo un (1) haz luminoso proveniente de un punto 𝑃𝑖

del objeto de tres dimensiones que pase por el centro de la lente, es el único que alcanza

a viajar hasta el CCD para formar el punto 𝑃𝑖` equivalente de 2 dimensiones; lo cual

garantiza que en cada célula o píxel del CCD se mapeara de forma inyectiva (uno a uno)

cada punto 𝑃𝑖 del objeto tridimensional, creando una imagen perfectamente enfocada del

mismo, , propiedad que está en consonancia con la fundamentación físico - matemática

de la técnica de reconstrucción tridimensional empleando visión estereoscópica, que

exige que todo punto 𝑃𝑖 de tres dimensiones capturado por la cámara solo produzca un

punto 𝑃𝑖 sobre el plano de formación de la imagen.

Lo enunciado anteriormente implica que el modelo más simple y adecuado para

representar una lente en un sistema de visión tridimensional es el modelo Pin –

Hole.

En la figura 6 se ilustran el rayo luminoso proveniente del punto P que es colimado por la

lente, y los sistemas de referencia empleados para estudiar la formación de la imagen

sobre un plano de imagen, que en el caso de una cámara digital es el CCD.

Figura 6. Rayo luminoso del punto P que interviene en la formación del punto P’ sobre el

CCD, bajo el referente teórico del modelo de Pin-Hole. La fuente de la imagen es

propiedad de los autores.

24

X’ & Z’ ambos en [metros], son las variables que rigen la posición del punto P’ de dos

dimensiones formado sobre el plano de formación de la imagen.

La vista superior del modelo de formación de imagen enseñado en la figura 6, se presenta

en la figura 7.

Figura 7. Vista superior del trazado de rayos de la lente bajo el modelo de Pin-Hole. La

fuente de la imagen es propiedad de los autores.

Nótese que:

tan 𝜃 =𝑥𝐶𝑦𝐶= −𝑥′

𝐹

Por lo tanto:

𝑥` = −𝐹 ∗𝑥𝐶𝑦𝐶 (9)

La expresión (9) sirve para predecir el valor de la coordenada x’ en [metros] del punto P`

formado sobre el plano de formación de la imagen, y se calcula en función de las

coordenadas (𝑥𝐶 , 𝑦, 𝑧𝐶) del punto P.

En la figura 8 se ilustra la vista lateral del sistema de rayos de la lente bajo el modelo Pin

– Hole mostrado en la figura 5.

25

Figura 8. Vista lateral del modelo de Pin-Hole de la lente. La fuente de la imagen es


De la figura 8, es elemental verificar que:

tan 𝜃 =𝑧𝐶𝑧𝐶= −𝑧′

𝐹

Por lo tanto la coordenada z’ donde se forma el punto P’ en [metros] sobre el plano de

formación de la imagen se calcula así:

𝑧′ = −𝐹 ∗𝑧𝐶𝑦𝐶 (10)

Las expresiones (9) y (10) que rigen las coordenadas del punto P de 3 dimensiones

mapeado a 2 dimensiones, P’, se pueden escribir de forma vectorial así:

[𝑥′𝑦′] =

−𝐹

𝑦𝐶 [𝑥𝐶𝑧𝐶] (11) Muy importante

De la expresión (11) se puede verificar que el modelo Pin – Hole de la lente tiene la

peculiaridad de alterar la orientación de los puntos de la imagen: Si punto P de tres

dimensiones tiene un 0Cx , entonces la lente lo mapea en la imagen en un punto P’

con 0'x y viceversa; y si el punto P de tres dimensiones tiene un 0Cz entonces la

26

lente lo mapea en la imagen en un punto P’ con 0'z y viceversa (la lente bajo el modelo

Pin – Hole trastoca izquierda – derecha y arriba – abajo).

Este hecho será tenido en cuenta en la obtención del modelo de formación de la imagen

en la cámara en el capítulo 6, ya que las cámaras comerciales no alteran la percepción

“arriba – abajo” entre la imagen y el objeto filmado

3.2.3 Modelo de lente de Pin - Hole incluyendo los efectos de distorsión geométrica

El modelo de lente de Pin – Hole que se ha presentado hasta el momento no tiene

presente los efectos de las aberraciones introducidas por defectos de fabricación de las

lentes, o por el desalineamiento de los elementos ópticos presentes en el interior de la

cámara digital. Las aberraciones introducen desenfocamiento y / o distorsiones

geométricas sobre las imágenes capturadas.

Las aberraciones que típicamente aparecen sobre una lente se pueden clasificar en los

siguientes tipos: Aberración esférica, astigmatismo, curvatura de campo, coma y

distorsión.

La aberración esférica es un efecto óptico asociado a la no convergencia de los rayos

luminosos incidentes en el foco de la lente, provocado por refacciones anómalas de

algunos rayos cercanos al borde del dispositivo óptico, y genera la aparición de múltiples

focos a lo largo del eje óptico, tal como se ilustra en la figura 9. La aberración esférica

genera desenfocamiento de la imagen.

Figura 9. Aberración esférica provocada por la refracción anomala de los rayos en la

lente. La fuente de la imagen es de los autores.

27

La aberración comática es provocada por la no convergencia en un “punto focal” de rayos

incidentes paralelos que ingresan de forma oblicua a la lente, a su vez producida de

nuevo por deformaciones de la lente o por cambios anómalos del índice de refracción en

el dispositivo óptico, tal como se ilustra en la figura 10. Al igual que el caso anterior, la

aberración tipo coma provoca desenfoque de la imagen.

Figura 10. Aberración tipo coma. Nótese la aparición anómala de 3 puntos focales. La


La aberración tipo “Astigmatismo” es provocada por la existencia de 2 índices de

refracción distintos sobre los ejes vertical y horizonal de la lente, que trae como

consecuencia la aparición de dos focos distintos para los rayos emergentes del punto P

de tres dimensiones, tal como se ilustra en la figura 11. Nótese que no existe una posición

d en [metros] adecuada para el plano de formación de la imagen que garantice que se

forme un (1) punto P’ a partir del punto P (fenómeno del desenfoque).

28

Figura 11. Aberración tipo “Astigmatismo”. Nótese de la existencia de dos focos para los

rayos que cruzan por los ejes vertical y horizontal de la lente. La fuente de imagen es


La aberración tipo Petzval o aberración de curvatura de campo, provoca que los rayos

luminosos capturados por la lente biconvexa se enfoquen de forma perfecta, sobre un

plano de formación esférico, pero no sobre una superficie de formación de la imagen

perfectamente plana, tal como se ilustra en la figura 12.

Figura 12. Trazado de los rayos luminosos en el fenómeno de la aberración de curvatura

de campo, para tres situaciones distintas de un objeto. La fuente de la imagen es


29

Todas los tipos de aberraciones son provocadas por cambios molestos del índice de

refracción en el volumen de la lente provocados por la inhomogeneidad y anisotropía del

material del que está hecho la lente, o por la dependencia del tensor de índices de

refracción con la longitud de ondas de los rayos luminosos; sin embargo con la tecnología

existente es posible mitigar ostensiblemente todos los tipos de aberraciones provocadas

por las lentes, mediante el uso de sistemas ópticos correctores, o garantizando que los

haces de luz sean monocromáticos (Harris & Stephens, 1988). Un elemento importante a

tener en cuenta es que el modelo Pin – Hole de la lente no es capaz de reproducir

ninguno de los fenómenos de aberración enunciados, ya que las leyes matemáticas de

dicha lente garantiza que un (1) punto P de 3 dimensiones sólo produce un (1) punto P’

sobre el plano de imagen, y no múltiples puntos como en los casos de la aberración.

Aunque no existan aberraciones de algún tipo sobre la lente que provoquen molestos

desenfoques de la imagen, es factible que minúsculas deformaciones geométricas sobre

la forma del dispositivo óptico introduzcan deformaciones sobre la forma de las imágenes

capturadas. (Conrady, 1919; Brown, 1966) enuncian que las lentes reales presentan

anomalías de naturaleza constructiva que generan una serie de distorsiones geométricas

sobre la imagen 2D que aparece sobre el plano de formación de la imagen, provocando

que la posición observada del punto P’ sobre el plano de formación de la imagen, difiera

de la posición teórica esperada si la lente estuviese libre de defectos de fabricación tal

como se presenta en la figura 18.

30

Figura 18. Imagen de un punto P’ sobre un plano de formación de imagen ilustrando el

efecto de distorsión introducida por la lente: Punto 1, ubicación de P’ en lente sin

distorsión, Puntos 2 y 3 ubicación de P’ en lente con distorsión radial y tangencial. La

imagen proviene de Brown, 1966: Decentering distortion of lenses, of Photogrammetric

Engeneering.

Por ejemplo en la figura 18 se ilustra la ubicación correcta predicha por el modelo de lente

Pin – Hole del punto P’ (marcado con la etiqueta 1), y las posibles ubicaciones anómalas

del punto P’ provocadas por efectos de distorsión radial y tangencial de la lente

(ubicaciones etiquetadas como 2 y 3). La circunferencia trazada sirve para establecer el

concepto de “distorsión radial” (distorsión a lo largo del radio de la circunferencia) y

“distorsión tangencial” (distorsión en la dirección del vector tangente en un punto de la

circunferencia).

A continuación se procede a definir los modelos de lentes Pin – Hole con distorsiones.

31

Modelo de Lente Pin – Hole con Distorsión Radial

(Brown, 1966) enumera y propone modelos para las distorsiones geométricas más

relevantes que aparecen sobre la lente de una cámara digital:

Distorsión Radial.

Distorsión Tangencial.

Distorsión Prismática.

La distorsión radial de la lente provoca que todo punto P’ enfocado sobre el plano de

formación de la imagen (CCD), se ubique en alguna posición de una línea recta delimitada

por el punto (𝑥′𝐶𝐷, 𝑧′𝐶𝐷) llamado “centro de la distorsión” y por el punto P’ teórico que

debería aparecer sobre el plano si no hubiese distorsión, tal como se ilustra en la figura

19.

Figura 19: Plano de imagen ilustrando el efecto de distorsión radial sobre un punto P’: El

punto P’ se desplaza hacia una nueva ubicación P’D, ubicado en la dirección radial. La


32

De la figura 19 se definen:

𝑥′𝐶𝐷 & 𝑧′𝐶𝐷 , como las coordenadas del centro de la distorsión.

𝑥′𝐷 & 𝑧′𝐷 , como las coordenadas del punto con distorsión.

𝑥′ & 𝑧′ como las coordenadas del punto obtenido con el modelo de Pin-Hole.

[Rad] es la dirección angular del vector r’.

De la figura 19 se puede observar que:

𝑟` = √(𝑥′𝐷 − 𝑥′𝐶𝐷)2 + (𝑧′𝐷 − 𝑧′𝐶𝐷)

2 (12)

Donde r’ en [m] es la distancia que existe entre el punto de origen de la distorsión hasta el

punto PD’.

Además:

𝑟 = √(𝑥′ − 𝑥′𝐶𝐷)2 + (𝑧′ − 𝑧′𝐶𝐷)

2 (13)

r [m] es la distancia que existe entre el punto de origen de la distorsión hasta el punto P’

libre de distorsión.

De la figura 19 se nota adicionalmente que:

cos 𝜃 =𝑥′𝐷−𝑥′𝐶𝐷

𝑟` & cos 𝜃 =

𝑥′−𝑥′𝐶𝐷

𝑟 (14)

sen 𝜃 =𝑧′𝐷−𝑧′𝐶𝐷

𝑟` & sen 𝜃 =

𝑧′−𝑧′𝐶𝐷

𝑟 (15)

De las expresiones (14) y (15) se pueden establecer de forma automática las siguientes

desigualdades:

33

𝑥′𝐷−𝑥𝐶𝐷

𝑟`=

𝑥′−𝑥𝐶𝐷

𝑟 (16)

𝑧′𝐷−𝑧𝐶𝐷

𝑟`=

𝑧′−𝑧′𝐶𝐷

𝑟 (17)

Entonces:

𝑥′𝐷−𝑥′𝐶𝐷

𝑥′−𝑥′𝐶𝐷=

𝑟`

𝑟 (18)

𝑧′𝐷−𝑧′

𝑧′−𝑧′𝐶𝐷=

𝑟`

𝑟 (19)

El cociente entre los radios r y r’ se pueden expresar en términos de una función f(r’):

𝑟

𝑟`= 𝑓(𝑟`) (20)

𝑓(𝑟`) = √(𝑥′−𝑥′𝐶𝐷)2+(𝑧′−𝑧′𝐶𝐷)2

√(𝑥′𝐷−𝑥′𝐶𝐷)2+(𝑧′𝐷−𝑧′𝐶𝐷)2 (21)

La función f(r’) se puede aproximar polinómicamente así:

𝑓(𝑟′) =1

𝜌(𝑟`) (22)

Donde 𝜌(𝑟′) es un polinomio de la forma:

𝜌(𝑟`) = 1 + 𝐾1𝑟`2 + 𝐾2𝑟

`4 + 𝐾3𝑟`6 +⋯+ 𝐾𝑁𝑟

`2𝑁 (23)

Donde NKKK ,,, 21 son los coeficientes que modelan el comportamiento del

polinomio 𝜌(𝑟′). Se puede verificar de la expresión del polinomio, que este posee un grado

par, indicando que la distorsión radial no depende de la dirección angular donde se ubica

el punto P’D, si no de la distancia existente entre el centro de la distorsión y el punto en

cuestión.

34

A partir de la expresión (23) y empleando las expresiones (18) y (19) es posible obtener el

modelo de lente Pin – Hole con distorsión radial:

𝑥′ =1

𝜌(𝑟`)(𝑥′𝐷 − 𝑥′𝐶𝐷) + 𝑥′𝐶𝐷 (24)

𝑧′ =1

𝜌(𝑟`)(𝑧′𝐷 − 𝑧′𝐶𝐷) + 𝑧′𝐶𝐷 (25)

Las expresiones (24) y (25) son útiles para predecir la posición del punto P’ sobre el plano

de formación de la imagen, a partir de la medición de las coordenadas del punto P’ con

distorsión.

Si en la figura 19, se intercambian las posiciones de los puntos P’ y P’D, se obtendría que

las coordenadas del punto P’ en una lente con distorsión radial serían iguales a:

𝑥′𝐷 =1

𝜌(𝑟`)(𝑥′ − 𝑥′𝐶𝐷) + 𝑥′𝐶𝐷 (24)

𝑧′𝐷 =1

𝜌(𝑟`)(𝑧′ − 𝑧′𝐶𝐷) + 𝑧′𝐶𝐷 (25)

Donde x’ y z’ se calculan con las expresiones (9) y (10) que rigen al modelo Pin – Hole de

la lente.

Modelo de Lente Pin – Hole con Distorsión Tangencial

(Brown, 1966; Ricolfe, 2006) comenta que la distorsión tangencial aparece cuando el

juego de lentes que hacen parte de algunas cámaras digitales no tienen sus ejes ópticos

perfectamente alineados, generando como consecuencia un desplazamiento

perpendicular al radio que une al centro de la distorsión con el punto P’ predicho por el

modelo de lente Pin – Hole.

A partir de la documentación presente en (Brown, 1966; Ricolfe, 2006), se tiene que las

expresiones que rigen la distorsión tangencial en lentes Pin – Hole son iguales a:

...)'')(''(2))''(2(' 2

22

1 CDCDCDD zzxxpxxrpx (26)

...))''(2()'')(''(2' 22

21 CDCDCDD zzrpzzxxpz (27)

35

Donde:

𝑝1, 𝑝2, … , 𝑝𝑁, son los coeficientes que modelan la distorsión tangencial.

𝑟, es la distancia existente entre el centro de distorsión de la lente y el punto P’ obtenido

con el modelo Pin-Hole de la lente, regida por la expresión (13).

Por lo tanto las expresiones que rigen las coordenadas de la posición del punto P’D en una

lente con distorsión tangencial son iguales a:

DD xxx ''' (28)

DD zzz ''' (29)

Donde x’ y z’ se obtienen con las expresiones (9) y (10) que rigen a la lente bajo el

modelo Pin – Hole.

Distorsión Prismática

(Brown, 1966; Ricolfe, 2006) documenta que la distorsión prismática ocurre cuando hay

imperfecciones en el proceso de fabricación de la lente. La distorsión prismática es

provocada por el desplazamiento de los centros ópticos en algunas lentes de la cámara,

lo que ocasiona que se pierda la perpendicularidad con el eje óptico de la cámara. Para

modelar este tipo de distorsión se debe agregar un prisma a sistema óptico de la cámara.

La distorsión prismática se rige por las siguientes ecuaciones:

...' 6

3

4

2

2

1 rsrsrsx D (30)

...' 6

3

4

2

2

1 rsrsrsz D (31)

𝛿𝑉𝐷(𝑈𝑃 , 𝑉𝑃) = 𝑠1𝑟2 + 𝑠2𝑟

4 + 𝑠3𝑟6…

Donde:

𝑠1, 𝑠2, … , 𝑠𝑁, son los coeficientes que modelan la distorsión prismática.

𝑟, es la distancia entre el centro de distorsión de la lente y el punto obtenido con Pin-Hole.

36

Por lo tanto las expresiones que rigen las coordenadas de la posición del punto P’D con

una lente con distorsión prismática son iguales a:

DD xxx ''' (28)

DD zzz ''' (29)

Donde x’ y z’ se obtienen con las expresiones (9) y (10) que rigen a la lente bajo el

modelo Pin – Hole.

En general todas las distorsiones producidas por la lente se pueden escribir de la forma:

)','(''' zxxxx DD

)','(''' zxzzz DD

3.2.4 Modelo de Lente Gruesa

Un modelo matemático más representativo del comportamiento de los rayos que pasan

por una lente biconvexa es el de lente gruesa. Este modelo tiene presente los radios de

curvatura de las secciones de lente que componen a lente biconvexa, al igual que el

índice de refracción relativo del material de la lente.

En la figura 20 se ilustra el modelo geométrico de la lente gruesa.

Figura 20. Modelo geométrico de la lente gruesa.

37

De la figura 20 se puede observar que la lente gruesa está constituida por tres elementos

ópticos: 2 lentes de radios de curvatura r1 y r2, y un prisma que separa ambas lentes de

espesor S. todo el dispositivo óptico tiene un índice de refracción n, y los medios que

rodean ambas lentes tienen índices n1 y n2’.

La ecuación del constructor de lentes de una lente gruesa, suponiendo que los medios

que rodean a la lente es aire (n1=n2’=1) está dada por:

'

1

21

)1()

2

1

1

1)(1(

2

efrnr

nS

rrn

(32) (Cornejo, 2005):

(Aguilar, 2013) ilustra que el diagrama de una lente gruesa se puede redibujar como se

muestra en la figura 21

Figura 21. Diagrama de propagación de rayos en un modelo de lente biconvexa gruesa.

La fuente de la imagen es propiedad de Guillermo Aguilar de la Universidad Nacional

Federico Villareal, y proviene del sitio web

http://es.scribd.com/doc/225205215/Lentes#scribd.

Y las expresiones que rigen la lente gruesa bajo las suposiciones de igualdad de índices

de refracción del medio que rodea a la lente, son las siguientes:

http://es.scribd.com/doc/225205215/Lentes#scribd

38

fSS i

111

0

(33)

fxx i 0 (34)

Donde:

0x es la distancia en metros antes del foco primario f, donde se ubica el punto que emite

los rayos luminosos (punto O en la figura 21).

ix es la distancia en metros después del foco secundario f’, donde se ubica la imagen

enfocada del punto ubicado en O.

f es el valor del foco principal, que se encuentra ubicado en el lado donde se encuentra

el objeto que emite los rayos de luz hacia la lente.

'f es el valor del foco secundario, que se encuentra ubicado en el lado donde llegan los

rayos de luz emitidos por el objeto puesto en la posición O.

Las expresiones (33) y (34) sirven para estimar la distancia a la cual se formará la imagen

P’ proveniente de los rayos de luz emitidos por el punto tridimensional P.

Aunque el modelo de lente gruesa representa de forma muy precisa la propagación de los

rayos luminosos por una lente biconvexa y reproduce la mayoría de aberraciones que

pueden aparecer sobre una lente, el fenómeno del desenfoque predicho por este modelo

ocasiona que un (1) punto P observado por la lente genere múltiples puntos

''

3

'

2

'

1 ,,,, KPPPP sobre la superficie del CCD, que va en contra del paradigma de la visión

estereoscópica que requiere que todo punto P de tres dimensiones solo posea un punto

P’ de dos dimensiones capturado por una cámara.

39

4. MODELOS DE FORMACIÓN DE IMÁGENES EN CÁMARAS

En el capítulo anterior se establecieron las expresiones que sirven para calcular las

coordenadas donde se forma el punto P’ sobre el plano de formación de la imagen, que

en una cámara digital es justo el CCD, cuando la lente es regida por el modelo Pin – Hole.

Ahora se procederá a estudiar las leyes geométricas que rigen la formación de la imagen

del punto P’ sobre el CCD, teniendo presente desde los efectos de traslación y rotación a

los que puede estar sometida la cámara digital respecto a un sistema de referencia

tridimensional donde se miden las coordenadas del punto P en tres dimensiones a

capturar con la cámara, hasta los efectos de la densidad de pixeles del CCD en las

coordenadas en dos dimensiones medidas sobre la imagen.

4.1 Modelo de formación de imagen en una Cámara

Una cámara digital se puede representar como un sistema de “cámara oscura”, que aloja

en la cara lateral derecha la lente biconvexa, y en la cara lateral izquierda está presente

el CCD. La representación mencionada se ilustra en la figura 22:

Figura 22. Modelo aproximado de una cámara de video. Donde O’ es el centro del CCD y

O es el centro de la lente. La fuente de la imagen es propiedad de los autores.

El sistema cartesiano '' zx sirve para ubicar las coordenadas de la imagen del punto P,

P’, formada sobre el CCD de la cámara. Nótese de la figura 22 que el centro del sistema

40

de referencia del CCD, O’, coincide con el centro geométrico del CCD, y que la

orientación del sistema de referencia '' zx se ha elegido del tipo “derecho” de forma

arbitraria.

De igual forma el sistema cartesiano tridimensional CCC zyx sirve para ubicar las

coordenadas en tres dimensiones del punto P cuya luz se desea capturar con la cámara.

Nótese de la figura 22 que justo en el centro del sistema de referencia CCC zyx , O,

está ubicada la lente de la cámara; coincide con el centro geométrico del CCD, y que la

orientación del sistema de referencia se ha elegido del tipo “derecho” de forma arbitraria.

Del capítulo 3 (Modelos de lentes), tenemos que las coordenadas del punto P’ formado

sobre el CCD se pueden calcular usando la expresión (11):

C

C

Cz

x

y

F

z

x

'

' (11)

La expresión (11) se puede reescribir así:

CCC

C

zyxy

Fx 00'

(35)

C

C

CC zy

Fyxz

00' (36)

Agregando una tercera ecuación en forma de identidad (1=1) de forma “a priori”:

CC

C

C zyy

x 01

01 (37)

Organizando matricialmente las expresiones (34), (35) y (36), se obtiene la siguiente e

importante expresión que rige a la cámara:

41

100

10

000

000

1

'

'

C

C

C

C

C

C

z

y

x

y

y

F

y

F

z

x

(37)

La expresión (37) sirve para calcular las coordenadas del punto P’ formado sobre el CCD

en función de las coordenadas del punto P cuya luz ha sido capturada con la cámara.

El vector que contiene a las coordenadas del punto P’ de dos dimensiones formado sobre

el CCD, '1'' zx , recibe el nombre de vector de “coordenadas homogéneas” en [m] del

punto P’.

De igual forma el vector que contiene a las coordenadas del punto P de tres dimensiones

cuya imagen ha sido capturada por la cámara, 1CCC zyx , recibe el nombre de

vector de “Coordenadas Homogéneas” del punto P, y se miden en [metros].

Algunos autores como (Tsai, 1987), afirman que normalmente en los diversos estándares

industriales que existen para representar una imagen en formato digital, los valores de las

posiciones de los puntos que la conforman pertenecen a los reales positivos, lo cual

implica la necesidad de transformar el sistema de referencia del plano de formación de la

imagen, '' zx , a un nuevo sistema de referencia cartesiano vu medido en [metros],

presentado en la figura 23.

42

Figura 23. CCD ilustrando los sistemas de referencia cartesianos '' zx y vu . La fuente

de la imagen es propiedad de los autores.

Las coordenadas del punto 𝑃′ medidas respecto al sistema de referencia vu del plano

de la imagen, se pueden calcular usando la siguiente expresión:

'rrv

u

(38)

Donde r es el vector posición del punto 𝑃′ medido en el sistema de referencia '' zx y 𝑟′

es el vector posición que señala el origen O medido desde el sistema de referencia vu .

Por lo tanto:

C

C

C

C

vz

ux

v

u

z

x

v

u

'

'

'

' (39)

Donde (𝑢𝑐 , 𝑣𝑐) son las coordenadas del origen del sistema de referencia (𝑢, 𝑣) medidas

respecto al sistema de referencia '' zx , que a su vez definen las coordenadas del centro

del CCD, O, medidas desde el sistema de referencia vu .

43

La expresión (39) es válida si los ejes 𝑥′ − 𝑢 y 𝑧′ − 𝑣 están en la misma dirección. Si los

ejes están en sentido contrarios tal como se ilustra en la figura 23, es necesario corregir la

expresión (39) multiplicando por -1 el lado derecho:

C

C

vz

ux

v

u

'

' (40)

Recordemos del capítulo 3 que el modelo de la lente Pin – Hole provoca un cambio en la

orientación “arriba – abajo” de la imagen respecto al objeto filmado, evento que no ocurre

en una cámara real. Para corregir este efecto es necesario reemplazar en la expresión

(39) la expresión que rige a v por Cvzv ' :

C

C

vz

ux

v

u

'

' (41)

Reescribiendo la expresión (40) usando coordenadas homogéneas (agregando la

identidad 1=1 como ecuación extra):

1

'

'

1C

C

vz

ux

vu

ó

1

''

100

10

01

1

zx

v

u

vu

C

C

(42)

Es importante recordar que las coordenadas del punto P’ capturado por el CCD son

convertidas a coordenadas en píxeles por las fotocélulas, así que las coordenadas del

punto P’ en [metros], ),(' vuP , convertidas a [píxeles], ),(' PP vuP , son iguales a:

][PíxelesuuP (43)

][PíxelesvvP (44)

44

Donde , son las densidades de píxeles por metro a lo ancho y alto del CCD

definidas en el capítulo 3.

Las expresiones (43) y (44) se pueden reescribir matricialmente empleando coordenadas

homogéneas (agregando la identidad 1 = 1):

1100

00

00

1

vu

v

u

P

P

(45)

Por lo tanto a partir de las expresiones (37), (42) y (45), las coordenadas (𝑢𝑝, 𝑣𝑝) del

punto 𝑃′ presente en la imagen conocidas las coordenadas del punto P tridimensional,

),,( CCC zyx , se pueden calcular usando la siguiente expresión:

100

10

000

000

100

10

01

100

00

00

1 C

C

C

C

C

C

C

C

P

P

z

y

x

y

y

F

y

F

v

u

v

u

(46)

Modelo Matemático de la Cámara Usando el Modelo Pin – Hole de la Lente

Dónde:

|𝛼 0 00 𝛽 00 0 1

|Es la matriz que contiene los factores de escala del CCD.

|−1 0 𝑢𝐶0 1 𝑣𝐶0 0 1

|Es la matriz que contiene las coordenadas del centro de la imagen en metros.

45

||

−𝐹

𝑦𝐶0 0 0

0 0−𝐹

𝑦𝐶 0

01

𝑦𝐶0 0

|| Es la matriz que contiene los parámetros ópticos de la lente bajo el

modelo Pin – Hole. La expresión (46) es importantísima ya que permite calcular las coordenadas del punto P’

sobre la imagen en [Píxeles], a partir del conocimiento de las coordenadas 3 – D del punto

P en [metros]

4.2 Transformación de Sistemas de Referencia

Si el punto P no se mide respecto al sistema de referencia CCC zyx de la cámara si

no que se mide respecto a un sistema de referencia absoluto llamado “Coordenadas del

Mundo” o “World Coordinates”, WWW zyx , es necesario transformar las coordenadas

del punto P medidas respecto al sistema de referencia de la cámara, P(𝑋𝐶 , 𝑌𝐶 , 𝑍𝐶) al

sistema de referencia absoluto P(𝑋𝑊, 𝑌𝑊, 𝑍𝑊).

La introducción de estas nuevas coordenadas para referenciar la ubicación del punto P de

tres dimensiones cuya imagen se capturará con la cámara, permitirá introducir dos

funciones extras al modelo obtenido de la cámara en la sección anterior: Rotación y

Traslación de la cámara en ángulos y direcciones arbitrarias, tal como se puede hacer con

una cámara real. Estas funciones permiten además referenciar la ubicación y orientación

de dos (2) o más cámaras en un sistema de metrología 3 – D o de reconstrucción

tridimensional empleando visión estereoscópica con 2 o más cámaras.

En la figura 24 se ilustran los sistemas de referencia absoluto WWW zyx respecto al

sistema de coordenadas de la cámara CCC zyx .

46

Figura 24. Medición del punto P desde los Sistemas de Referencia absoluto WWW zyx

y respecto al sistema de referencia de la cámara CCC zyx . La fuente de la imagen es

de propiedad de los autores.

Nótese que el sistema de referencia del mundo (sistema absoluto) se ha elegido

arbitrariamente con sentido de orientación tipo “izquierdo” mientras que el sistema de

referencia de la cámara tiene un sentido de orientación “derecho” elegido arbitrariamente.

La transformación del sistema de referencia cartesiano del mundo al sistema cartesiano

de referencia de la cámara, se ejecuta en dos trasformaciones esenciales:

1. Transformación de traslación.

2. Transformación de rotación.

4.2.1 Transformación de Traslación

La transformación de traslación se aplica cuando se desea convertir las coordenadas del

punto P (𝑋𝑊, 𝑌𝑊, 𝑍𝑊) al sistema de referencia CCC zyx , cuyo origen es diferente al

origen del sistema de referencia del mundo, pero todos los ejes de los dos sistemas de

referencia son paralelos.

47

En la figura 25 se ilustran dos sistemas cartesianos de referencia WWW zyx y

TTT zyx , donde el último sistema está trasladado respecto al sistema absoluto, y

eventualmente puede ser el sistema de referencia de la cámara (no necesariamente esto

es cierto si además existe rotación de la misma).

Figura 25. Sistemas cartesianos de referencia, 𝑋𝑊 − 𝑌𝑊 − 𝑍𝑊 y 𝑋𝑇 − 𝑌𝑇 − 𝑍𝑇. La fuente

de la imagen es propiedad de los autores.

De la figura 25 se puede verificar la siguiente propiedad vectorial elemental:

|𝑋𝑇𝑌𝑇𝑍𝑇

| = |

𝑋𝑊𝑌𝑊𝑍𝑊

| − |𝑎𝑏𝑐| (47)

Donde cba es el vector posición del origen de sistema de referencia TTT zyx

medido desde el sistema de referencia del mundo.

Si uno o varios ejes del nuevo sistema de referencia cartesiano de referencia están en

sentido contrario a uno o varios ejes de referencia del mundo, entonces se debe

multiplicar por (-1) la respectiva componente del vector (𝑋𝑇 , 𝑌𝑇 , 𝑍𝑇).

48

En particular se puede observar de la figura 25 que el eje Ty del sistema de referencia

trasladado tiene una dirección contraria al eje Wy del sistema de referencia del mundo,

entonces la ley de trasformación se puede reescribir así:

|𝑋𝑇𝑌𝑇𝑍𝑇

| = |

𝑋𝑊 − 𝑎−𝑌𝑊 + 𝑏)𝑍𝑊 − 𝑐

| (48)

La expresión (47) se puede reescribir matricialmente usando coordenadas homogéneas:

|

𝑋𝑇𝑌𝑇𝑍𝑇1

| = |

1000

0−1 0 0

0 0 1 0

−𝑎 𝑏−𝑐 1

| |

𝑋𝑊𝑌𝑊𝑍𝑊1

| (49)

Esta última expresión sirve para calcular las coordenadas del punto P(𝑋𝑇 , 𝑌𝑇 , 𝑍𝑇)

conocidas las coordenadas del mismo punto respecto al sistema de referencia del mundo

𝑃(𝑋𝑊, 𝑌𝑊, 𝑍𝑊 ).

4.2.2 Transformación de Rotación

Se aplica cuando los sistemas de referencia del mundo, WWW zyx , y de la cámara,

RRR zyx , comparten el mismo origen cartesiano, pero existen desviaciones angulares

entre los ejes tal como se ilustra en la figura 26; donde el último sistema está rotado

respecto al sistema absoluto del mundo, y eventualmente puede ser el sistema de

referencia de la cámara (no necesariamente esto es cierto si existe traslación de la

misma).

49

Figura 26. Posibles rotaciones del sistema RRR zyx , respecto al sistema WWW zyx

A) respecto al eje Z, B) respecto al eje X, y C) Respecto al eje Y. La fuente de la imagen

es de los autores.

En la figura 27 se ilustra el sistema de referencia WWW zyx y el sistema rotado

RRR zyx cuando existe una rotación en el eje z, 𝜃𝑍, medida a partir del eje Wx .

Figura 27: Sistemas de referencia WWW zyx y sistema de referencia RRR zyx

rotado alrededor del eje Z en 𝜃𝑍 [Radianes]. El eje 𝑍𝑊 sale del plano de dibujo. La imagen

es propiedad de los autores.

50

De la figura 27 se puede verificar que:

𝑥𝑅 = |𝑅| cos(𝛼 − 𝜃𝑍) (50)

𝑦𝑅 = |𝑅| sen(𝛼 − 𝜃𝑍) (51)

𝑧𝑅 = 𝑧𝑅 (52)

Dónde:

22

WW yxR (53)

Reemplazando la expresión (53) en las expresiones (50) y (51) y ejecutando las

operaciones trigonométricas, se obtiene que:

𝑋𝑅 = (√𝑥𝑊2 + 𝑦𝑊

2 cos 𝛼) cos𝜃𝑍 + (√𝑥𝑊2 + 𝑦𝑊

2𝑠𝑒𝑛 𝛼) 𝑠𝑒𝑛 𝜃𝑍 (54)

𝑌𝑅 = (√𝑥𝑊2 + 𝑦𝑊

2 sen𝛼) cos𝜃𝑍 − (√𝑥𝑊2 + 𝑦𝑊

2𝑐𝑜𝑠 𝛼) 𝑠𝑒𝑛 𝜃𝑍 (55)

Es elemental verificar de la figura 27 que:

√𝑥𝑊2 + 𝑦𝑊

2 cos𝛼 = 𝑥𝑊 (56)

√𝑥𝑊2 + 𝑦𝑊

2 sen𝛼 = 𝑦𝑊 (57)

Reemplazando las expresiones (56) y (57) en las expresiones (54) y (55), se obtienen los

siguientes resultados:

𝑥𝑅 = 𝑥𝑊 cos 𝜃𝑍 + 𝑦𝑊 𝑠𝑒𝑛 𝜃𝑍 (58)

𝑌𝑅 = 𝑦𝑊 cos 𝜃𝑍 −𝑥𝑊 𝑠𝑒𝑛 𝜃𝑍 (59)

51

Las expresiones (58) y (59) sirven para calcular las coordenadas P(𝑥𝑅 , 𝑦𝑅 , 𝑧𝑅) de un punto

P medido respecto a un sistema de referencia RRR zyx rotado 𝜃𝑍 [𝑅𝑎𝑑𝑖𝑎𝑛𝑒𝑠]

respecto al sistema de referencia del mundo WWW zyx .

Las expresiones (53), (58) y (59) se pueden reescribir matricialmente así:

|

𝑥𝑅𝑦𝑅𝑧𝑅| = |

𝑐𝑜𝑠 𝜃𝑍 𝑠𝑒𝑛 𝜃𝑍 0−𝑠𝑒𝑛 𝜃𝑍 𝑐𝑜𝑠 𝜃𝑍 0

0 0 1| |

𝑥𝑊𝑦𝑊𝑧𝑊| (60)

O de forma compacta

WZZR XRX )()( (61)

Donde:

100

0cossen

0sencos

)( ZZ

ZZ

ZR es la matriz de rotación respecto al eje z.

)( RRRZR zyxX Es el vector posición del punto P medido respecto al sistema de

referencia rotado respecto al eje z.

WWWW zyxX Es el vector posición del punto P medido respecto al sistema de

referencia absoluto del mundo.

A continuación se examinará la trasformación de rotación del sistema de referencia

WWW zyx a un sistema de referencia RRR zyx , si se aplica una rotación 𝜃𝑋[𝑅𝑎𝑑]

al eje 𝑋𝑊.

52

En la figura 28 se ilustra el plano cartesiano del sistema de referencia (𝑋𝑊, 𝑌𝑊, 𝑍𝑊), y el

plano cartesiano del sistema rotado (𝑋𝑅 , 𝑌𝑅 , 𝑍𝑅), cuando se rota el eje X en una cantidad

𝜃𝑋[𝑅𝑎𝑑].

Figura 28. Sistemas de referencia WWW zyx y sistema de referencia RRR zyx

rotado alrededor del eje x en 𝜃𝑋 [Radianes]. El eje 𝑋𝑊 sale del plano de dibujo.

De nuevo:

𝑦𝑅 = |𝑅| cos(𝛽 − 𝜃𝑋) (62)

𝑧𝑅 = |𝑅| sen(𝛽 − 𝜃𝑋) (63)

𝑥𝑅 = 𝑥𝑅 (64)

Donde:

22

WW yzR (65)

Reemplazando la expresión (65) en las expresiones (62) y (63), se llegan a los siguientes

resultados:

𝑦𝑅 = √𝑧𝑊2 + 𝑦𝑊

2 (cos 𝛽 cos 𝜃𝑋 + 𝑠𝑒𝑛 𝛽 𝑠𝑒𝑛 𝜃𝑋) (66)

𝑧𝑅 = √𝑧𝑊2 + 𝑦𝑊

2 (sen𝛽 cos 𝜃𝑋 − cos𝛽 𝑠𝑒𝑛 𝜃𝑋) (67)

53

Es elemental verificar de la figura 28 que:

√𝑧𝑊2 + 𝑦𝑊

2 cos 𝛽 = 𝑦𝑊 (68)

√𝑧𝑊2 + 𝑦𝑊

2 sen𝛽 = 𝑧𝑊 (69)

Reemplazando las expresiones (68) y (69) en las expresiones (66) y (67), se obtiene que:

𝑦𝑅 = 𝑦𝑊 cos𝜃𝑋 + 𝑧𝑊 𝑠𝑒𝑛 𝜃𝑋 (70)

𝑧𝑅 = 𝑧𝑊 cos 𝜃𝑋 −𝑦𝑊 𝑠𝑒𝑛 𝜃𝑋 (71)


P medido respecto a un sistema de referencia RRR zyx rotado 𝜃𝑋 [𝑅𝑎𝑑𝑖𝑎𝑛𝑒𝑠]



|


1 0 00 𝑐𝑜𝑠 𝜃𝑋 𝑠𝑒𝑛 𝜃𝑋0 −𝑠𝑒𝑛 𝜃𝑋 𝑐𝑜𝑠 𝜃𝑋

| |


O de forma compacta

WXXR XRX )()( (73)

Dónde:

XX

XX

cossen0

sencos0

001

)(

XR Es la matriz de rotación respecto al eje x.

54

)( RRRXR zyxX Es el vector posición del punto P medido respecto al sistema de

referencia rotado respecto al eje x.



Por último, la trasformación de rotación del sistema de referencia WWW zyx a un

sistema de referencia RRR zyx , si se aplica una rotación 𝜃𝑌[𝑅𝑎𝑑] alrededor del eje

𝑌𝑊.

En la figura 29 se ilustra el plano cartesiano del sistema de referencia WWW zyx , y el

plano cartesiano del sistema rotado RRR zyx , cuando se rota el eje y en una cantidad

𝜃𝑌[𝑅𝑎𝑑].

Figura 29. Sistemas de referencia WWW zyx y sistema de referencia RRR zyx

rotado alrededor del eje y en 𝜃𝑌 [Radianes]. El eje 𝑌𝑊 sale del plano de dibujo.

Nuevamente, se puede verificar de la figura 29 las siguientes relaciones:

𝑍𝑅 = |𝑅| cos(𝛾 − 𝜃𝑌) (74)

55

𝑋𝑅 = |𝑅| sen(𝛾 − 𝜃𝑌) (75)

𝑦𝑅 = 𝑦𝑅 (76)

Y:

22

WW xzR (77)

√𝑧𝑊2 + 𝑥𝑊

2 cos 𝛾 = 𝑧𝑊 (78)

√𝑧𝑊2 + 𝑥𝑊

2 sen 𝛾 = 𝑥𝑊 (79)

Reemplazando las expresiones (77), (78) y (79) en las expresiones (74) y (75) se llega a

los siguientes resultados:

𝑧𝑅 = 𝑧𝑊 cos 𝜃𝑌 + 𝑥𝑊 𝑠𝑒𝑛 𝜃𝑌 (80)

𝑥𝑅 = 𝑥𝑊 cos 𝜃𝑌 −𝑧𝑊 𝑠𝑒𝑛 𝜃𝑌 (81)


P medido respecto a un sistema de referencia RRR zyx rotado 𝜃𝑌 [𝑅𝑎𝑑𝑖𝑎𝑛𝑒𝑠]



|


𝑐𝑜𝑠 𝜃𝑌 0 −𝑠𝑒𝑛 𝜃𝑌0 1 0

𝑠𝑒𝑛 𝜃𝑌 0 𝑐𝑜𝑠 𝜃𝑌

| |


O de forma compacta

WYYR XRX )()( (83)

Dónde:

56

YY

YY

cos0sen

010

sen-0cos

)(

YR Es la matriz de rotación respecto al eje y.

)( RRRYR zyxX Es el vector posición del punto P medido respecto al sistema de

referencia rotado respecto al eje y.



Nótese que las tres matrices de rotación obtenidas son ortonormales.

Si se aplican simultáneamente desplazamientos angulares en los tres ejes del sistema de

referencia WWW zyx , entonces las coordenadas del sistema rotado resultante se

calcula así:

|

𝑋𝑅𝑌𝑅𝑍𝑅

| = 𝑅(𝜃𝑋, 𝜃𝑌, 𝜃𝑍) |

𝑋𝑊𝑌𝑊𝑍𝑊

| (84) Expresión importantísima

Donde la matriz de orden 3X3, 𝑅(𝜃𝑋, 𝜃𝑌, 𝜃𝑍) se calcula así:

𝑅(𝜃𝑋, 𝜃𝑌, 𝜃𝑍) = 𝑅(𝜃𝑋) 𝑅(𝜃𝑌) 𝑅(𝜃𝑍) (85)

𝑅(𝜃𝑋, 𝜃𝑌, 𝜃𝑍) Recibe el nombre de matriz de rotación y es ortonormal.

La expresión (43) se puede reescribir usando coordenadas homogéneas así:

11

0

0

0

00

,,

01

33

W

W

W

ZYX

R

R

R

z

y

x

R

z

y

x

(86)

57

4.3 Modelo Lineal de Formación de la Imagen de la Cámara Incluyendo

Traslación y Rotación

De las expresiones (46), (49) y (86) es posible obtener una única expresión para calcular

las coordenada en [Píxeles] de un punto P’ proveniente de la filmación de un punto P

medido respecto al sistema de referencia absoluto WWW zyx :

11000

100

010

001

1

0

0

0

00

,,

000

10

000

000

100

10

01

100

00

00

1

33

W

W

W

ZYX

C

C

C

C

C

P

P

z

y

x

c

b

a

R

y

y

F

y

F

v

u

v

u

(87)

Si se multiplica ambos lados de la expresión (87) por Cy , entonces la expresión (86) se

puede reescribir de la siguiente forma:

11000

100

010

001

1

0

0

0

00

,,

00010

000

000

100

10

01

100

00

0033

W

W

W

ZYX

C

C

C

CP

CP

z

y

x

c

b

a

RF

F

v

u

y

yv

yu

Si definimos la coordenada Cy con un nuevo nombre: CP yt , donde Pt recibe el nombre

de “Coordenada Homogénea de la Cámara”, entonces la anterior expresión se puede

reescribir así:

11000

100

010

001

1

0

0

0

00

,,

00010

000

000

100

10

01

100

00

0033

W

W

W

ZYX

C

C

P

PP

PP

z

y

x

c

b

a

RF

F

v

u

t

tv

tu

(88) Modelo Lineal de Una Cámara

58

Donde el vector PPPPP ttvtu recibe el nombre de Vector de Coordenadas ‘up, vp’

homogéneas.

PPtu Recibe el nombre de Coordenada ‘up’ homogénea, y PPtv recibe el nombre de

Coordenada ‘vp’ homogénea.

Se puede verificar la siguiente propiedad: La primera y la segunda componente del

vector de coordenadas homogéneas ‘up, vp’ al ser divididas por la tercera

componente homogénea ( Pt ), dan como resultado las coordenadas en píxeles del

punto 𝑷′(𝒖𝒑, 𝒗𝒑).

El producto de las tres primeras matrices de la expresión (88) se puede reescribir así:

1333 0,

0010

000

000

100

10

01

100

00

00

KF

F

v

u

C

C

(89)

Donde la matriz K de orden 3X3 es igual a:

010

0

0

010

00

00

100

10

01

100

00

00

Fv

uF

F

F

v

u

K C

C

C

C

(90)

Se puede observar que la matriz K contiene todos los parámetros intrínsecos de la

cámara: Parámetros constructivos de la cámara tanto de la lente como del CCD, que

no dependen de las transformaciones de traslación y rotación.

Por lo tanto la expresión (87) se puede escribir en términos de K así:

59

11000

100

010

001

1

0

0

0

00

,,

0

0, 33

1333

W

W

W

ZYX

P

PP

PP

z

y

x

c

b

a

RK

t

tv

tu

(91)

Ó

1

10

'

10

0,,0,

31

1333

31

1333

1333

W

W

W

ZYX

P

PP

PP

z

y

x

TIRK

t

tv

tu

(92)

Donde

100

010

001

`I

&

c

b

a

T 13 (Vector que contiene las coordenadas de traslación de la cámara respecto al

sistema de referencia del mundo).

Los parámetros de la matriz de rotación 𝑅(𝜃𝑋, 𝜃𝑌, 𝜃𝑍) (los elementos de dicha matriz), y los

parámetros que componen al vector de traslación reciben el nombre de parámetros

extrínsecos de la cámara y obviamente dependen de los ángulos de giro que posea

la cámara respecto al sistema de referencia absoluto y de la traslación de la cámara

respecto a dicho sistema del mundo.

60

Al multiplicar las matrices se llega al siguiente resultado:

11

0

0

0

1

0

0

0

1

,,3333

W

W

W

ZYX

P

PP

PP

z

y

x

c

b

a

RK

t

tv

tu

(92)

Otro Modelo Lineal Equivalente de una Cámara

(Importante)

Este modelo lineal equivalente de la formación de la imagen en una cámara es usado por

(Zhang, 2000) para definir la metodología diseñada por él para “calibrar” cámaras

(proceso experimental de estimación de los parámetros intrínsecos y extrínsecos de una

cámara bajo un modelo lineal o no lineal).

4.4 Modelo No Lineal de la Cámara: Introducción de las distorsiones

geométricas

Como se presentó en el capítulo anterior, al modelo de la lente Pin - Hole se puede

modificar para representar todos los tipos de distorsiones que pueden aparecer sobre

dicho dispositivo óptico: La distorsión radial, la distorsión tangencial y la distorsión

prismática.

A continuación se procede a enseñar las modificaciones del modelo lineal de la cámara

para introducir los efectos de las distorsiones generadas por la lente.

61

Modelo de la Cámara con Distorsión

Del modelo lineal de la cámara, se puede verificar que:

1

'

'

100

10

01

100

00

00

1

z

x

v

u

v

u

C

C

P

P

(93)

Del capítulo 4 las distorsiones introducidas por la lente se pueden modelar así:

)','(''' zxxxx DD (94)

)','(''' zxzzz DD (95)

Donde )','(' zxxD y )','(' zxzD representan las distorsiones introducidas por la lente

(idealmente dichos deltas deberían valer 0), y )','( DD zx son las coordenadas del punto P’

con distorsión.

Si la lente introduce distorsión entonces la ecuación (93) que sirve para predecir la

posición de los píxeles se podría reescribir así:

1

'

'

100

10

01

100

00

00

1D

D

C

C

PD

PD

z

x

v

u

v

u

(96)

Donde PDu y

PDv son las coordenadas en píxeles del punto P’ cuyas coordenadas están

distorsionadas (en ubicaciones incorrectas) por efecto de anomalías constructivas

existentes en la lente.

Reemplazando las expresiones (94) y (95) en la expresión (96) se llega al siguiente

resultado:

62

1

)','(''

)','(''

100

10

01

100

00

00

1

zxzz

zxxx

v

u

v

u

D

D

C

C

PD

PD

Ejecutando las operaciones matriciales:

0

)','('

)','('

100

10

01

100

00

00

1

'

'

100

10

01

100

00

00

1

zxz

zxx

v

u

z

x

v

u

v

u

D

D

C

C

C

C

PD

PD

(97)

Reemplazando las expresiones (37), (86) y (49) en la expresión (97):

0

)','('

)','('

100

10

01

100

00

00

1

10

'

10

0,,

0010

000

000

100

10

01

100

00

00

31

1333

31

1333

PD

PD

C

C

W

W

W

ZYX

C

C

P

PPD

PPD

tzxz

tzxx

v

u

z

y

x

TIRF

F

v

u

t

tv

tu

(98)

La expresión (98) se conoce como el Modelo de la Cámara No Lineal, que tiene presente

todos los tipos de distorsiones representadas en las expresiones que rigen a )','(' zxxD y

)','(' zxzD .

La expresión (98) se puede representar de la siguiente forma usando el resultado

ilustrado en la expresión (88):

63

0

)','('

)','('

100

10

01

100

00

00

PD

PD

C

C

P

PP

PP

P

PPD

PPD

tzxz

tzxx

v

u

t

tv

tu

t

tv

tu

(99)

Si se define

0

)','('

)','('

100

10

01

100

00

00

PD

PD

C

C

P

PDP

PDP

tzxz

tzxx

v

u

t

tv

tu

(100)

Donde DPu y

DPv son las distorsiones en píxeles introducidas por la lente.

Entonces la expresión que rige el vector de coordenadas homogéneas de los píxeles

distorsionados por causa de la lente, será igual a:

P

PPD

PPD

P

PP

PP

P

PPD

PPD

t

tv

tu

t

tv

tu

t

tv

tu

(101)

De donde se concluye que:

PDP

PDP

PD

PD

vv

uu

v

u (102)

La expresión (102) afirma que las coordenadas del punto P’ distorsionado por causa de la

lente se puede calcular como las coordenadas del punto P’ en píxeles sin distorsionar,

más unos deltas en píxeles que representan las distorsiones introducidas por las lentes.

64

(Ricolfe, 2006) documenta las expresiones más usuales empleadas en la literatura de

modelos de cámaras para modelar las distorsiones presentes en una lente en unidades

de píxeles:

Distorsión Tangencial:

...))((2))(2( 2

22

1 PCDPPCDPPCDPPD vvuupuurpu (103)

...))(2())((2 22

21 PCDPPCDPPCDPPD vvrpvvuupv (104)

Donde:

𝑝1, 𝑝2, … , 𝑝𝑁, son los coeficientes que modelan la distorsión tangencial.

),( PCDPCD vu son las coordenadas en píxeles del centro de la distorsión.

𝑟, es la distancia entre el centro de distorsión de la lente y el punto obtenido con Pin-Hole:

22 )()( PCDPPCDP vvuur (105)

Distorsión Prismática:

...6

3

4

2

2

1 rsrsrsuPD (106)

...6

3

4

2

2

1 rsrsrsvPD (107)

Donde:

𝑠1, 𝑠2, … , 𝑠𝑁, son los coeficientes que modelan la distorsión prismática.

𝑟, es la distancia entre el centro de distorsión de la lente y el punto obtenido con Pin-Hole

dada por la expresión (105).

Distorsión Radial:

6

3

4

2

2

1)( rkrkrkuuu PCDPPD (108)

6

3

4

2

2

1)( rkrkrkvvv PCDPPD (109)

65

𝑟, es la distancia entre el centro de distorsión de la lente y el punto obtenido con Pin-Hole

dada por la expresión (105).

La distorsión total introducida por la lente es la suma de la distorsión tangencial más la

radial más la prismática:

......))((2

))(2()(

6

3

4

2

2

12

22

1

6

3

4

2

2

1

rsrsrsvvuup

uurprkrkrkuuu

PCDPPCDP

PCDPPCDPPD (110)

&

......))(2(

))((2)(

6

3

4

2

2

1

22

2

1

6

3

4

2

2

1

rsrsrsvvrp

vvuuprkrkrkvvv

PCDP

PCDPPCDPPCDPPD (111)

(Tsai, 1987), enuncia que en aplicaciones de visión estereoscópica sólo en necesario

considerar la distorsión radial, ya que un modelo de la cámara más elaborado donde se

incluyan los otros tipos de distorsiones, los métodos numéricos empleados para estimar

los parámetros del modelo podrían aparecer molestos fenómenos de inestabilidad

numérica; además (Tsai,1987) muestra que en la mayoría de cámaras de buena calidad

las distorsiones prismática y tangencial suelen ser despreciables frente a la distorsión

radial, por tal motivo se tomó la decisión en el presente documento de sólo modelar el

efecto de la distorsión radial en la cámara.

66

5. TÉCNICAS DE CALIBRACIÓN DE LA CÁMARA

El proceso de calibración de una cámara consiste en la estimación de los parámetros

intrínsecos (factores de escalamiento, las coordenadas del centro del plano de imagen y

la distancia focal) y extrínsecos (rotación y traslación) de esta; al conocer estos

parámetros se puede obtener las distancias precisas en el mundo real a partir de

imágenes capturadas del mismo.

Existen diferentes técnicas para realizar el proceso de estimación de parámetros del

modelo de la cámara, clasificadas estas según el tipo de parámetros a determinar

(extrínsecos o intrínsecos), el tipo de plantilla empleada (plantillas unidimensionales,

bidimensionales, tridimensionales), según el modelo a estimar (lineal o no lineal) entre

otras posibles clasificaciones.

En el presente capítulo se abordaran las técnicas más usualmente empleadas a la fecha

para calibrar cámaras, con la finalidad de emplear los resultados obtenidos en el diseño

de un sistema metrológico de obtención de las coordenadas en tres dimensiones de un

punto del espacio empleando Visión Estereoscópica.

En la figura 30 se puede observar en un diagrama, una posible clasificación de algunas de

las técnicas empleadas para calibrar una cámara.

67

Figura 30. Diagrama ilustrativo de algunas técnicas o métodos empleados para calibrar

cámaras. La fuente de la imagen es de los autores.

68

Todas las técnicas de calibración exigen conocer de antemano los valores de las

coordenadas de un conjunto de N - puntos de 3 dimensiones en [metros],

NPPPP ,,,, 321 , y sus respectivos puntos de 2 dimensiones en píxeles capturados

por la cámara ',,',',' 321 NPPPP , con la finalidad de reemplazar estas coordenadas

en el modelo lineal o no lineal de la cámara, para luego estimar los parámetros de la

misma empleando diversos métodos numéricos de optimización lineal como los mínimos

cuadrados, o métodos de optimización no lineales como el método del descenso del

gradiente, el método de Newton, o el método de Levenberg – Marquardt. Los métodos de

optimización empleados para estimar los parámetros intrínsecos y extrínsecos de la

cámara, se fundamentan en la minimización de la norma euclidiana de un vector error,

donde dicho vector se calcula como la diferencia aritmética entre las coordenadas en

píxeles medidas de los puntos ',,',',' 321 NPPPP y las coordenadas en píxeles de

estos puntos estimadas por el método numérico de optimización.

Los N – puntos de tres dimensiones a ser medidos durante el proceso de calibración

están ubicados en un arreglo físico que recibe el nombre de plantilla. Normalmente la

plantilla posee puntos de tres dimensiones cuyas coordenadas en metros respecto a un

sistema de referencia absoluto WWW zyx son conocidas.

Las técnicas de calibración se pueden clasificar según el tipo de plantillas empleadas para

calibrar cámaras: Según el número de dimensiones geométricas que posean las plantillas,

las técnicas de calibración se pueden clasificar así (Zhang,2000):

Técnicas de calibración que usan plantillas tridimensionales, técnicas de calibración que

usan plantillas bidimensionales, y técnicas de calibración que usan plantillas

unidimensionales, enseñadas en la figura 31.

69

Figura 31. Ejemplos de tipos de plantillas empleadas para calibración de cámaras: a)

Plantilla tridimensional, b) plantillas bidimensionales. La fuente de la imagen es propiedad

de (Zhang Zhengyou, 2004).

Las técnicas que emplean plantillas tridimensionales como la técnica de Faugeras

(Faugeras, 1992), requieren de objetos armados por lo menos con tres planos

típicamente ortogonales entre sí, reticulados de forma uniforme en [metros] para

establecer un sistema de referencia de medición de las coordenadas de los puntos

presentes sobre la misma, que además garantice que los puntos tridimensionales puestos

sobre cada uno de los planos posean por lo menos una coordenada idéntica,

característica que facilita el proceso de medición de los valores de las coordenadas de los

puntos.

Cuando se usa una técnica de calibración de cámaras empleando una plantilla

tridimensional solo es necesaria una (1) pose o captura de la imagen de dicha plantilla,

pero se exige conocer la ubicación de la cámara o cámaras y las coordenadas de los

puntos presentes en la plantilla desde el sistema de referencia absoluto WWW zyx .

70

Las técnicas de calibración que emplean plantillas bidimensionales, como la técnica de

Zhang (Zhang, 2000), requieren de la implementación de una superficie plana

previamente reticulada de forma uniforme para establecer las coordenadas de cada uno

de los puntos tridimensionales puestos sobre estas. Las técnicas de calibración que

emplean plantillas bidimensionales requieren de tres poses en diferentes posiciones de la

misma para estimar los parámetros del modelo de una cámara, y no se requiere conocer

la ubicación de la cámara respecto al sistema de referencia absoluto WWW zyx ,

propiedad que facilita enormemente el proceso de medición de las coordenadas de los

puntos presentes en la plantilla a ser empleados en el proceso de calibración.

Por último las técnicas de calibración que requieren de plantillas unidimensionales, usan

objetos puntuales que sean fácilmente visibles por múltiples cámaras, y por ende son

ampliamente empleadas en la estimación de parámetros de sistemas de visión artificial

compuestos por varias cámaras (Ricolfe, 2006).

De la ecuación (92) del capítulo anterior, se puede verificar que el modelo lineal de una

cámara se puede representar como una matriz multiplicada por el vector de coordenadas

homogéneas del sistema de referencia absoluto del mundo:

111

0

0

0

1

0

0

0

1

,,

34

24

14

33

23

13

32

22

12

31

21

11

3333

W

W

W

W

W

W

ZYX

P

PP

PP

z

y

x

C

C

C

C

C

C

C

C

C

C

C

C

z

y

x

c

b

a

RK

t

tv

tu

(112)

ó

3

1134

24

14

33

23

13

32

22

12

31

21

11

43

W

W

W

W

W

W

P

PP

PP

z

y

x

C

C

C

C

C

C

C

C

C

C

C

C

z

y

x

C

t

tv

tu

(113)

71

La matriz C recibe el nombre de matriz de calibración de la cámara, y obviamente los

parámetros de dicha matriz, 34131211 ,,,, CCCC , dependen de los parámetros

intrínsecos y extrínsecos de la cámara.

Existen técnicas de calibración que inicialmente sólo sirven para estimar el valor de los

elementos de la matriz C, y reciben el nombre de técnicas o métodos de calibración

implícitos.

Cuando la técnica de calibración es capaz de estimar los valores de los parámetros

intrínsecos y / o extrínsecos de la cámara, se afirma que la técnica pertenece a los

métodos de calibración explícitos.

A continuación se procede a estudiar algunas técnicas consideradas como clásicas para

calibrar cámaras digitales, abordadas en el proyecto de grado.

5.1 Técnicas de Calibración Lineal

Las técnicas de calibración lineal implícitas proponen estimar los elementos de la matriz C

que modela linealmente la cámara, a partir de una pose de una plantilla tridimensional.

Estos métodos de estimación de parámetros del modelo de la cámara se fundamentan en

la estimación de los elementos de la matriz C, 34131211 ,,,, CCCC , a partir de un

sistema de ecuaciones lineales conformado por los valores de las coordenadas de los

puntos medidos en la plantilla tridimensional y los valores de las coordenadas de dichos

puntos capturados en la imagen. El sistema de ecuaciones lineales se construye a partir

de la ecuación que rige al modelo lineal de la cámara presentada en la expresión (113).

De la expresión (113) se obtiene que un (1) punto iP de coordenadas ),,( WiWiWi zyx

medido en la plantilla respecto al sistema de referencia absoluto, con un respectivo punto

'iP de coordenadas ),( PiPi vu medido en la imagen, cumple con las siguientes

ecuaciones:

72

14131211 CzCyCxCtu WiWiWiPiPi (114)

24232221 CzCyCxCtv WiWiWiPiPi (115)

34333231 CzCyCxCt WiWiWiPi (116)

Reemplazando la ecuación (116) en las ecuaciones (114) y (113) y organizando

matricialmente el sistema obtenido, se llega al siguiente importantísimo resultado:

0

0

1

0000

0

1

000

11234

33

32

31

24

23

22

21

14

13

12

11

122

C

C

C

C

C

C

C

C

C

C

C

C

v

u

vz

uz

vy

uy

vx

ux

zyx

zyx

Pi

Pi

PiWi

PiWi

PiWi

PiWi

PiWi

PiWi

WiWiWi

WiWiWi

(117)

Si se poseen N – puntos capturados de la plantilla tridimensional NPPPP ,,,, 321 con

sus respectivos N – puntos sobre la imagen ',,',',' 321 NPPPP , entonces el sistema

de ecuaciones (117) se puede reescribir así:

73

02

11234

33

32

31

24

23

22

21

14

13

12

11

122

2

2

22

22

22

22

22

22

222

222

1

1

11

1

11

11

12

11

111

111

0

0

0

0

0

0

1

0000

0

1

000

1

0000

0

1

000

1

0000

0

1

000

NNPN

PN

PNWi

PNWN

PNWi

PNWN

PNWN

PNWN

WNWNWN

WNWNWN

P

P

PW

PW

PW

PW

PW

PW

WWW

WWW

P

P

PW

PWi

PW

PW

PW

PW

WWW

WWW

C

C

C

C

C

C

C

C

C

C

C

C

v

u

vz

uz

vy

uy

vx

ux

zyx

zyx

v

u

vz

uz

vy

uy

vx

ux

zyx

zyx

v

u

vz

uz

vy

uy

vx

ux

zyx

zyx

Ó de forma compacta:

12112122 0 NN CL (118)

Donde L es la matriz dada por

PN

PN

PNWi

PNWN

PNWi

PNWN

PNWN

PNWN

WNWNWN

WNWNWN

P

P

PW

PW

PW

PW

PW

PW

WWW

WWW

P

P

PW

PWi

PW

PW

PW

PW

WWW

WWW

v

u

vz

uz

vy

uy

vx

ux

zyx

zyx

v

u

vz

uz

vy

uy

vx

ux

zyx

zyx

v

u

vz

uz

vy

uy

vx

ux

zyx

zyx

L

1

0000

0

1

000

1

0000

0

1

000

1

0000

0

1

000

2

2

22

22

22

22

22

22

222

222

1

1

11

1

11

11

12

11

111

111

Nótese que la matriz L se puede calcular en términos de las mediciones de las

coordenadas de los puntos NPPPP ,,,, 321 y ',,',',' 321 NPPPP , así que las

incógnitas a calcular es el vector conformado por los elementos de la matriz C que rige al

modelo lineal de la cámara.

74

Cómo el sistema de ecuaciones dado por (118) tiene 12 incógnitas, se requiere por lo

menos de 12 ecuaciones para ser resuelto, lo cual implica que se requiere capturar por lo

menos 6 puntos de la plantilla tridimensional con sus respectivos puntos bidimensionales

medidos en píxeles sobre la imagen capturada con la cámara.

Para garantizar que el sistema de ecuaciones posea una solución única, es necesario

garantizar que las ecuaciones sean linealmente independientes, lo cual se puede alcanzar

garantizando que los puntos capturados en la plantilla tridimensional pertenezcan a

diferentes planos.

Si se trata de resolver el sistema de ecuaciones dado por (118) empleando mínimos

cuadrados, la solución estimada es bastante desagradable: es la solución trivial

112112 0

C .

Demostremos rápidamente esta afirmación:

La solución estimada de C por mínimos cuadrados de la ecuación (117),

112C , es igual a:

bLLLC TT 1

112 )(

(119)

Donde b es el vector de términos independientes que para la ecuación es igual a 0. Por lo

tanto:

11212

1

112 00)(

N

TT LLLC

Así que es necesario establecer un método adecuado para estimar los parámetros del

modelo lineal de la cámara sin caer en el tipo de soluciones triviales no deseadas

ilustradas.

75

A continuación se proceden a ilustrar un primer método de calibración para estimar los

valores de la matriz C empleando mínimos cuadrados sin solución trivial: Técnica de

Calibración de Hall.

5.1.1 Método de calibración Lineal 1 Empleando Plantillas Tridimensionales: La

Técnica de Calibración de Hall

(Hall et al, 1982) propusieron la siguiente idea para poder determinar los parámetros de la

matriz C que rige a la cámara sin caer en la solución trivial 112112 0

C :

El modelo lineal que rige la formación de un punto en el CCD está dado por la expresión

(113):

|

𝑢𝑃𝑡𝑃𝑣𝑃𝑡𝑃𝑡𝑃

| = |

𝐶11𝐶21𝐶31

𝐶12𝐶22𝐶32

𝐶13𝐶23𝐶33

𝐶14𝐶24𝐶34

| |

𝑥𝑊𝑦𝑊𝑧𝑊1

|

Multiplicando ambos lados por una constante λ:

|

𝑢𝑃𝑡𝑃 λ𝑣𝑃𝑡𝑃λ𝑡𝑃λ

| = |

𝐶11λ𝐶21λ𝐶31λ




| |


| , λ ∈ R (120)

Nótese de la anterior ecuación que:

𝑢𝑃 =𝑢𝑃 𝑡𝑃 λ

𝑡𝑃 λ → 𝑢𝑃 = 𝑢𝑃

&

𝑣𝑃 =𝑣𝑃 𝑡𝑃 λ

𝑡𝑃 λ → 𝑣𝑃 = 𝑣𝑃

76

Se verifica que multiplicar por un factor λ a la ecuación que rige el modelo de la cámara,

no afecta el valor de las coordenadas en píxeles del punto P mapeado en el punto P’ en la

imagen capturada.

En particular si λ = 1

𝐶34 entonces el sistema de ecuaciones tendrá la siguiente forma:

|

𝑢𝑃𝑡𝑃 λ𝑣𝑃𝑡𝑃λ𝑡𝑃λ

| =

|

|

𝐶11𝐶34𝐶21𝐶34𝐶31𝐶34

𝐶12𝐶34𝐶22𝐶34𝐶32𝐶34

𝐶13𝐶34𝐶23𝐶34𝐶33𝐶34

𝐶14𝐶34𝐶24𝐶34

𝐶34𝐶34

= 1|

|

|


|

Por lo tanto, se puede suponer que el elemento 3 – 4 de la matriz de calibración es igual a

1 . Al reemplazar 𝐶34 = 1 en el sistema de ecuaciones lineales dado por la expresión

(118) se obtiene que:

02

112

33

32

31

24

23

22

21

14

13

12

11

122

2

2

22

22

22

22

22

22

222

222

1

1

11

1

11

11

12

11

111

111

0

0

0

0

0

0

1

1

0000

0

1

000

1

0000

0

1

000

1

0000

0

1

000

NNPN

PN

PNWi

PNWN

PNWi

PNWN

PNWN

PNWN

WNWNWN

WNWNWN

P

P

PW

PW

PW

PW

PW

PW

WWW

WWW

P

P

PW

PWi

PW

PW

PW

PW

WWW

WWW

C

C

C

C

C

C

C

C

C

C

C

v

u

vz

uz

vy

uy

vx

ux

zyx

zyx

v

u

vz

uz

vy

uy

vx

ux

zyx

zyx

v

u

vz

uz

vy

uy

vx

ux

zyx

zyx

77

Organizando el sistema de ecuaciones lineales se llega al siguiente sistema bajo notación

matricial:

02

2

2

1

1

11233

32

31

24

23

22

21

14

13

12

11

122

22

22

22

22

22

22

222

222

11

1

11

11

12

11

111

111

1

0000

0

1

000

1

0000

0

1

000

1

0000

0

1

000

NPN

PN

P

P

P

P

NPNWi

PNWN

PNWi

PNWN

PNWN

PNWN

WNWNWN

WNWNWN

PW

PW

PW

PW

PW

PW

WWW

WWW

PW

PWi

PW

PW

PW

PW

WWW

WWW

v

u

v

u

v

u

C

C

C

C

C

C

C

C

C

C

C

vz

uz

vy

uy

vx

ux

zyx

zyx

vz

uz

vy

uy

vx

ux

zyx

zyx

vz

uz

vy

uy

vx

ux

zyx

zyx

Ese sistema de ecuaciones no homogéneo se puede resolver con mínimos cuadrados:

Si se define una nueva matriz L y un nuevo vector b iguales a:

122

22

22

22

22

22

22

222

222

11

1

11

11

12

11

111

111

1

0000

0

1

000

1

0000

0

1

000

1

0000

0

1

000

NPNWi

PNWN

PNWi

PNWN

PNWN

PNWN

WNWNWN

WNWNWN

PW

PW

PW

PW

PW

PW

WWW

WWW

PW

PWi

PW

PW

PW

PW

WWW

WWW

vz

uz

vy

uy

vx

ux

zyx

zyx

vz

uz

vy

uy

vx

ux

zyx

zyx

vz

uz

vy

uy

vx

ux

zyx

zyx

L

&

02

2

2

1

1

NPN

PN

P

P

P

P

v

u

v

u

v

u

b

Entonces el sistema a resolver por mínimos cuadrados será el sistema no homogéneo

12111112 NN bCL (121)

78

Cuya solución estimada por mínimos cuadrados es:

bLLLC TT 1

111 )(

(122)

Si no se desea suponer que el parámetro 𝐶34 = 1 de la matriz que rige al modelo lineal de

la cámara (también llamada en la literatura como “matriz de calibración”), se puede usar

una alternativa muy interesante para estimar los elementos de la matriz de calibración.

5.1.2 Método de Calibración Lineal Empleando Plantillas Tridimensionales Número

2: Solución de la ecuación homogénea

Este método de calibración parte del supuesto que la magnitud del vector compuesto por

todos los elementos de la matriz de calibración,𝐶 = [𝐶11, 𝐶12 , 𝐶13 , … , 𝐶34]𝑇, tiene una

magnitud igual a uno.

Recordemos que la ecuación (118) es igual a:

12112122 0 NN CL

Si se multiplica ambos extremos de la ecuación por una constante ϒ, es elemental

verificar que la solución no es alterada:

000

34

13

12

11

34

13

12

11

12

34

13

12

11

122

C

C

C

C

L

C

C

C

C

L

C

C

C

C

L NN

(123)

Si se escoge la constante 𝛾 igual a:

79

γ =1

√𝐶112 + 𝐶12

2 + 𝐶132 +⋯+ 𝐶34

2 (124)

Entonces el vector TCCC 341211 será un vector unitario.

Por lo tanto la estimación de los elementos de la matriz de calibración, se reduce a

resolver el siguiente sistema de ecuaciones homogéneo sujeto a una restricción:

𝐿2𝑁𝑋12 𝐶12𝑋1 = 02𝑁𝑋1 & ‖𝐶12𝑋1‖ = 1 (125)

Se procede a resolver el problema expuesto usando la técnica de optimización con

restricciones de “Multiplicadores de Lagrange”.

Sea

112C una estimación de 112C , entonces se debe cumplir que

0112LC , o lo que es lo mismo

bLC 112 donde 0b

Por lo tanto el vector error cometido en el proceso de estimación de 112C es igual a:

112112 0 CLCLE (126)

Calculando la norma euclidiana del vector error:

)()( 112112

2

CLCLEEE TT (127)

El objetivo planteado es el de estimar los valores de {𝐶11, 𝐶12 , 𝐶13 , … , 𝐶34} que minimicen

la magnitud al cuadrado del error sujeto a la restricción ‖𝐶12𝑋1‖ = 1.

80

‖𝐸‖2 =

{

|

𝐿11𝐿21⋮

𝐿2𝑁 1

𝐿12𝐿22⋮

𝐿2𝑁 2

𝐿13𝐿23⋮

𝐿2𝑁 3

⋯⋯⋯⋯

𝐿1 12𝐿2 12⋮

𝐿2𝑁 12

||

|

𝐶11𝐶12𝐶13⋮𝐶34

|

|

}

𝑇

|

𝐿11𝐿21⋮

𝐿2𝑁 1

𝐿12𝐿22⋮

𝐿2𝑁 2

𝐿13𝐿23⋮

𝐿2𝑁 3

⋯⋯⋯⋯

𝐿1 12𝐿2 12⋮

𝐿2𝑁 12

||

|

𝐶11𝐶12𝐶13⋮𝐶34

|

|

Ejecutando las operaciones matriciales se llega al siguiente resultado:

‖𝐸‖2 = [𝐿11𝐶11 + 𝐿12𝐶12 + ⋯+ 𝐿1 12𝐶34]2 + [𝐿21𝐶11 + 𝐿22𝐶12 + ⋯+ 𝐿2 12𝐶34]

2 +⋯+

[𝐿2𝑁 1𝐶11 + 𝐿2𝑁 2𝐶12 + ⋯+ 𝐿2𝑁 12𝐶34]2 (127)

Minimicemos ‖𝐸‖2 sujeto a la restricción 𝐶12𝑋1 = 1 empleando la técnica de

multiplicadores de Lagrange:

Se debe calcular un escalar λ tal que:

∇ ‖𝐸‖2 − λ ∇𝑔 = 0 (129)

Donde 𝑔 = (𝐶112+ 𝐶12

2 + 𝐶132+ . . . + 𝐶34

2− 1) = 0 (condición de magnitud igual a 1 del

vector solución C).

Por lo tanto la expresión (129) se puede escribir así:

|

|

|

2𝐿11 [𝐿11𝐶11 + 𝐿12𝐶12 + ⋯+ 𝐿1 12𝐶34] + 2𝐿21 [𝐿21𝐶11 + 𝐿22𝐶12 + ⋯+ 𝐿2 12𝐶34] + ⋯

+ 2𝐿2𝑁 1 [𝐿2𝑁 1𝐶11 + 𝐿2𝑁 2𝐶12 + ⋯+ 𝐿2𝑁 12𝐶34]

2𝐿12 [𝐿11𝐶11 + 𝐿12𝐶12 + ⋯+ 𝐿1 12𝐶34] + 2𝐿22 [𝐿21𝐶11 + 𝐿22𝐶12 + ⋯+ 𝐿2 12𝐶34] + ⋯

+ 2𝐿2𝑁 2 [𝐿2𝑁 1𝐶11 + 𝐿2𝑁 2𝐶12 + ⋯+ 𝐿2𝑁 12𝐶34]

⋮2𝐿1 12 [𝐿11𝐶11 + 𝐿12𝐶12 + ⋯+ 𝐿1 12𝐶34] + 2𝐿2 12 [𝐿21𝐶11 + 𝐿22𝐶12 + ⋯+ 𝐿2 12𝐶34] + ⋯

+ 2𝐿2𝑁 12 [𝐿2𝑁 1𝐶11 + 𝐿2𝑁 2𝐶12 + ⋯+ 𝐿2𝑁 12𝐶34]

|

|

|

=

λ |

|

2𝐶112𝐶122𝐶13⋮

2𝐶34

|

| (130)

81

Organizando la ecuación anterior en forma matricial:

|

𝐿11𝐿12⋮

𝐿1 12

𝐿21𝐿22⋮

𝐿2 12

𝐿31𝐿32⋮

𝐿3 12

⋯⋯⋯⋯

𝐿2𝑁 1𝐿2𝑁 2⋮

𝐿2𝑁 12

| |

𝐿11𝐿21⋮

𝐿2𝑁 1

𝐿12𝐿22⋮

𝐿2𝑁 2

𝐿13𝐿23⋮

𝐿2𝑁 3

⋯⋯⋯⋯

𝐿1 12𝐿2 12⋮

𝐿2𝑁 12

||

|

𝐶11𝐶12𝐶13⋮𝐶34

|

|= λ

|

|

𝐶11𝐶12𝐶13⋮𝐶34

|

| (131)

De forma más compacta:

[𝐿𝑇 𝐿]𝐶12𝑋1 = λ 𝐶12𝑋1 (132)

Si se define la matriz cuadrada M igual a LLM T , entonces la ecuación (132) se

puede representar de la siguiente forma:

112112 CMC (133) Importantísima expresión.

Así que el problema de determinar el valor el vector incógnita 112C se ha convertido en un

problema matemático de valores y vectores propios.

Donde los valores propios de la matriz M , λ ,se calculan así:

λ = {λ ∈ C / det (M − λ I) = 0} (134)

Cada λ tiene asociado un vector propio �� tal que:

(M − λ I)�� = 0 (135)

Los vectores �� que sean soluciones de la anterior ecuación son los vectores propios de la

matriz M.

82

La solución

112C es el vector propio unitario que minimiza la norma al cuadrado del error,

y corresponde al valor propio más pequeño de la matriz M.

5.1.3 Método de Calibración Lineal Usando Plantillas Tridimensionales Número 3:

Técnica de Calibración de Faugeras

(Faugeras, 1992), propone una idea novedosa para estimar los elementos de la matriz de

calibración: Al revisar los valores que adquiere la subfila tres de la matriz C, se observa

que corresponde con la tercera fila de la matriz de rotación:

Recordemos que la matriz C de calibración se calcula así:

𝐶 = [𝐾 0] [𝑅] [𝑇]𝑋𝑊 = |

𝐶11𝐶21𝐶31

𝐶12𝐶22𝐶32

𝐶13𝐶23𝐶33

𝐶14𝐶24𝐶34

|

Al ejecutar las operaciones matriciales se llega al siguiente interesante resultado:

[𝐶31 𝐶32 𝐶33] = [𝑅31 𝑅32 𝑅33 ]

Como la matriz de rotación es ortonormal, entonces la magnitud de la tercera fila de la

matriz de rotación es igual a uno:

𝑅31 2 + 𝑅32

2 + 𝑅33 2 = 1

(Faugeras, 1992) al notar esta propiedad, toma la decisión de estimar la matriz C que rige

al modelo lineal de la cámara de tal forma que conserve la propiedad enunciada (la subfila

[𝐶31 𝐶32 𝐶33] debe tener una longitud igual a 1).

Por lo tanto el sistema 12112122 0 NN CL se resuelve usando Multiplicadores de

Lagrange, teniendo presente la restricción:

83

𝐶31 2 + 𝐶32

2 + 𝐶33 2 = 1

El sistema 12112122 0 NN CL se puede reescribir así:

||

𝑥𝑊1 𝑦𝑊10⋮

𝑥𝑊𝑁0

0⋮

𝑦𝑊𝑁0

𝑧𝑊1 1

0⋮

𝑧𝑊𝑁0

0⋮10

0 0𝑥𝑊1⋮0𝑥𝑊𝑁

𝑦𝑊1⋮0𝑦𝑊𝑁

0 0𝑧𝑊1⋮0𝑧𝑊𝑁

1⋮01

−𝑢𝑃1−𝑉𝑃1⋮

−𝑢𝑃𝑁−𝑣𝑃𝑁

−𝑢𝑃1 𝑋𝑊1 −𝑢𝑃1 𝑦𝑊1 −𝑢𝑃1 𝑧𝑊1−𝑣𝑃1 𝑋𝑊1 −𝑣𝑃1 𝑦𝑊1 −𝑣𝑃1 𝑧𝑊1

⋮−𝑢𝑃𝑁 𝑋𝑊𝑁−𝑣𝑃𝑁 𝑋𝑊𝑁

⋮−𝑢𝑃𝑁 𝑦𝑊𝑁−𝑣𝑃𝑁 𝑦𝑊𝑁

⋮−𝑢𝑃𝑁 𝑧𝑊𝑁−𝑣𝑃𝑁 𝑧𝑊𝑁

||

|

|

|

|

𝐶11𝐶12𝐶13𝐶14𝐶21𝐶22𝐶23𝐶24𝐶31𝐶32𝐶33𝐶34

|

|

|

|

=

|

|

|

0000000⋮00

|

|

|

(136)

O de forma equivalente:

12

33

32

31

32

34

24

23

22

21

14

13

12

11

92 0

NNN

C

C

C

F

C

C

C

C

C

C

C

C

C

D

ó

84

1233292 0' NNN CFCD (137)

Donde las matrices D y F son iguales a:

𝐷 = ||

𝑥𝑊1 𝑦𝑊10⋮

𝑥𝑊𝑁0

0⋮

𝑦𝑊𝑁0

𝑧𝑊1 1

0⋮

𝑧𝑊𝑁0

0⋮10

0 0𝑥𝑊1⋮0𝑥𝑊𝑁

𝑦𝑊1⋮0𝑦𝑊𝑁

0 0𝑧𝑊1⋮0𝑧𝑊𝑁

1⋮01

−𝑢𝑃1−𝑣𝑃1⋮

−𝑢𝑃𝑁−𝑣𝑃𝑁

|| (138)

𝐹 = ||

−𝑢𝑃1 𝑥𝑊1 −𝑢𝑃1 𝑦𝑊1 −𝑢𝑃1 𝑧𝑊1−𝑣𝑃1 𝑥𝑊1 −𝑣𝑃1 𝑦𝑊1 −𝑣𝑃1 𝑧𝑊1

⋮−𝑢𝑃𝑁 𝑥𝑊𝑁−𝑣𝑃𝑁 𝑥𝑊𝑁

⋮−𝑢𝑃𝑁 𝑦𝑊𝑁−𝑣𝑃𝑁 𝑦𝑊𝑁

⋮−𝑢𝑃𝑁 𝑧𝑊𝑁−𝑣𝑃𝑁 𝑧𝑊𝑁

|| (139)

Al aplicar Multiplicadores de Lagrange a la ecuación (136) con la restricción 𝐶31 2 +

𝐶32 2 + 𝐶33

2 = 1, se llega al siguiente sistema de ecuaciones:

[𝐹𝑇 𝐹 − 𝐹𝑇 𝐷 (𝐷𝑇 𝐷)−1 𝐷𝑇𝐹] |

𝐶31𝐶32𝐶33

| = 𝜆 |

𝐶31𝐶32𝐶33

| (140)

O de forma equivalente:

𝑀 𝐶3 = 𝜆 𝐶3 (141)

Donde FDDDDFFFM TTTT 1)( es una matriz cuadrada de orden (3,3).

El problema de estimar los elementos 𝐶3 de calibración, es equivalente a resolver el

problema de valores y vectores propios enseñado en la expresión 141.

𝐶3 Es el vector propio unitario asociado al valor propio más pequeño.

85

El vector que contienen los demás elementos de la matriz C de calibración,

𝐶` = [𝐶11, 𝐶12, 𝐶13, 𝐶14, 𝐶21, 𝐶22, 𝐶23,𝐶24, 𝐶34 ] ,se estima así:

𝐶` = −(𝐷𝑇 𝐷)−1 𝐷𝑇𝐹 𝐶3 (142)

Además si 𝐶` y 𝐶3 son soluciones estimadas de buena calidad, entonces se debería

cumplir que el vector error asociado a la ecuación (137) debería tender al vector 0:

𝐸 = 𝐷𝐶` + 𝐹𝐶3 ≅ 0

5.1.4 Método de Calibración Lineal Usando Plantillas Bidimensionales: Técnica de

Calibración de Zhang

(Zhang, 2000), propone una novedosa técnica de calibración orientada a la estimación de

los parámetros extrínsecos de una cámara digital: a diferencia de los métodos propuestos

por (Hall, 1982), (Tsai, 1987) y (Faugeras, 1992), no se requiere del uso de plantillas 3D

muy elaboradas, sólo el empleo de plantillas de dos dimensiones cuyas coordenadas de

puntos tridimensionales carecen de una dimensión; y no es necesario conocer la posición

y ángulos de rotación de la cámara respecto a la plantilla empleada

Zhang (2000), propone capturar tres imágenes digitales de la misma plantilla

bidimensional desde diferentes posiciones de la cámara, con la finalidad calcular tres

matrices CBA HyHH , llamadas matrices de homografías. Estas matrices estimadas por

la metodología propuestas por el autor, sirven para estimar los parámetros intrínsecos de

la cámara.

Matrices de Homografías

Una homografía es una trasformación que toma un punto P de dos dimensiones presente

en un plano y le asocia otro punto P' de dos dimensiones.

En el caso de las cámaras, una homografía es una transformación matricial que toma un

punto P presente sobre una plantilla bidimensional, que al ser medidos en un sistema de

referencia absoluto puesto sobre la misma plantilla sólo poseen dos dimensiones, y le

86

asocia un punto P' (la imagen capturada de P por la cámara cuyas coordenadas están en

píxeles).

Recordemos que el modelo de la cámara está regido por la ecuación (92):

11

0

0

0

1

0

0

0

1

,,3333

W

W

W

ZYX

P

PP

PP

z

y

x

c

b

a

RK

t

tv

tu

Si se multiplica ambos lados del modelo lineal de la cámara por un factor de escala 𝜆 , se

obtiene el siguiente resultado:

11

0

0

0

1

0

0

0

1

,,3333

W

W

W

ZYX

P

PP

PP

z

y

x

c

b

a

RK

t

tv

tu

(143)

Si los puntos capturados de la plantilla bidimensional solo poseen dos dimensiones

respecto al sistema de referencia absoluto del mundo, evento que ocurriría si la plantilla

contiene al sistema de referencia, tal como se ilustra en la figura 32, entonces la

componente 𝑌𝑊 de cualquier punto de plantilla será igual a 0.

87

Figura 32. Plantilla de calibración de Zhang ilustrando el sistema de referencia absoluto

puesto sobre ella. La fuente de la imagen es (Zhang, 2004).

El punto P (𝑋𝑊, 0, 𝑍𝑊) genera un punto P´ (𝑢𝑃 , 𝑣𝑃) en el plano imagen, regido por la

siguiente ecuación:

1

0

1

0

0

0

1

0

0

0

1

,,3333

W

W

ZYX

P

PP

PP

z

x

c

b

a

RK

t

tv

tu

Al operar matricialmente se obtiene el siguiente resultado:

13332313331

2322212321

1312111311

33 W

W

P

PP

PP

z

x

cRbRaRRR

cRbRaRRR

cRbRaRRR

K

t

tv

tu

(144)

Se define la matriz de homografía H así:

𝐻𝐴 = |

ℎ11 ℎ12 ℎ13ℎ21 ℎ22 ℎ23ℎ31 ℎ32 ℎ33

| = 𝜆𝐾 |

𝑅11 𝑅13 −𝑅11𝑎 + 𝑅12𝑏 − 𝑅13𝑐𝑅21 𝑅23 −𝑅21𝑎 + 𝑅22𝑏 − 𝑅23𝑐𝑅31 𝑅33 −𝑅31𝑎 + 𝑅32𝑏 − 𝑅33𝑐

|

88

Nótese que la matriz HA es cuadrada y sus dos primeras columnas son las columnas 1 y 3

de la matriz de rotación, que son ortonormales.

Por lo tanto la expresión (144) se puede representar así:

1333231

232221

131211

W

W

AAA

AAA

AAA

P

PP

PP

z

x

hhh

hhh

hhh

t

tv

tu

(145)

Cálculo de la Matriz de Homografía para una pose de una Plantilla Bidimensional

Si se tiene una plantilla de dos dimensiones con N-puntos de coordenadas

{(𝑥𝑊1, 𝑧𝑊1),( 𝑥𝑊2, 𝑧𝑊2),…,(𝑥𝑊𝑖, 𝑧𝑊𝑖),…,( 𝑥𝑊𝑁, 𝑧𝑊𝑁)}, la homografía del punto (𝑥𝑊𝑖, 𝑧𝑊𝑖) es

igual a:

1333231

232221

131211

Wi

Wi

AAA

AAA

AAA

Pi

PiPi

PiPi

z

x

hhh

hhh

hhh

t

tv

tu

(146)

Al expandir la expresión 146 se llega al siguiente resultado:

𝑢𝑝𝑖 𝑡𝑃𝑖 𝜆 = 𝑥𝑊𝑖ℎ11𝐴 + 𝑧𝑊𝑖 ℎ12𝐴 + ℎ13𝐴 (147)

𝑣𝑝𝑖 𝑡𝑃𝑖 𝜆 = 𝑥𝑊𝑖ℎ21𝐴 + 𝑧𝑊𝑖 ℎ22𝐴 + ℎ23𝐴 (148)

𝑡𝑃𝑖 𝜆 = 𝑥𝑊𝑖ℎ31𝐴 + 𝑧𝑊𝑖 ℎ32𝐴 + ℎ33𝐴 (149)

Reemplazando la expresión (149) en las expresiones (147) y (148) se obtiene el siguiente

resultado:

𝑥𝑊𝑖ℎ11𝐴 + 𝑧𝑊𝑖 ℎ12𝐴 + ℎ13𝐴 − 𝑥𝑊𝑖ℎ31𝐴 𝑢𝑝𝑖 − 𝑧𝑊𝑖 ℎ32𝐴 𝑢𝑝𝑖 − ℎ33𝐴 𝑢𝑝𝑖 = 0 (150)

𝑥𝑊𝑖ℎ21𝐴 + 𝑧𝑊𝑖 ℎ22𝐴 + ℎ23𝐴 − 𝑥𝑊𝑖ℎ31𝐴 𝑣𝑝𝑖 − 𝑧𝑊𝑖 ℎ32𝐴 𝑣𝑝𝑖 − ℎ33𝐴 𝑣𝑝𝑖 = 0 (151)

89

Al organizar matricialmente las ecuaciones anteriores se tiene que:

|𝑥𝑊𝑖0 𝑧𝑊𝑖0 10 0𝑥𝑊𝑖

0𝑧𝑊𝑖

01 − 𝑥𝑊𝑖 𝑢𝑝𝑖−𝑥𝑊𝑖 𝑣𝑝𝑖

−𝑧𝑊𝑖 𝑢𝑝𝑖−𝑧𝑊𝑖 𝑣𝑝𝑖

− 𝑢𝑝𝑖− 𝑣𝑝𝑖

|

|

|

|

ℎ11𝐴ℎ12𝐴ℎ13𝐴ℎ21𝐴ℎ22𝐴ℎ23𝐴ℎ31𝐴ℎ32𝐴ℎ33𝐴

|

|

|

= |00|

Como se poseen nueve incógnitas y cada punto capturado de la plantilla aporta dos

ecuaciones, se requieren por lo menos cinco puntos de la plantilla para generar 10

ecuaciones y despejar por mínimos cuadrados los parámetros de la matriz de homografía.

Si se usan seis puntos

||

𝑥𝑊10⋮

𝑥𝑊60

𝑧𝑊10⋮𝑧𝑊60

10⋮10

0𝑥𝑊1⋮0𝑥𝑊6

0𝑧𝑊1⋮0𝑧𝑊6

01⋮01

− 𝑥𝑊1 𝑢𝑝1−𝑥𝑊1 𝑣𝑝1

⋮− 𝑥𝑊6 𝑢𝑝6− 𝑥𝑊6 𝑣𝑝6

−𝑧𝑊1 𝑢𝑝1

−𝑧𝑊1 𝑣𝑝1⋮

−𝑧𝑊6 𝑢𝑝6

−𝑧𝑊6 𝑣𝑝6

− 𝑢𝑝1− 𝑣𝑝1⋮

− 𝑢𝑝6− 𝑣𝑝6

||

|

|

|

ℎ11𝐴ℎ12𝐴ℎ13𝐴ℎ21𝐴ℎ22𝐴ℎ23𝐴ℎ31𝐴ℎ32𝐴ℎ33𝐴

|

|

|

=

|

|

|

000000000000

|

|

|

O de forma general, para N - puntos:

𝐿2𝑁𝑋9 ℎ𝐴 9𝑋1 = 012𝑋1 (152)

Este sistema de ecuaciones lineales es homogéneo y (Zhang, 2000) sugiere resolverlo

con la restricción |ℎ𝐴 | = 1, cuya solución ya se sabe es igual a:

𝐿𝑇𝐿 ℎ𝐴 = 𝜆 ℎ𝐴 (153)

Donde 𝜆 es el valor propio de la matriz 𝑀 = 𝐿𝑇𝐿, que garantiza que la solución ℎ𝐴 genere

el mínimo error:

𝐿 ℎ𝐴 ≈ 0

90

El valor del vector ℎ𝐴 cuyos elementos son las componentes de la matriz de homografía

HA obtenido por mínimos cuadrados, se emplea como un "valor semilla" para resolver de

nuevo la ecuación (152) usando un método numérico de optimización no lineal, como por

ejemplo el método de Levenberg - Marquardt; con la finalidad de estimar un valor del

vector ℎ𝐴 que genere un error inferior al generado por la técnica de mínimos cuadrados,

es decir, para obtener una solución más adecuada de ℎ𝐴 que se ajuste a las mediciones

efectuadas.

Si se capturan otras dos imágenes de la plantilla bidimensional desde otras dos

posiciones diferentes a la original, es posible calcular con la metodología enseñada otras

dos matrices de homografía CB HyH

Con las tres matrices de homografía estimadas es totalmente factible estimar los

parámetros intrínsecos de la cámara, tal como se enseña en la próxima sección.

Cálculo de los Parámetros Intrínsecos de una Cámara Empleando la Metodología o

Técnica de Calibración de Zhang

Recordemos que la matriz Hi (cualquiera de las tres matrices de homografía) tiene la

siguiente forma:

𝐻𝑖 = |

ℎ11 ℎ12 ℎ13ℎ21 ℎ22 ℎ23ℎ31 ℎ32 ℎ33

| = |ℎ1𝑖 ℎ2

𝑖

⋮ ⋮ ℎ3

𝑖

⋮| = 𝜆𝐾 |𝑅1

𝑖 𝑅3𝑖

⋮ ⋮ 𝑃⋮| (154)

Donde ℎ1𝑖 , ℎ2

𝑖 y ℎ3𝑖 son las columnas de la matriz de homografía i - ésima.

Los vectores de rotación 𝑅1𝑖 y 𝑅3

𝑖 son ortonormales y tienen la misma longitud, por lo tanto

se debe cumplir que:

𝑅1𝑖 𝑇 . 𝑅3

𝑖 = 0 (155) (Los dos vectores son ortogonales)

𝑅1𝑖 𝑇 . 𝑅1

𝑖 = 𝑅3𝑖 𝑇 . 𝑅3

𝑖 (156) (Los dos vectores tienen la misma longitud)

91

De la expresión (154) se puede verificar que la primera y segunda columnas de la matriz

Hi son iguales a:

ℎ1𝑖 = 𝜆𝐾𝑅1

𝑖 (157)

ℎ2𝑖 = 𝜆𝐾𝑅3

𝑖 (158)

Si se define la matriz de parámetros intrínsecos KK ' , entonces las expresiones

(157) y (158) se pueden escribir así:

ℎ1𝑖 = 𝐾′𝑅1

𝑖 (159)

ℎ2𝑖 = 𝐾′𝑅3

𝑖 (160)

Despejando los vectores de rotación de las ecuaciones (159) y (160):

𝑅1𝑖 = 𝐾′−1 ∗ ℎ1

𝑖 (161)

𝑅3𝑖 = 𝐾′−1 ∗ ℎ2

𝑖 (162)

Reemplazado las expresiones (161) y (162) en las expresiones (155) y (156):

[𝐾′−1 ∗ ℎ1𝑖]𝑇. 𝐾′−1. ℎ2

𝑖 = 0 (163)

&

[𝐾′−1 ∗ ℎ1𝑖]𝑇. 𝐾′−1. ℎ1

𝑖 = [𝐾′−1. ℎ2𝑖 ]𝑇. 𝐾′−1. ℎ2

𝑖 (164)

De propiedades matriciales, se tiene que (𝐴𝐵)𝑇 = 𝐵𝑇𝐴𝑇 . Al aplicar este resultado en las

expresiones (163) y (164) se llega a los siguientes resultados:

(ℎ1𝑖)𝑇 . (𝐾′−1)𝑇 . 𝐾′−1ℎ2

𝑖 = 0 (165)

(ℎ1𝑖)𝑇 . (𝐾′−1)𝑇 . 𝐾′−1. ℎ1

𝑖 = (ℎ2𝑖)𝑇 (𝐾′−1)𝑇 𝐾′−1. ℎ2

𝑖 (166)

Toda matriz cuadrada A cumple la siguiente propiedad:

92

(𝐴−1)𝑇 𝐴 = 𝐵 = |𝑏11 𝑏12 𝑏13𝑏12 𝑏22 𝑏23𝑏13 𝑏23 𝑏33

|

Donde B es una matriz simétrica.

(Zhang, 2004) define la matriz B (cónica absoluta) así:

B= (𝐾′−1)𝑇 . 𝐾′−1 = ||

1

𝛼2𝐹2𝜆20

−𝑈𝐶

𝛼𝐹2𝜆2

01

𝛽2𝐹2𝜆2−𝑉𝐶

𝛽𝐹2𝜆2

−𝑈𝐶

𝛼2𝐹2𝜆2−𝑉𝐶

𝛽𝐹2𝜆2

𝑈𝑐𝑝2+𝑉𝑐𝑝

2

𝐹2𝜆2+

1

𝜆2

|| (167)

Si se definen los siguientes parámetros intrínsecos:

𝛼𝑝 = 𝛼𝐹, 𝛽𝑝 = 𝛽𝐹, 𝑢𝐶𝑃 = 𝛼𝑢𝑐 , 𝑣𝐶𝑃 = 𝛽𝑣𝑐

Entonces la matriz B se puede reescribir así:

𝐵 = |

|

1

𝛼𝑝2𝜆2

0−𝑈𝑐𝑝

𝛼𝑝2𝜆2

01

𝛽𝑝2𝜆2

−𝑉𝑐𝑝

𝛽𝑝2𝜆2

−𝑈𝑐𝑝

𝛼𝑝2𝜆2

−𝑉𝑐𝑝

𝛽𝑝2𝜆2

𝑈𝑐𝑝2

𝛼𝑝2𝜆2

++𝑉𝑐𝑝

2

𝛽𝑝2𝜆2

+1

𝜆2

|

| (168)

Por lo tanto las ecuaciones {165, 166} se pueden reescribir en términos de B:

(ℎ1𝑖)𝑇 . 𝐵 . ℎ2

𝑖 = 0 (169)

(ℎ1𝑖)𝑇 . 𝐵 . ℎ1

𝑖 = (ℎ2𝑖)𝑇𝐵 ℎ2

𝑖 (170)

Como:

93

ℎ1𝑖 = |

ℎ11𝑖

ℎ21𝑖

ℎ31𝑖

| y ℎ2𝑖 = |

ℎ12𝑖

ℎ22𝑖

ℎ32𝑖

|

Entonces:

(ℎ11𝑖 ℎ21

𝑖 ℎ31𝑖) |

𝑏11 𝑏12 𝑏13𝑏12 𝑏22 𝑏23𝑏13 𝑏23 𝑏33

| |

ℎ12𝑖

ℎ22𝑖

ℎ32𝑖

| = 0 (171)

&

(ℎ11𝑖 ℎ21

𝑖 ℎ31𝑖) |

𝑏11 𝑏12 𝑏13𝑏12 𝑏22 𝑏23𝑏13 𝑏23 𝑏33

| |

ℎ11𝑖

ℎ21𝑖

ℎ31𝑖

| − (ℎ12𝑖 ℎ22

𝑖 ℎ32𝑖) |

𝑏11 𝑏12 𝑏13𝑏12 𝑏22 𝑏23𝑏13 𝑏23 𝑏33

| |

ℎ12𝑖

ℎ22𝑖

ℎ32𝑖

| = 0

(172)

Al operar las ecuaciones anteriores y teniendo presente que 012 B (ver expresión 168),

se llega al siguiente conjunto de ecuaciones:

0

0

33

23

2213

12

11

2222 2

32

2

3132223121

2

22

2

2132123111

2

12

2

11

3231312232212221311232111211

b

b

bb

b

b

hhhhhhhhhhhhhh

hhhhhhhhhhhhhh

AAAAAAAAAAAAAA

AAAAAAAAAAAAAA

(173)

Como existen otras dos matrices de homografías entonces el sistema de ecuaciones

completo será igual a:

94

0

0

0

0

0

0

33

23

2213

12

11

2222

2222

2222

2

32

2

3132223121

2

22

2

2132123111

2

12

2

11

3231312232212221311232111211

2

32

2

31

3231

2

32

2

31

3231

32223121

2

22

2

2132123111

2

12

2

11

312232212221311232111211

32223121

2

22

2

2132123111

2

12

2

11

312232212221311232111211

b

b

bb

b

b

hhhhhhhhhhhhhh

hhhhhhhhhhhhhh

hh

hh

hh

hh

hhhhhhhhhhhh

hhhhhhhhhhhh

hhhhhhhhhhhh

hhhhhhhhhhhh

CCCCCCCCCCCCCC

CCCCCCCCCCCCCC

BB

BB

AA

AA

BBBBBBBBBBBB

BBBBBBBBBBBB

AAAAAAAAAAAA

AAAAAAAAAAAA

(174)

Al resolver el sistema de ecuaciones lineales homogéneas empleando la técnica de

valores y vectores propios enseñadas anteriormente, se obtiene los valores de

{𝑏11, 𝑏12, 𝑏13, 𝑏22, 𝑏23, 𝑏33}.

Con los valores de la matriz B es posible calcular los parámetros intrínsecos presentes en

la matriz K' de la cámara usando la expresión (168):

22

2

13

2

23332211

2211

)( BBBBBB

BB

(175)

22

2

11

22

2

13

2

23332211 )(

BB

BBBBBBP

(176)

2

2211

22

2

13

2

23332211 )(

BB

BBBBBBP

(180)

Por último es factible combinar las técnicas de Zhang y Faugeras para estimar los

parámetros extrínsecos del modelo lineal de la cámara:

Recordemos que:

95

111

0

0

0

1

0

0

0

1

,, 433333

W

W

W

W

W

W

ZYX

P

PP

PP

z

y

x

Cz

y

x

c

b

a

RK

t

tv

tu

Donde la matriz 43C es la matriz estimada de calibración por las técnicas de Faugeras,

Hall u Homogénea.

Despejando el producto de la matriz de rotación por la matriz de traslación se llega al

siguiente importante resultado, que sirve para estimar de forma implícita los parámetros

extrínsecos de la cámara:

43

1

3333

1

0

0

0

1

0

0

0

1

,,

CK

c

b

a

R ZYX

5.2 Determinación de los Parámetros de Distorsión Radial de la Lente de la Cámara

(Wang, 2009), propone un método simple para determinar la distorsión radial provocada

por la lente de la cámara sin necesidad de requerir los parámetros intrínsecos de la

cámara. El método calcula el centro de distorsión de las lentes estableciendo que las

líneas rectas capturadas del mundo real son distorsionadas en la imagen en formas de

secciones de arco circulares en el plano, tal como se enseña en la figura 23.

96

Figura 33. Plano imagen con 3 líneas rectas distorsionadas por efectos de la distorsión

radial introducida por la lente. La fuente de la imagen es propiedad de los autores.

Recordando que la ecuación de una circunferencia es:

(𝑥 − ℎ)2 + (𝑦 − 𝑘)2 = 𝑅2

O en forma de ecuación general de la cónica:

𝑥2 + 𝑦2 + 𝐴𝑥 + 𝐵𝑦 + 𝐶 = 0

Donde:

𝐴 = −2ℎ

𝐵 = −2𝑘

𝐶 = ℎ2 + 𝑘2 − 𝑅2

𝑅 = √ℎ2 + 𝑘2 − 𝐶

Cómo el radio es mayor que cero, se debe cumplir la siguiente condición para garantizar

que la cónica no represente una circunferencia degenerada:

𝐴2

4 +𝐵2

4− 𝐶 > 0

97

Al reemplazar las ecuaciones de la distorsión radial en píxeles estudiadas en el modelo no

lineal de la cámara en la ecuación de la línea recta 𝑣𝑃 = 𝑚𝑢𝑃 + 𝑏, se obtiene la siguiente

ecuación de una circunferencia:

𝑢𝑃𝐷2 + 𝑣𝑃𝐷

2 + 𝐴𝑢𝑃𝐷 + 𝐵𝑣𝑃𝐷 + 𝐶 = 0 (181)

Donde:

𝐴 =𝑚

𝑘1(𝑏 + 𝑚𝑢𝑃𝐶𝐷 − 𝑣𝑃𝐶𝐷)− 2𝑣𝑃𝐶𝐷

𝐵 = −1

𝑘1(𝑏 + 𝑚𝑢𝑃𝐶𝐷 − 𝑣𝑃𝐶𝐷)− 2𝑣𝑃𝐶𝐷

𝐶 = 𝑢𝑃𝐶𝐷2 + 𝑣𝑃𝐶𝐷

2 + [𝑣𝑃𝐶𝐷

𝐾1(𝑏 + 𝑚𝑢𝑃𝐶𝐷 − 𝑣𝑃𝐶𝐷)−

𝑚𝑢𝑃𝐶𝐷𝐾1(𝑏 + 𝑚𝑢𝑃𝐶𝐷 − 𝑣𝑃𝐶𝐷)

] +1

𝐾1

Además:

𝑢𝑃𝐶𝐷2 + 𝑣𝑃𝐶𝐷

2 + 𝐴𝑢𝑃𝐶𝐷 + 𝐵𝑣𝑃𝐶𝐷 + 𝐶 − 1

𝑘1= 0 (182)

Para cada punto de la circunferencia 1 de la figura 33 es posible obtener las siguientes

ecuaciones:

𝑢𝑃𝐷1𝐴1 + 𝑣𝑃𝐷1𝐵1 + 𝐶1 = −𝑢𝑃𝐷12 − 𝑣𝑃𝐷1

2


2


2

𝑢𝑃𝐷𝐾𝐴1 + 𝑣𝑃𝐷𝐾𝐵1 + 𝐶1 = −𝑢𝑃𝐷𝐾2 − 𝑣𝑃𝐷𝐾

2

Por el método de mínimos cuadrados se despejan las variables (𝐴1, 𝐵1, 𝐶1). Nótese que

como se tienen 3 incógnitas se requieren por lo menos 3 puntos de la circunferencia para

que exista una solución. Este procedimiento se repite para la circunferencia 2 y la

circunferencia 3 y se calculan las constantes (𝐴2, 𝐵2, 𝐶2) y (𝐴3, 𝐵3, 𝐶3).

De la expresión (182) se obtiene las siguientes ecuaciones:

98

a) 𝑢𝑃𝐶𝐷2 + 𝑣𝑃𝐶𝐷

2 + 𝐴1𝑢𝑃𝐶𝐷 + 𝐵1𝑣𝑃𝐶𝐷 + 𝐶1 − 1

𝑘1= 0

b) 𝑢𝑃𝐶𝐷2 + 𝑣𝑃𝐶𝐷

2 + 𝐴2𝑢𝑃𝐶𝐷 + 𝐵2𝑣𝑃𝐶𝐷 + 𝐶2 − 1

𝑘1= 0

c) 𝑢𝑃𝐶𝐷2 + 𝑣𝑃𝐶𝐷

2 + 𝐴3𝑢𝑃𝐶𝐷 + 𝐵3𝑣𝑃𝐶𝐷 + 𝐶3 − 1

𝑘1= 0

Al restar las ecuaciones a-b, a-c y b-c, se obtiene el siguiente sistema de ecuaciones:

(𝐴1 − 𝐴2)𝑢𝑃𝐶𝐷 + (𝐵1 − 𝐵2)𝑣𝑃𝐶𝐷 + (𝐶1 − 𝐶2) = 0(𝐴1 − 𝐴3)𝑢𝑃𝐶𝐷 + (𝐵1 − 𝐵3)𝑣𝑃𝐶𝐷 + (𝐶1 − 𝐶3) = 0(𝐴2 − 𝐴3)𝑢𝑃𝐶𝐷 + (𝐵2 − 𝐵3)𝑣𝑃𝐶𝐷 + (𝐶2 − 𝐶3) = 0

Al resolver este sistema de ecuaciones, por mínimos cuadrados, se obtienen las

coordenadas del centro de la distorsión (𝑢𝑃𝐶𝐷, 𝑣𝑃𝐶𝐷) .

Se puede obtener el valor de la constante K1 perteneciente al polinomio de distorsión

radial, al reemplazar las coordenadas de centro de distorsión estimadas en las

ecuaciones a, b o c.

99

6. PRINCIPIOS BÁSICOS DE MEDICIÓN DE COORDENADAS

TRIDIMENSIONALES

En este capítulo se procede a estudiar de forma muy concisa la fundamentación de la

técnica de visión estereoscópica para estimar las coordenadas de un punto P de tres

dimensiones, a partir de un sistema de visión conformado por 2 o más cámaras.

6.1 Reconstrucción de las Coordenadas de un Punto P Tridimensional a Partir de

las imágenes capturadas

Se tiene un sistema de visión compuesto por dos cámaras cuyas matrices de calibración

son conocidas, llamadas CA y CB, cuyos modelos de cámaras son iguales a:

134

24

14

33

23

13

32

22

12

31

21

11

W

W

W

A

A

A

A

A

A

A

A

A

A

A

A

PA

PAPA

PAPA

z

y

x

C

C

C

C

C

C

C

C

C

C

C

C

t

tv

tu

y

134

24

14

33

23

13

32

22

12

31

21

11

W

W

W

B

B

B

B

B

B

B

B

B

B

B

B

PB

PBPB

PBPB

z

y

x

C

C

C

C

C

C

C

C

C

C

C

C

t

tv

tu

(185)

Donde:

PA

PAPA

PAPA

t

tv

tu

es el vector de coordenadas homogéneas en píxeles del punto P' proveniente

del punto P tridimensional filmado por la cámara A.

PB

PBPB

PBPB

t

tv

tu

es el vector de coordenadas homogéneas en píxeles del punto P' proveniente

del punto P tridimensional filmado por la cámara B.

100

1

W

W

W

z

y

x

Es el vector de coordenadas homogéneas del punto P tridimensional.

Ejecutando las operaciones matriciales mostradas en las expresiones (185), se obtienen

los siguientes resultados:

AWAWAWA

AWAWAWA

AWAWAWA

PA

PAPA

PAPA

CzCyCxC

CzCyCxC

CzCyCxC

t

tv

tu

34333231

24232221

14131211

(186)

BWBWBWB

BWBWBWB

BWBWBWB

PB

PBPB

PBPB

CzCyCxC

CzCyCxC

CzCyCxC

t

tv

tu

34333231

24232221

14131211

(187)

Reemplazando la expresión que rige a PAt en las otras dos ecuaciones presentes en

(186), se llega al siguiente resultado:

)()()()( 3414133312321131 PAAAWAPAAWAPAAWAPAA uCCzCuCyCuCxCuC (188)

)()()()( 3424233322322131 PAAAWAPAAWAPAAWAPAA vCCzCvCyCvCxCvC (189)

Ejecutando el mismo procedimiento en la expresión 187:

)()()()( 3414133312321131 PBBBWBPBBWBPBBWBPBB uCCzCuCyCuCxCuC (190)

)()()()( 3424233322322131 PBBBWBPBBWBPBBWBPBB vCCzCvCyCvCxCvC (191)

El sistema de ecuaciones conformado por las ecuaciones (188), (189), (190) y (191) se

puede representar matricialmente así:

101

)(

)(

)(

)(

)()()(

)()()(

)()()(

)()()(

3424

3414

3424

3414

233322322131

133312321131

233322322131

133312321131

PBBB

PBBB

PAAA

PAAA

W

W

W

BPBABPBBBPBB

BPBBBPBBBPBB

APAAAPAAAPAA

APAAAPAAAPAA

vCC

uCC

vCC

uCC

z

y

x

CvCCvCCvC

CuCCuCCuC

CvCCvCCvC

CuCCuCCuC

(192) Expresión muy importante

El sistema de ecuaciones (192) se puede resolver por mínimos cuadrados, y la solución

obtenida es nada más y nada menos que las tres coordenadas que rigen la posición del

punto P en el espacio.

Si se tuviesen N - cámaras, el sistema de ecuaciones para estimar las coordenadas del

punto P de tres dimensiones tendría la siguiente forma:

)(

)(

)(

)(

)(

)(

)()()(

)()()(

)()()(

)()()(

)()()(

)()()(

3424

3414

3424

3414

3424

3414

233322322131

133312321131

233322322131

133312321131

233322322131

133312321131

PNNN

PNNN

PBBB

PBBB

PAAA

PAAA

W

W

W

NPNNNPNNNPNN

NPNNNPNNNPNN

BPBABPBBBPBB

BPBBBPBBBPBB

APAAAPAAAPAA

APAAAPAAAPAA

vCC

uCC

vCC

uCC

vCC

uCC

z

y

x

CvCCvCCvC

CuCCuCCuC

CvCCvCCvC

CuCCuCCuC

CvCCvCCvC

CuCCuCCuC

(193)

Una de las problemáticas más interesantes en la reconstrucción de las coordenadas de

un punto P de tres dimensiones empleando visión estereoscópica, es la detección de las

imágenes '

AP y '

BP del punto P capturado simultáneamente por dos o más cámaras

(Puntos correspondientes), problemática que recibe el nombre de “Correspondencia de

Píxeles”.

Se han propuesto para resolver el problema de la correspondencia, desde el uso de

señalizadores ópticos como por ejemplo etiquetas puestas sobre un punto del objeto,

hasta el uso de "rejillas láser", con la finalidad de identificar sobre las 2 o más imágenes

capturadas las imágenes de los puntos correspondientes, para leer sus coordenadas en

102

píxeles y así poder usar la ecuación (192) para la estimación de las coordenadas en

metros de un punto de interés del mundo.

En la etapa 2 del proyecto se propondrá una metodología fundamentada en la geometría

epipolar y el uso de matrices fundamentales (Zhang, 2004; Faugeras, 1992), para la

detección de píxeles correspondientes en dos o más imágenes capturadas por diferentes

cámaras, para la posterior reconstrucción tridimensional de la escena.

103

7. METODOLOGÍA Y EXPERIMENTOS DISEÑADOS

La metodología propuesta para el cumplimiento del objetivo “Estimar los parámetros de

algunos modelos físico – matemáticos de cámaras a partir del uso de algunas técnicas de

calibración” se procede a ilustrar a continuación.

7.1 Estimación de los Parámetros del Modelo de Distorsión Radial de Cada Una de

las Cámaras Empleando la Metodología propuesta por Wang

La primera actividad importante dentro del proceso de calibración de una cámara, es

estimar el modelo de distorsión de las mismas. Este modelo sirve para corregir los valores

de las coordenadas en píxeles de los puntos 3D capturados, cuyos valores son

incorrectos debido a la distorsión introducida por la lente de la cámara. Los valores

corregidos de las coordenadas en píxeles de los puntos medidos, se emplearán en la

estimación de las matrices de calibración de las cámaras usando las técnicas lineales

abordadas en el proyecto de grado.

A continuación se presentan los pasos asociados al proceso de estimación del modelo de

distorsión para cualquiera de las 2 cámaras.

1. Captura de 3 líneas rectas presentes en una plantilla bidimensional: Se construyó una

plantilla bidimensional reticulada usando cuadrículas de ajedrez, con dimensiones de

30X22 [cm]. Las cuadriculas empleadas tienen dimensiones arbitrarias de 2X2 [cm]. A

partir de la imagen capturada se seleccionan arbitrariamente 3 líneas rectas,

conformada cada una por lo menos por 3 puntos cuyas coordenadas en píxeles son

conocidas. Las coordenadas de cada punto seleccionado se estiman aplicando el

algoritmo de detección de esquinas de Harris (Harris y Stephens, 1988). Se deben

tabular estos puntos capturados para cada línea recta en Excel.

2. Estimación de los parámetros del modelo de distorsión radial: Al aplicar los pasos

ilustrados en la sección 5.2 sobre los datos medidos, se estiman los parámetros

104

(𝑢𝑃𝐶𝐷, 𝑣𝑃𝐶𝐷) y K1 del modelo de distorsión y se calcula las magnitudes al cuadrado de

los vectores de error asociado a la solución por mínimos cuadrados de cada ecuación

ilustrada en la sección 5.2, para evaluar el éxito del método tratando de reproducir las

coordenadas en píxeles de cada punto capturado. Los programas empleados para

dichos cálculos son el Derive y el Matlab.

7.2 Estimación de las Matrices de los Modelos Lineales de las Cámaras Empleando

Métodos de Calibración Lineal que Usan Plantillas Tridimensionales (Técnicas de

Hall, Homogénea y Faugeras)

Para estimar las matrices de los modelos lineales de las 2 cámaras que hacen parte del

sistema de estereoscopía implementado por el equipo de trabajo, usando las técnicas de

Hall, Homogénea y Faugeras, se propusieron los siguientes pasos:

1. Diseño de Plantilla Tridimensional: Las técnicas mencionadas exigen del uso de una

plantilla tridimensional reticulada de forma regular, y para tal fin se construyó una

plantilla de madera tipo MDF conformada por tres planos ortogonales entre sí, cuyas

dimensiones son 30X22X22 [cm] con espesores de 3 [mm]. Se procedió a imprimir en

papel bond una cuadricula tipo “ajedrez” con cuadrados con dimensiones de 2X2 cm.

En la figura 34 se ilustra la plantilla tridimensional elaborada por el grupo de trabajo.

105

Figura 34. Plantilla tridimensional elaborada para la calibración de las cámaras usando las

técnicas de Hall, Homogénea y Faugeras. La imagen es elaborada por los autores.

2. Proposición de sistema de referenciación para las medidas de las coordenadas de los

puntos 3D de la plantilla tridimensional.

Arbitrariamente se seleccionó un arreglo de cámaras y de la plantilla 3D ilustrado en la

figura 35, donde ambas cámaras están separadas una distancia d [m] y sus lentes

están a la misma altura h [m]. El sistema de referencia absoluto elegido WWW zyx

se ubicó justo en la cámara 1, de tal forma que el eje cartesiano Wy del sistema de

referencia fuese colineal con el eje cartesiano Cy . Esta decisión estuvo soportada en

la futura aplicación del sistema estereoscópico a diseñar, en un agente robótico móvil

que esté en la capacidad de medir el entorno 3D desde su “punto de vista”. La plantilla

tridimensional está a L [m] respecto a la cámara 1.

106

Figura 35. Sistema diseñado para la calibración de las cámaras empleando una

plantilla tridimensional. La imagen es elaborada por los autores.

3. Medición del ángulo de apertura de la cámara digital LifeCam Studio de Microsoft:

Las cámaras elegidas para hacer parte del sistema de visión estereoscópica, son de

referencia LIFECAM STUDIO de Microsoft, que captura imágenes de 1920X1080

píxeles HD (high definition) con formato de video YUY2, que cuenta además con un

excelente sistema óptico que atenúa considerablemente las distorsiones introducidas

por la lente. Las cámaras poseen un sistema mecánico que le permite al usuario

ajustar sus ángulos de elevación y azimutal entre 0 y 360º. Se sugiere garantizar que

dichos ángulos sean iguales a cero durante la prueba, para que solo exista la

transformación de traslación en los modelos de las cámaras.

Una pregunta interesante que surge durante el proceso de calibración, es ¿cuál debe

ser la distancia d [m] sugerida entre las cámaras, para garantizar que un punto de un

objeto sea capturado por los CCD’s de ambas cámaras?, cuestión vital en los

procesos de estereoscopía.

107

Para resolver este interrogante se procedió a obtener la expresión que rige el ángulo

de apertura horizontal de la cámara, que sirve para establecer cuál debe ser la

distancia mínima de separación entre las cámaras en función de la distancia mínima

de ubicación del objeto al sistema óptico y dicho ángulo de apertura.

En la figura 36 se ilustran las relaciones trigonométricas existentes entre el ángulo de

apertura θ, la distancia de separación d [m] de las cámaras, y la distancia de

separación dmin [m] entre el punto PA y las cámaras, donde el punto tridimensional está

ubicado en la medianería de las dos cámaras.

Figura 36. Esquema para hallar la distancia mínima de captura de un punto de un objeto

por ambas cámaras, teniendo en cuenta el ángulo de apertura y la distancia entre las

mismas, las líneas trazadas representan los rayos luminosos principales más extremos

que pueden ingresar a las cámaras y ser detectados por los CCDs. La imagen es


De la figura 36 se nota que:

tan (𝜃

2) =

𝑑

2𝑑𝑚𝑖𝑛

Por lo tanto:

108

𝑑𝑚𝑖𝑛 = 𝑑

2 tan (𝜃2)

Se propone por lo tanto ejecutar una prueba para la medición del ángulo de apertura

horizontal de la cámara, con la finalidad de establecer una expresión que sirva para

calcular la distancia mínima de un objeto a la cual ambas cámaras puedan capturar su

imagen.

En la figura 37 se ilustra la imagen de la prueba sugerida para medir el ángulo de apertura

horizontal de una (1) de las cámaras.

Figura 37. Prueba experimental sugerida para medir el ángulo de apertura horizontal para

cualquiera de las 2 cámaras. La imagen es propiedad de los autores.

La prueba consiste en medir la separación angular de los rayos luminosos más extremos

que provienen de 2 cilindros (para el caso tornillos), que pueden ser detectados por el

CCD de la cámara. Ambos cilindros están ubicados a una distancia radial r [m] de la lente.

Es necesario emplear un soporte graduado en grados como el enseñado en la figura 37,

para medir el ángulo de apertura. Los dos cilindros se ubican de tal forma, que sus

respectivas imágenes aparezcan en los bordes izquierdo y derecho del CCD, y luego se

procede a medir el ángulo de apertura. El centro del soporte graduado en grados debe

estar situado justo donde se encuentra la lente de la cámara.

A partir de la medición del ángulo de apertura es posible establecer cual debe ser la

distancia de separación d [m] entre ambas cámaras: La distancia d [m] debe ser

seleccionada de tal forma que garantice una distancia dmin [m] arbitraria a la cual debe

109

estar ubicada el objeto 3D de las cámaras, con la finalidad de garantizar que se pueda

capturar simultáneamente sus imágenes.

Esperamos que sea claro para el público lector que la plantilla de calibración debe estar a

una distancia superior a dmin para garantizar que los puntos capturados sean visibles por

ambas cámaras:

mindL

La figura 37 ilustra claramente el ángulo de apertura medido y es igual a º60 .

La distancia d se seleccionó arbitrariamente igual a 0.4 [m], por lo tanto:

m

dd 3464.0

30tan2

4.0

2tan2

ºmin

Así que la distancia L [m] se eligió igual a min53175.0 dmL .

La plataforma de calibración implementada tiene los siguientes valores para sus

parámetros:

mL 53175.0 , md 4.0 , mh 078.0

La plataforma de medición se implementó usando los materiales del Kit de Óptica marca

“Pasco” presente en la unidad de laboratorios de la Universidad de San Buenaventura

Seccional Medellín, sobre el cual se ubicaron las cámaras digitales y la plantilla

tridimensional. Este arreglo permitió medir las coordenadas de los puntos tridimensionales

de la plantilla desde el sistema de referencia absoluto presente en la cámara 1 con alta

precisión. En la figura 38 se ilustra la plataforma de medición elaborada por el equipo de

trabajo.

110

Figura 38. Plataforma de medición de coordenadas de los puntos de la plantilla

tridimensional, implementada con los accesorios presentes en el kit de óptica marca

“Pasco” de la Unidad de Laboratorios de la Universidad de San Buenaventura Seccional

Medellín. La imagen es de propiedad de los autores.

En la figura 39 se ilustra un esquema de la plataforma de medición ilustrando las

posiciones de las cámaras y de la plantilla.

111

Figura 39. Plataforma de medición implementada ilustrando el sistema de referencia

absoluto y la ubicación de las cámaras y de la plantilla tridimensional. La imagen es

elaborada por los autores.

El Sistema cartesiano que rige las coordenadas de los puntos de la plantilla se ilustra en

la figura 39:

112

Figura 39. Sistema cartesiano de referencia de la plantilla. Imagen elaborada por los

autores.

De las figuras 39 y 40 es posible verificar las siguientes expresiones útiles para medir las

coordenadas de los puntos seleccionados pertenecientes a la plantilla tridimensional:

PLANTILLAW xx 15.0 , )53175.0( PLANTILLAW yy , PLANTILLAW zz 078.0

4. Medición de las coordenadas en píxeles de los puntos de la plantilla tridimensional

presentes en las imágenes capturadas por las cámaras: Los puntos a capturar de la

plantilla son justo las esquinas de las cuadriculas de la plantilla, y sus coordenadas deben

ser medidas con precisión de subpíxel. Para la detección de las esquinas de las

cuadriculas de ajedrez y sus respectivas coordenadas en píxeles, se empleó el algoritmo

de detección de esquinas de Harris (Harris y Stephens, 1988). Los puntos a capturar no

pueden estar en un sólo plano de la plantilla para garantizar que el sistema de ecuaciones

esté bien condicionado. En los anexos se presenta el programa implementado en Matlab

para medir las coordenadas en píxeles de los puntos de la plantilla elegidos en las

pruebas de calibración. Las coordenadas en metros y en píxeles de los puntos elegidos

para las pruebas de calibración, se consignaran en tablas de Excel.

5. Estimación de las matrices de calibración usando plantillas tridimensionales: Aplicando los

pasos ilustrados en las secciones 5.1.1, 5.1.2 y 5.1.3 sobre los datos medidos, se estiman

las matrices de calibración y la magnitud al cuadrado del vector error asociado a la

113

estimación de cada matriz, para evaluar el éxito del método tratando de reproducir las

coordenadas en píxeles de cada punto capturado. Los programas empleados para dichos

cálculos son el Derive y el Matlab.

7.3 Estimación de los Parámetros Intrínsecos de los Modelos Lineales de las

Cámaras Empleando El Método de Calibración de Zhang

Para la estimación de los parámetros intrínsecos de cada una de las cámaras empleadas

a partir de la metodología propuesta por Zhang analizada en la sección 5.1.4, se

proponen los siguientes pasos:

3. Implementación de plantilla bidimensional: Se construyó una plantilla bidimensional

reticulada usando cuadrículas de ajedrez, con dimensiones de 30X22 [cm]. De nuevo

cada una de las cuadriculas empleadas tienen dimensiones arbitrarias de 2X2 [cm].

4. Sistema de referencia empleado para medir las coordenadas de los puntos elegidos

de la plantilla bidimensional: En la figura 40 se ilustra el sistema de referencia absoluto

del mundo puesto sobre la plantilla bidimensional.

Figura 40. Plantilla bidimensional empleada en la prueba de Zhang ilustrando el sistema

de referencia del mundo. La imagen es propiedad de los autores.

5. Medición de las coordenadas de los puntos elegidos para la prueba de Zhang

respecto al sistema de referencia de las imágenes: Como se ha explicado en la

114

sección 5.1.4, es necesario capturar 3 poses de la plantilla bidimensional con la

finalidad de estimar las 3 matrices de homografía requeridas por el método de Zhang

para estimar los parámetros intrínsecos de cada cámara. Usando la plataforma de

medición enseñada en la figura 39, se procede a capturar las poses de la plantilla

empleando las 2 cámaras. Los puntos a capturar de cada plantilla son justo las

esquinas de las cuadriculas de la plantilla, y sus coordenadas deben ser medidas con

precisión de subpíxel. Para la detección de las esquinas de las cuadriculas de ajedrez

y sus respectivas coordenadas en píxeles, se utiliza de nuevo el algoritmo de

detección de esquinas de Harris (Harris y Stephens, 1988). Las coordenadas en

metros y en píxeles de los puntos elegidos de la plantilla para las pruebas de

calibración, se consignaran en tablas de Excel.

Se sugiere que los puntos capturados no sean colineales para garantizar que los

sistemas de ecuaciones estén bien condicionados numéricamente.

Con la información tabulada se procede a estimar las matrices de homografía, los

elementos de la cónica absoluta y los parámetros intrínsecos para cada una de las

cámaras, a partir de la aplicación de la metodología explicada en la sección 5.1.4. Los

programas usados para dichos cálculos se implementaron con el Derive y el Matlab.

7.3 Estimación de las Coordenadas en Tres Dimensiones Empleando Visión

Estereoscópica

Con los parámetros estimados de los modelos propuestos para las cámaras, se procede a

construir el sistema de ecuaciones necesario para la estimación de la profundidad de los

objetos 3D usando la Técnica de Estereoscopía presentado en el capítulo 6. Para la

construcción del sistema de ecuaciones, fue necesario resolver el problema de la

correspondencia entre pixeles de dos imágenes provenientes de un mismo objeto, usando

por ejemplo un láser que permitía detectar puntos similares en las imágenes

bidimensionales, escogidos previamente por los estudiantes investigadores.

Una vez construido el sistema de ecuaciones necesario para le estimación de la

profundidad, programado el algoritmo de reconstrucción y resuelto el problema de

115

correspondencia, se llevó a cabo el último experimento, este consistía en la

reconstrucción y estimación de la profundidad de un Cubo de Rubik. Para este se tomaron

diferentes capturas del mismo objeto a diferentes distancias, con el objetivo de conocer

hasta donde eran válidas las ecuaciones halladas previamente, y que tan reales eran las

coordenadas del mundo entregadas.

Por último se implementó una GUIDE en Matlab para poner a prueba el sistema de visión

estereoscópica implementado por el grupo de trabajo.

116

8. RESULTADOS

8.1 Estimación de Modelo de Distorsión Radial.

A partir de la revisión del marco referencial, antes de realizar los experimentos de

calibración no lineal, se debe obtener el polinomio correspondiente a la distorsión radial,

distorsión que sufren las lentes de las cámaras a utilizar,

Figura 37. Captura de tres (3) líneas rectas en la cámara 1 y la cámara 2

respectivamente. Imagen propiedad de los autores.

117

En las tablas número 2 y 3 se ilustran los 6 puntos capturados en píxeles de las 3 líneas

rectas presentes en las imágenes de las cámaras 1 y 2.

Tabla 2

Puntos en pixeles correspondientes a las líneas rectas capturadas con la cámara número

uno (1). La tabla fue elaborada por los autores.

PUNTO 1

Up,Vp

[Píxeles]

PUNTO 2

Up,Vp

[Píxeles]

PUNTO 3

Up,Vp

[Píxeles]

PUNTO 4

Up,Vp

[Píxeles]

PUNTO 5

Up,Vp

[Píxeles]

PUNTO 6

Up,Vp

[Píxeles]

Línea 1 1063,372 1029,406 990,445 956,479 918,519 884,553

Línea 2 992,699 957,665 918,625 884,592 845,553 811,519

Línea 3 595,521 628,521 667,520 700,520 739,520 772,520

Tabla 3

Puntos en pixeles correspondientes a las líneas rectas capturadas con la cámara número

dos (2). La tabla fue elaborada por los autores.

PUNTO 1

Up,Vp

[Píxeles]

PUNTO 2

Up,Vp

[Píxeles]

PUNTO 3

Up,Vp

[Píxeles]

PUNTO 4

Up,Vp

[Píxeles]

PUNTO 5

Up,Vp

[Píxeles]

PUNTO 6

Up,Vp

[Píxeles]

Línea 1 1195,409 1160,441 1120,478 1085,510 1045,548 1010,580

Línea 2 709,717 745,684 787,645 822,613 864,575 899,542

Línea 3 945,397 944,431 942,470 940,504 939,544 937,578

118

Aplicando la metodología de Wang se obtienen los siguientes valores de los parámetros

𝑘1, 𝑢𝑃𝐶𝐷 𝑣𝑃𝐶𝐷 para la cámara 1 y la cámara 2 respectivamente.

Cámara uno:

𝑢𝑃𝐶𝐷 = 911.853 [𝑝𝑖𝑥𝑒𝑙𝑒𝑠]

𝑣𝐶𝐷 = 540.493 [𝑝𝑖𝑥𝑒𝑙𝑒𝑠]

𝐾1 = −7.4𝑋10−6

Cámara dos:

𝑢𝑃𝐶𝐷 = 1215.733 [𝑝𝑖𝑥𝑒𝑙𝑒𝑠]

𝑣𝑃𝐶𝐷 = 358.139 [𝑝𝑖𝑥𝑒𝑙𝑒𝑠]

𝐾1 = 2.548𝑋10−6

Al corroborar la calidad de las soluciones de los sistemas de ecuaciones, se encontró que

la magnitud del vector error correspondiente a las soluciones de los parámetros A, B y C

es del orden de 10000; lo cual implica que el modelo de distorsión radial no se ajusta a las

lentes de las cámaras.

De forma independiente se procedió a ajustar un polinomio lineal a cada una de las rectas

presentes en las imágenes, y efectivamente por lo tanto las cámaras no sufren de

distorsión radial ya que el modelo no se ajusta a las curvas de la imagen.

8.2 Técnicas de Calibración

Para el presente trabajo, se emplearon dos técnicas de calibración, escogidas estas por

las ventajas que presentaban frente a las demás; como la simplicidad en sus plantillas

(Zhang), o los parámetros que permitían conocer, en el caso de Zhang se encontraron los

parámetros intrínsecos y para la técnica lineal los extrínsecos.

119

8.2.1 Técnica de Zhang

A continuación, en la figura número 38, se ilustran las 3 diferentes capturas realizadas a

la plantilla de 2 dimensiones para las 2 cámaras, imágenes necesarias para el método de

calibración planteado por Zhang.

Figura 38. Captura en 3 posiciones de una plantilla bidimensional realizada por la cámara

número uno.


número dos.

En las siguientes tablas se logran observar los puntos en pixeles capturados para la

técnica de Zhang y su equivalente en metros.

120

Tabla 4

Coordenadas en pixeles y su equivalencia en metros de la imagen número uno capturada

por la cámara número uno. La tabla fue elaborada por los autores.

Punto 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑿𝑾 (m) 𝒁𝑾 (m)

1 616 309 0.02 0.2

2 1199 398 0.26 0.16

3 914 449 0.14 0.14

4 1012 543 0.18 0.10

5 723 647 0.06 0.06

6 1156 730 0.24 0.02

Tabla 5

Coordenadas en pixeles y su equivalencia en metros de la imagen número dos capturada



1 544 266 0.04 0.2

2 736 350 0.14 0.18

3 908 460 0.26 0.14

4 503 468 0.02 0.12

5 590 576 0.06 0.08

6 827 704 0.2 0.02

121

Tabla 6

Coordenadas en pixeles y su equivalencia en metros de la imagen número tres capturada



1 927 399 0.04 0.18

2 1454 495 0.28 0.16

3 1134 543 0.14 0.12

4 1347 652 0.24 0.08

5 987 699 0.06 0.04

6 1256 748 0.2 0.02

Tabla 7

Coordenadas en pixeles y su equivalencia en metros de la imagen número uno capturada

por la cámara número dos. La tabla fue elaborada por los autores.


1 1135 410 0.02 0.2

2 1325 628 0.22 0.06

3 1467 450 0.28 0.16

4 1255 554 0.16 0.1

5 1117 677 0.08 0.02

6 1143 524 0.06 0.12

122

Tabla 8

Coordenadas en pixeles y su equivalencia en metros de la imagen número dos capturada



1 646 444 0.02 0.2

2 741 576 0.06 0.08

3 853 548 0.14 0.1

4 931 454 0.2 0.18

5 996 477 0.24 0.16

6 1062 621 0.28 0.02

Tabla 9

Coordenadas en pixeles y su equivalencia en metros de la imagen número tres capturada



1 484 600 0.02 0.02

2 512 395 0.06 0.18

3 604 478 0.1 0.1

4 752 508 0.18 0.06

5 741 394 0.2 0.16

6 841 342 0.28 0.2

123

A partir de lo expuesto en el marco referencial sobre la técnica de calibración de Zhang,

se procede a enseñar los resultados obtenidos de la matriz B y los parámetros intrínsecos

relacionados a centro del plano imagen.

La matriz B de la cámara uno es igual a:

|0.000000300021268 0 −0.000298721890892

0 0.000000299826163 −0.000148806459950−0.000298721890892 −0.000148806459950 0.999999944310843

|

Por lo tanto, Las coordenadas de centro del plano imagen para la cámara uno son:

𝑢𝑐𝑝 =−𝐵13𝐵11

= 995.669049 [𝑃𝑖𝑥𝑒𝑙𝑒𝑠]

𝑣𝑐𝑝 =−𝐵23𝐵22

= 496.3091 [𝑃𝑖𝑥𝑒𝑙𝑒𝑠]

La matriz B de la cámara dos es igual a:

|−0.000000258278049 0 0.000269126510552

0 −0.000000258016638 0.0001783959325830.000269126510552 0.000178395932583 −0.999999947872838

|

Por lo tanto, Las coordenadas de centro del plano imagen para la cámara dos son:

𝑈𝐶𝑝 =−𝐵13𝐵11

= 1042 [𝑃𝑖𝑥𝑒𝑙𝑒𝑠]

𝑉𝐶𝑝 =−𝐵23𝐵22

= 691.412 [𝑃𝑖𝑥𝑒𝑙𝑒𝑠]

8.2.2 Técnicas lineales

A continuación, en las figuras 40 y 41, se ilustran las capturas realizadas por cada una

de las cámaras de la plantilla 3 - dimensional; necesarias estas imágenes para desarrollar

la técnica de calibración lineal.

124

Figura 40. Captura de la plantilla 3D realizada por la cámara 1.

Figura 41. Captura de la plantilla 3D realizada por la cámara 2.

En las tablas que a continuación se muestran se plasman los puntos elegidos para

realizar el proceso de calibración, con sus respectivas coordenadas en pixeles y metros.

125

Tabla 10.

Puntos elegidos de la captura realizada de la cámara 1. La tabla fue elaborada por los

autores.

Puntos 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑿𝑾 (m) 𝒀𝑾 (m) 𝒁𝑾 (m)

1 736 260 -0.12 -0.65175 0.125

2 1004 479 0 -0.65175 0.025

3 868 657 -0.06 -0.65175 -0.055

4 632 775 -0.12 -0.45175 -0.075

5 1114 736 0.04 -0.55175 -0.075

6 1374 245 0.16 -0.63175 0.125

7 1428 417 0.16 -0.55175 0.045

8 1519 711 0.16 -0.45175 -0.055

Tabla 11

Puntos elegidos de la captura realizada de la cámara 2. La tabla fue elaborada por los

autores.

Puntos 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑿𝑾 (m) 𝒀𝑾 (m) 𝒁𝑾 (m)

1 496 310 0.17 -0.75175 0.128

2 968 701 0.41 -0.73175 -0.072

3 1072 378 0.45 -0.57175 0.068

4 769 542 0.31 -0.75175 0.008

126

5 562 721 0.23 -0.65175 -0.072

6 1057 490 0.45 -0.65175 0.028

7 887 422 0.37 -0.75175 0.068

8 768 746 0.33 -0.55175 -0.072

Técnica no Homogénea – término 𝑪𝟑𝟒 = 𝟏

A partir de lo expuesto en el marco referencial sobre la técnica de calibración no

homogénea, se procede a enseñar los resultados obtenidos.

Para esta primera técnica sólo es necesario emplear seis (6) de los ocho (8) enseñados

en la tabla anterior.

La matriz C de la cámara uno (1) es:

𝐶 = |1.62132336 ∗ 104 −9877.494103 1015.495789−380.5964446 −4953.311798 − 1.603356864 ∗ 104

−0.6557885837 −9.805073302 1.190052328

986.0031849713.0750239

1|

A continuación se enseña una tabla que muestra el valor de los pixeles medidos a través

de Matlab y su valor calculado con la matriz C hallada.

127

Tabla 12

Valor de los pixeles medidos a través de Matlab y su valor calculado con la matriz C

hallada, para la cámara uno (1). La tabla fue elaborada por los autores.

Puntos 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑼𝑷 Calculado 𝑽𝑷 Calculado

1 736 260 735.7675010 260.2908253

2 1004 479 1003.886620 477.1506205

3 868 657 868.3743775 658.0455053

4 632 775 632.3095002 774.8687661

5 1114 736 1113.403463 736.1006115

6 1374 245 1374.262173 245.5364343

La matriz C de la cámara uno (2) es:

𝐶 = |− 3.293687566 ∗ 104 2.039686027 ∗ 104 −1857.717426−778.7887997 1.295171826 ∗ 104 3.017066898 ·∗ 104

−1.591403643 22.27587554 −2.825206627

1.304832169 ∗ 104

927.92276231

|



Tabla 13

128


hallada, para la cámara dos (2). La tabla fue elaborada por los autores.


1 496 310 495.9120578 310.1149715

2 968 701 968.1265741 701.0467591

3 1072 378 1072.523714 377.7199662

4 769 542 769.3054303 541.6729032

5 562 721 561.8820552 721.0609030

6 1057 490 1056.268600 490.3773759

Técnica homogénea, |𝑪| = 𝟏

A partir de lo expuesto en el marco referencial sobre la técnica de calibración homogénea,

se procede a enseñar los resultados obtenidos.

Para esta técnica fue necesario emplear los ocho (8) enseñados en la tablas número 10 y

11.

Para este caso la matriz C para la cámara uno (1):

𝐶

= |−0.638831249671722 0.391461800108568 −0.0322558267776590.011869144753209 0.202651922090391 0.628811943020495 0.000016413093913 0.000392494914295 −0.000036083294110

−0.034159414260843 −0.021685855602661−0.000032223582720

|



129

Tabla 14


hallada, para la cámara uno (1). Técnica homogénea |𝐶| = 1. La tabla fue elaborada por

los autores.


1 736 260 735.8843717 260.0471881

2 1004 479 1004.038333 477.7694539

3 868 657 868.2669363 658.6750690

4 632 775 632.1147876 775.0085202

5 1114 736 1113.449018 734.1914710

6 1374 245 1374.251462 245.3699258

7 1428 417 1427.607310 416.9155130

8 1519 711 1519.409709 712.0714728

Para este caso la matriz C para la cámara dos (2):



Tabla 15

130


hallada, para la cámara dos (2). Técnica homogénea |𝐶| = 1. La tabla fue elaborada por

los autores.


1 496 310 496.1447654 309.5601630

2 968 701 968.0728033 700.9366241

3 1072 378 1072.333899 378.6600376

4 769 542 769.351253 541.1725456

5 562 721 562.5756169 722.2761973

6 1057 490 1057.864081 489.2719711

7 887 422 885.7975539 423.0368345

8 768 746 766.8167051 745.0664436

Técnica de Faugeras

A partir de lo expuesto en el marco referencial sobre la técnica de calibración de Faugeras

(1992), se procede a enseñar los resultados obtenidos.

Para esta técnica fue necesario emplear los ocho (8) enseñados en la tabla número

Tabla 16

131


hallada, para la cámara uno (1). Técnica Faugeras. La tabla fue elaborada por los autores.


1 736 260 735.9015266 260.0293742

2 1004 479 1004.015234 477.8216061

3 868 657 868.3108563 658.6553356

4 632 775 632.1027798 775.0343748

5 1114 736 1113.381132 734.1491570

6 1374 245 1374.233303 245.3748433

7 1428 417 1427.575251 415.6081498

8 1519 711 1519.467892 712.0780050

Tabla 17


hallada, para la cámara dos (2). Técnica Faugeras. La tabla fue elaborada por los autores.


1 496 310 496.1447654 309.5601630

2 968 701 968.0728033 700.9366241

3 1072 378 1072.333899 378.6600376

4 769 542 769.351253 541.1725456

5 562 721 562.5756169 722.2761973

132

6 1057 490 1057.864081 489.2719711

7 887 422 885.7975539 423.0368345

8 768 746 766.8167051 745.0664436

A continuación se ilustran los gráficos comparativos de las matrices de calibración de la

cámara uno y dos, matrices encontradas con las técnicas lineales de Faugeras, técnica

homogénea y Zhang. Ambas cámaras son de buena calidad, de los experimentos

enseñados anteriormente, se puede concluir que no sufren distorsión radial. Se realizó la

captura de la plantilla tridimensional con una resolución de 1920x1080 pixeles.

0

200

400

600

800

1000

1200

1400

1600

0 1 2 3 4 5 6 7 8 9

Píx

el e

qu

ival

en

te

Número del punto capturado

Up - Cámara 1

Puntos Reales No homogenea Homogenea Faugeras

133

0

200

400

600

800

1000

0 1 2 3 4 5 6 7 8 9

Píx

el e

qu

ival

en

te


Vp - Cámara 1


0

200

400

600

800

1000

1200

1 2 3 4 5 6 7 8

Pix

el e

qu

ival

en

te


Up - Cámara 2


134

Figura 42. Grafico comparativo donde se ilustran cada una de las coordenadas (Up-Vp), la

línea de tendencia de los puntos reales en la plantilla de calibración tridimensional y las

líneas de tendencia de los puntos encontrados por las matrices de calibración halladas

por las técnicas homogénea, Faugeras y Zhang (No homogéneas).

Finalmente se realizó una prueba con un cubo de Rubik, con el objetivo de probar los

diferentes métodos de calibración expuestos anteriormente a diferentes distancias con

respecto al eje Y. A continuación se muestran las tablas donde se indican los resultados

del proceso metrológico de las esquinas del objeto.

Figura 43. Capturas para estimación de coordenadas tridimensionales de un cubo de

rubik.

0

100

200

300

400

500

600

700

800

0 1 2 3 4 5 6 7 8 9

Pix

el e

qu

ival

en

te


Vp - Cámara 2


135

Dónde

𝐴𝐵 = 𝐵𝐷 = 𝐶𝐷 = 𝐶𝐴 = 5.3𝑐𝑚

Tabla 19.

Estimación de las coordenadas tridimensionales de las esquinas del cubo aplicando la

técnica homogénea a un (1) metro de distancia del centro de referencia. La tabla fue


Punto 𝑿𝑾 (𝒎) 𝒀𝑾 (𝒎) 𝒁𝑾 (𝒎)

A 0.0825 -1.0643 -0.0334

B 0.1371 -1.0790 -0.0323

C 0.0831 -1.0725 -0.0886

D 0.1371 -1.0790 -0.0878

136

Tabla 20.


técnica homogénea a 1.25 metros de distancia del centro de referencia. La tabla fue



A 0.0552 -1.3142 0.0113

B 0.1068 -1.3032 0.0100

C 0.0527 -1.3270 -0.0445

D 0.1071 -1.3370 -0.0453

Tabla 21.





A 0.0520 -1.6298 0.0076

B 0.1072 -1.6451 0.0083

C 0.0516 -1.6341 -0.0486

D 0.1063 -1.6583 -0.0508

137

Tabla 22.





A 0.0462 -1.9523 -0.0282

B 0.0992 -1.9643 -0.0251

C 0.0470 -1.9564 -0.0850

D 0.1010 -1.9891 -0.0844

Técnica de Faugeras

Tabla 23.


técnica de Faugeras a un (1) metro de distancia del centro de referencia. La tabla fue



A 0.0826 -1.0629 -0.0329

B 0.1372 -1.0693 -0.0322

C 0.0833 -1.0709 -0.0884

D 0.1373 -1.0773 -0.0876

138

Tabla 24.


técnica de Faugeras a 1.25 metros de distancia del centro de referencia. La tabla fue



A 0.0553 -1.3120 0.0114

B 0.1089 -1.3047 0.0102

C 0.0528 -1.3247 -0.0444

D 0.1072 -1.3346 -0.0452

Tabla 25.





A 0.0521 -1.6265 0.0077

B 0.1073 -1.6306 0.0084

C 0.0518 -1.6341 -0.0485

D 0.1064 -1.6548 -0.0507

139

Tabla 26.





A 0.0464 -1.9478 -0.0280

B 0.0994 -1.9598 -0.0250

C 0.0473 -1.9517 -0.0849

D 0.1012 -1.9843 -0.0843

Técnica de Zhang

Tabla 27


técnica de Zhang a un (1) metro de distancia del centro de referencia. La tabla fue



A 0.0788 -0.8594 -0.0137

B 0.1239 -0.8686 -0.0125

C 0.0806 -0.8566 -0.0599

D 0.1254 -0.8627 -0.0588

140

Tabla 28.


técnica de Zhang a un 1.25 metros de distancia del centro de referencia. La tabla fue



A 0.0606 -0.9892 0.0252

B 0.1024 -0.9989 0.0249

C 0.0601 -0.9878 -0.0183

D 0.1022 -0.9963 -0.0184

Tabla 29





A 0.0669 -1.1079 0.0241

B 0.1065 -1.1129 0.0250

C 0.0682 -1.0992 -0.0159

D 0.1069 -1.1114 -0.0167

141

Tabla 30





A 0.0752 -1.1738 0.0019

B 0.1069 -1.1967 0.0049

C 0.0765 -1.1699 -0.0341

D 0.1100 -1.1896 -0.0327

A continuación, conociendo las medidas reales del cubo, se ilustran los gráficos

comparativos de la estimación de las coordenadas tridimensionales del objeto real

ubicado en distintas profundidades.

0

0.01

0.02

0.03

0.04

0.05

0.06

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

Dis

tan

cia

en

me

tro

s e

ntr

e e

squ

inas

Número del punto equivalente a las esquinas A,B,C,D

Estimación 3D a 1 metro de distancia

Dimension Real Zhang Homogeneas Faugeras

142

0

0.01

0.02

0.03

0.04

0.05

0.06

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

Dis

tan

cia

en

me

tro

s e

ntr

e e

squ

inas


Estimación 3D a 1.25 metros de distancia

Dimension Real Zhang Homogeneas Faugeras

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

Dis

tan

cia

en

me

tro

s e

ntr

e e

squ

inas


Estimación 3D a 1.5 metros de distancia

143

Figura 44. Gráfico comparativo de la estimación de las coordenadas X y Z del objeto

tridimensional, donde se ilustran las distancias entre las esquinas del objeto real y la

estimación realizada por las distintas técnicas de calibración. Procedimiento realizado a

distintas profundidades con respecto al centro de referencia. Las gráficas fueron

elaboradas por los autores.

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

Dis

tan

cia

en

me

tro

s e

ntr

e e

squ

inas


Estimación 3D a 1.75 de distancia

144

Finalmente se ilustra un gráfico comparativo que ilustra la estimación de la coordenada

equivalente a la profundidad del objeto en las distintas posiciones.

Figura 45. Gráfico comparativo entre la distancia real del objeto en las distintas posiciones

de captura y la estimación de la profundidad en promedio realizada por las distintas

técnicas de calibración. Las gráficas fueron elaboradas por los autores.

0

0.5

1

1.5

2

2.5

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

Dis

tan

cia

en

me

tro

s

Número de la posición

Real Zhang Homogeneas Faugeras

145

9. CONCLUSIONES

A partir de la revisión de los resultados obtenidos, se procede a dar como conclusión los

beneficios y desventajas sobre el uso de las diferentes técnicas de calibración empleadas:

Técnica de Zhang, Técnica homogénea, Técnica no homogénea y Técnica de Faugeras,

en la estimación de coordenadas tridimensionales del entorno.

- La técnica de calibración de Zhang, versátil en la sencillez de sus plantillas

bidimensionales y suministrando valores importantes tales como los parámetros

intrínsecos de la cámara, no logra estimar con gran precisión las coordenadas

tridimensionales de un objeto real, generando errores en el cálculo de la

profundidad y en las medidas reales del mismo.

Los errores se deben al ingreso de los parámetros extrínsecos manualmente

conociendo, en base al montaje experimental, las matrices de rotación y traslación

de ambas cámaras. Por lo tanto, la técnica de calibración de Zhang debe ser

complementada con una técnica de calibración lineal para mayor precisión en

reconstrucción de entornos tridimensionales.

- Las técnicas de calibración lineal tienen un coeficiente de correlación alto, por lo

tanto, la matriz de calibración planteada al aplicar la técnica de Faugeras genera

un punto tridimensional similar a los puntos generados con las matrices de

calibración producidos por las técnicas lineales homogénea y no homogénea;

Siendo las técnicas de Faugeras y la técnica lineal homogénea más precisas.

- Los parámetros de la matriz de calibración obtenidos por la técnica Faugeras y la

técnica lineal homogénea permitieron una estimación con alta precisión de

distintas coordenadas tridimensionales del elemento en un rango de profundidad

de 0.8 metros a 1.25 metros desde el centro de las cámaras al objeto.

146

Trabajos Futuros

En aplicaciones de navegación robótica es necesario tener un mayor alcance de

profundidad para estimar las coordenadas del entorno tridimensional, por lo tanto, se

propone definir una nueva plantilla que permita la calibración de las cámaras a cortas y

largas distancias y verificar su comportamiento en la reconstrucción 3D.

Analizar el comportamiento de las técnicas de Correlación y de Geometría Epipolar y sus

algoritmos, para determinar la correspondencia entre pixeles de 2 imágenes capturadas

con el sistema de visión estereoscópica artificial.

Seleccionar una técnica para la interpolación de superficies sobre los puntos 3-D

estimados por el sistema de visión estereoscópica bajo condiciones de luz controlada, y

aplicarla para la reconstrucción de objetos 3 – D.

147

10. LISTA DE TABLAS

Tabla 1. Tabla comparativa entre las diferentes técnicas de reconstrucción 3D……….13-

14

Tabla 2. Puntos en pixeles correspondientes a las líneas rectas capturadas con la cámara

número uno (1)………………………………………………………………………………….107

Tabla 3. Puntos en pixeles correspondientes a las líneas rectas capturadas con la cámara

número uno (2)…………………………………………………………………………………108

Tabla 4. Coordenadas en pixeles y su equivalencia en metros de la imagen número uno

capturada por la cámara número uno………………………………………………………..110

Tabla 5. Coordenadas en pixeles y su equivalencia en metros de la imagen número dos

capturada por la cámara número uno.110

Tabla 6. Coordenadas en pixeles y su equivalencia en metros de la imagen número tres

capturada por la cámara número uno.111

Tabla 7. Coordenadas en pixeles y su equivalencia en metros de la imagen número uno

capturada por la cámara número dos.111

Tabla 8. Coordenadas en pixeles y su equivalencia en metros de la imagen número dos


Tabla 9. Coordenadas en pixeles y su equivalencia en metros de la imagen número tres


Tabla 10. Puntos elegidos de la captura realizada de la cámara 1.115

Tabla 11.Puntos elegidos de la captura realizada de la cámara 2.116

Tabla 12. Valor de los pixeles medidos a través de Matlab y su valor calculado con la

matriz C hallada, para la cámara uno (1) 117


matriz C hallada, para la cámara dos (2)117

148


matriz C hallada, para la cámara uno (1). Técnica homogénea |𝐶| = 1……………..118


matriz C hallada, para la cámara dos (2). Técnica homogénea |𝐶| = 1 ……………….120


matriz C hallada, para la cámara uno (1). Técnica Faugeras …………………………..121


matriz C hallada, para la cámara dos (2). Técnica Faugeras……………………….. ….125

Tabla 19. Estimación de las coordenadas tridimensionales de las esquinas del cubo

aplicando la técnica homogénea a un (1) metro de distancia del centro de

referencia……………………………………………………………………………………….123


aplicando la técnica homogénea a 1.25 metros de distancia del centro de

referencia…………………………………………………………………………………………126



referencia………………………………………………………………………………………..126



referencia…………………………………………………………………………………………126


aplicando la técnica de Faugeras a un (1) metro de distancia del centro de

referencia………………………………………………………………………………………..127


aplicando la técnica de Faugeras a 1.25 metros de distancia del centro de

referencia………………………………………………………………………………………..127

149



referencia……………………………………………………………………………………….128



referencia………………………………………………………………………………………...128


aplicando la técnica de Zhang a un (1) metro de distancia del centro de

referencia………………………………………………………………………………………...129


aplicando la técnica de Zhang a un 1.25 metros de distancia del centro de

referencia………………………………………………………………………………………...129



referencia………………………………………………………………………………………...130



referencia………………………………………………………………………………………..130

150

11. LISTA DE FIGURAS

Figura 1. Subsistemas que componen a una cámara digital…………………………...……15

Figura 2: Fotografía de un CCD de una cámara webcam digital…………………………....16

Figura 3. Modelo de la Lente Delgada………………………………………………………....19

Figura 4. Fenómeno del desenfoque………………………………………………………...…20

Figura 5. Obtención de las expresiones que rigen las coordenadas del punto P’ sobre el

CCD………………………………………………………………………………………………...21

Figura 6. Rayo luminoso del punto P que interviene en la formación del punto P’ sobre el

CCD, bajo el referente teórico del modelo de Pin-Hole …………………………………….23

Figura 7. Vista superior del trazado de rayos de la lente bajo el modelo de Pin-Hole……24

Figura 8. Vista lateral del modelo de Pin-Hole de la lente……………………………………25

Figura 9. Aberración esférica provocada por la refracción anomala de los rayos en la

lente………………………………………………………………………………………………...27

Figura 10. Aberración tipo coma. Nótese la aparición anómala de 3 puntos focales.…….27

Figura 11. Aberración tipo “Astigmatismo”. Nótese de la existencia de dos focos para los

rayos que cruzan por los ejes vertical y horizontal de la lente……………………...……….28

Figura 12. Trazado de los rayos luminosos en el fenómeno de la aberración de curvatura

de campo, para tres situaciones distintas de un objeto………………………………………29

Figura 18. Imagen de un punto P’ sobre un plano de formación de imagen ilustrando el

efecto de distorsión introducida por la lente: Punto 1, ubicación de P’ en lente sin

distorsión, Puntos 2 y 3 ubicación de P’ en lente con distorsión radial y

tangencial………………………………………………………………………………….………30

Figura 19: Plano de imagen ilustrando el efecto de distorsión radial sobre un punto P’: El

punto P’ se desplaza hacia una nueva ubicación P…………………………………………..31

Figura 20. Modelo geométrico de la lente gruesa……………………………………………37

151

Figura 21. Diagrama de propagación de rayos en un modelo de lente biconvexa gruesa.38

Figura 22. Modelo aproximado de una cámara de video…………………………………….40

Figura 23. CCD ilustrando los sistemas de referencia cartesianos '' zx y vu ………..42

Figura 24. Medición del punto P desde los Sistemas de Referencia absoluto WWW zyx

y respecto al sistema de referencia de la cámara…………………………………………….46

Figura 25. Sistemas cartesianos de referencia, 𝑋𝑊 − 𝑌𝑊 − 𝑍𝑊 y 𝑋𝑇 − 𝑌𝑇 − 𝑍𝑇………....47

Figura 26. Posibles rotaciones del sistema RRR zyx , respecto al sistema

WWW zyx ……………………………………………………………………………………... 49

Figura 27: Sistemas de referencia (𝑥𝑤 , 𝑦𝑤 , 𝑧𝑤) y sistema de referencia rotado alrededor del

eje Z en 𝜃𝑍 [Radianes]……………………………………………………………………………50

Figura 28. Sistema de referencia del mundo (𝑥𝑤 , 𝑦𝑤 , 𝑧𝑤), sistema de referencia rotado

(𝑥𝑟, 𝑦𝑟, 𝑧𝑟), cuando se aplica una rotación 𝜃𝑥 respecto al eje 𝑋 ……………………………..52

Figura 29. Sistema de referencia del mundo (𝑥𝑤 , 𝑦𝑤 , 𝑧𝑤), sistema de referencia rotado

(𝑥𝑟, 𝑦𝑟, 𝑧𝑟), cuando se aplica una rotación 𝜃𝑌 respecto al eje 𝑌 ……………………………..54

Figura 30. Diagrama ilustrativo de algunas técnicas o métodos empleados para calibrar

cámaras……………………………………………………………………………………………68

Figura 31. Ejemplos de tipos de plantillas empleadas para calibración de cámaras……..70

Figura 32. Plantilla de calibración de Zhang ilustrando el sistema de referencia absoluto

puesto sobre ella………………………………………………………………………………….87

Figura 33. Plano imagen con 3 líneas rectas distorsionadas por efectos de la distorsión

radial introducida por la lente……………………………………………………………………96

Figura 34. Metodología implementada………………………………………………………..102

Figura 35. Montaje experimental para medir el ángulo de apertura θ…………….........105

Figura 36. Esquema para hallar la distancia mínima de captura de un punto de un objeto

por ambas cámaras, teniendo en cuenta el ángulo de apertura y la distancia entre las

mismas………………………………………………………………………………………….106

152

Figura 37. Captura de tres (3) líneas rectas en la cámara 1 y la cámara 2

respectivamente…………………………………………………………………………………107


número uno………………………………………………………………………………………109


número dos…………………………………………………………………………………….109

Figura 40. Captura de la plantilla 3D realizada por la cámara 1………………………….114

Figura 41. Captura de la plantilla 3D realizada por la cámara 2…………………………115

Figura 42. Grafico comparativo donde se ilustran cada una de las coordenadas (Up-Vp), la

línea de tendencia de los puntos reales en la plantilla de calibración tridimensional y las

líneas de tendencia de los puntos encontrados por las matrices de calibración halladas

por las técnicas homogénea, Faugeras y Zhang (No

homogéneas)…………………………………………………………………………….……122

Figura 43. Capturas para estimación de coordenadas tridimensionales de un cubo de

rubik……………………………………………………………………………………………….124

Figura 44. Gráfico comparativo de la estimación de las coordenadas X y Z del objeto

tridimensional, donde se ilustran las distancias entre las esquinas del objeto real y la

estimación realizada por las distintas técnicas de calibración. Procedimiento realizado a

distintas profundidades con respecto al centro de referencia

…………………………………………………………………………………………………….132

Figura 45. Gráfico comparativo entre la distancia real del objeto en las distintas posiciones

de captura y la estimación de la profundidad en promedio realizada por las distintas

técnicas de calibración ……………………………………………………………………….133

153

12. ANEXOS

A continuación se ilustra el código fuente realizado en el software MATLAB para los

procesos requeridos en el presente trabajo de grado, Tales como: Captura de imágenes

con detección de bordes, Método numérico de LEVENBERG – MARQUART,

Código en MATLAB para capturar 2 imágenes con detección de bordes:

clear all

info=imaqhwinfo('winvideo',1)

info.SupportedFormats

obj1=videoinput('winvideo',1,'YUY2_1920x1080')

obj2=videoinput('winvideo',2,'YUY2_1920x1080')

set(obj1,'ReturnedColorSpace','rgb');

set(obj2,'ReturnedColorSpace','rgb');

src1=getselectedsource(obj1);

src1.FocusMode='manual';

src1.Focus=13;

src2=getselectedsource(obj2);

src2.FocusMode='manual';

src2.Focus=13;

preview(obj1)

preview(obj2)

154

s=input('start','s')

if s=='y'

for i=1:20

A=getsnapshot(obj1);

B=getsnapshot(obj2);

end

closepreview(obj1)

closepreview(obj2)

end

155

-Código en MATLAB para capturar 2 imágenes al mismo tiempo, aplicando un delay para

corregir ruido a la captura, Además es posible ingresar los pixeles capturados por ambas

cámaras para estimar las coordenadas 3D del punto con la matriz de calibración

escogida.

clc

clear all

F=2.7e-3;

LX=3.2e-3;

LY=2.4e-3;

alfa=(1920/LX);

beta=(1080/LY);

uc=LX/2;

vc=LY/2;

thetax=0;

thetay=0;

thetaz=0*(pi/180);

xmc1=0;

ymc1=0;

zmc1=0;

156

xmc2=0.4;

ymc2=0;

zmc2=0;

XC1=[xmc1,ymc1,zmc1]

XC1P=[-xmc1,ymc1,-zmc1]';

XC2P=[-xmc2,ymc2,-zmc2]';

RZ=[cos(thetaz),sin(thetaz),0;-sin(thetaz),cos(thetaz),0;0,0,1];

RY=[cos(thetay),0,-sin(thetay);0,1,0;sin(thetay),0,cos(thetay)];

RX=[1,0,0;0,cos(thetax),sin(thetax);0,-sin(thetax),cos(thetax)];

R3X3=RX*RY*RZ;

R=[R3X3,zeros(3,1);zeros(1,3),1];

IP=[1,0,0;0,-1,0;0,0,1];

T1=[IP,XC1P;zeros(1,3),1];

T2=[IP,XC2P;zeros(1,3),1];

%K1=[alfa,0,0;0,beta,0;0,0,1]*[-1,0,uc;0,1,vc;0,0,1]*[-F,0,0,0;0,0,-

F,0;0,1,0,0];

KA=1.0e+03

*[1.519361175274338,1.042003032128384,0,0;0,0.691412513947172,-

1.520130654958184,0;0,0.001000000000000,0,0];%MATRIZ INTIRINSECOS ZHANG

KB=1.0e+03

*[1.825677144927177,1.255703571230467,0,0;0,0.625928001208021,-

1.826271057684180,0;0,0.001261165617011,0,0];%MATRIZ INTRINSECOS ZHANG

157

CA=KA*R*T1;%MATRIZ CALIBRACION ZHANG

CB=KB*R*T2;%MATRIZ CALIBRACION ZHANG

% XH1=KA*R*T1*XM1;

%

% XH2=KB*R*T2*XM1;

%CA=[-0.638331249671722,0.391461800108568,-0.032255826777659,-

0.034159414260843;0.011869144753209,0.202651922090391,0.628811943020495,-

0.021685855602661;0.000016413093913,0.000392494914295,-

0.000036083294110,-0.000032223582720];%CALIBRACION HOMOGENEA

%CB=[0.628530822673497,-0.373164172713265,0.028446800460990,-

0.233726587897077;0.001244109778124,-0.227904172277804,-

0.598588126159087,0.003224962086787;0.000013988913322, -

0.000400443946672,0.000038329533194,0.000008720522385];%CALIBRACION

HOMOGENEA

% CA=[-1614.129034, 992.3171971, -79.28266168, -84.98335252; 29.78068426,

514.1651679, 1591.393878, -53.85726869; 0.04113811554, 0.9952048578, -

0.08874089463, -0.07993063524];%FAUGERAS CAMARA 1

% CB=[-1556.310457, 926.7248634, -70.36447196, 580.8589685; -3.93183499,

566.2798916, 1481.016398, -6.150748341; -0.0355875172, 0.9947978916, -

0.09544989937, -0.01871632962];%FAUGERAS CAMARA 2

%

% XH1=CA*XM1;

% XH2=CB*XM1;

%

158

%

%

% up1=round(XH1(1,1)/XH1(3,1))

% vp1=round(XH1(2,1)/XH1(3,1))

%

% up2=round(XH2(1,1)/XH2(3,1))

% vp2=round(XH2(2,1)/XH2(3,1))

upA(1)=1067;

vpA(1)=511;

upB(1)=544;

vpB(1)=553;

upA(2)=1130;

vpA(2)=513;

upB(2)=609;

vpB(2)=553;

upA(3)=1064;

vpA(3)=576;

159

upB(3)=544;

vpB(3)=618;

upA(4)=1128;

vpA(4)=577;

upB(4)=609;

vpB(4)=617;

for i=1:4

L=[CA(3,1)*upA(i)-CA(1,1),CA(3,2)*upA(i)-CA(1,2), CA(3,3)*upA(i)-

CA(1,3);CA(3,1)*vpA(i)-CA(2,1),CA(3,2)*vpA(i)-CA(2,2),CA(3,3)*vpA(i)-

CA(2,3);CB(3,1)*upB(i)-CB(1,1),CB(3,2)*upB(i)-CB(1,2),CB(3,3)*upB(i)-

CB(1,3);CB(3,1)*vpB(i)-CB(2,1),CB(3,2)*vpB(i)-CB(2,2),CB(3,3)*vpB(i)-

CB(2,3)];

b=[-(-CA(1,4)+CA(3,4)*upA(i));-(-CA(2,4)+CA(3,4)*vpA(i));-(-

CB(1,4)+CB(3,4)*upB(i));-(-CB(2,4)+CB(3,4)*vpB(i))];

XW=inv((L'*L))*L'*b

xw(i)=XW(1);

yw(i)=XW(2);

zw(i)=XW(3);

end

-Método de LEVENBERG – MARQUART para el cálculo de la Matriz B de la cámara 1

160

1) Función: Función

function f=funcion(B11,B13,B22,B23,B33)

f=0.3308350528*B11^2 - 1.403946988*10^(-31)*B11*(1.195767620*10^27*B13 +

1.05927209*10^8*(1.116865755*10^22*B22 -

2.696335*10^6*(8.302988517*10^12*B23 - 2.987212129*10^9*B33))) +

2.208252920*10^(-7)*B13^2 + B13*(0.0003472350424*B22 - 4.431373368*10^(-

7)*B23 - 2.354065570*10^(-11)*B33) + 0.2959688678*B22^2 -

4.647828601*10^(-17)*B22*(7.733041830*10^12*B23 + 2.86035336*10^9*B33) +

6.756162310*10^(-7)*B23^2 + 8.618607212*10^(-11)*B23*B33 +

4.505274300*10^(-14)*B33^2;

2) Función: Jacobiano

function J=jacobiano(B11,B13,B22,B23,B33)

J = [0.2526536166, 0.0002632593509, 0.01569635682, - 3.82635436*10^(-6),

- 1.026874304*10^(-8); 0.507300575, -0.0002713951881, -0.1359206561,

0.00026134444, - 1.207753195*10^(-7); -0.0001496419863, 6.573928045*10^(-

5), 0.3108274977, 0.0001818392582, - 1.073010263*10^(-7); 0.06710151165,

-0.0002195779197, -0.2828780892, 0.0007310479076, 1.16185008*10^(-7); -

0.05885245614, 6.707813868*10^(-5), 0.170094493, 0.0001779985025,

1.545584153*10^(-8); -0.04100100816, -0.0001443220903, -0.2677352882,

9.011464022*10^(-5), 7.14791495*10^(-8)];

3) Función: Error

function E=error(B11,B13,B22,B23,B33)

161

E = [0.2526536166*B11 + 0.0002632593509*B13 + 0.01569635681*B22 -

3.826354359*10^(-6)*B23 - 1.026874304*10^(-8)*B33; 0.5073005750*B11 -

0.0002713951880*B13 - 0.1359206560*B22 + 0.0002613444399*B23 -

1.207753195*10^(-7)*B33; - 0.0001496419862*B11 + 6.573928044*10^(-5)*B13

+ 0.3108274976*B22 + 0.0001818392582*B23 - 1.073010262*10^(-7)*B33;

0.06710151164*B11 - 0.0002195779197*B13 - 0.2828780891*B22 +

0.0007310479076*B23 + 1.161850080*10^(-7)*B33; - 0.05885245614*B11 +

6.707813868*10^(-5)*B13 + 0.1700944930*B22 + 0.0001779985025*B23 +

1.545584153*10^(-8)*B33; - 0.04100100816*B11 - 0.0001443220902*B13 -

0.2677352882*B22 + 9.011464021*10^(-5)*B23 + 7.147914949*10^(-8)*B33];

4) Función: Principal

clear all

clc

format long

beta=10;

B11=2.406865491*10^(-5);

B13=0.9728344426;

B22=-0.0004233530652;

B23=0.2315013813;

162

B33=0.0002788276816;

E=sqrt(funcion(B11,B13,B22,B23,B33));

while E>1e-50

FA=funcion(B11,B13,B22,B23,B33);

%LA MATRIZ J ES LA MATRIZ L ORIGINAL DEL SISTEMA LX=b

J=jacobiano(B11,B13,B22,B23,B33)

ERROR=error(B11,B13,B22,B23,B33);

A=(J'*J+beta*eye(5,5));

B=(-J'*ERROR);

d=inv(A)*B;

B11v=B11;

B13v=B13;

163

B22v=B22;

B23v=B23;

B33v=B33;

B11=B11+(d(1));

B13=B13+(d(2));

B22=B22+(d(3));

B23=B23+(d(4));

B33=B33+(d(5));

FB=funcion(B11,B13,B22,B23,B33);

if FB<FA

B11=B11;

B13=B13;

B22=B22;

B23=B23;

B33=B33;

ERROR=error(B11,B13,B22,B23,B33);

E=sqrt(funcion(B11,B13,B22,B23,B33));

beta=beta/2;

else

beta=1.1*beta;

164

B11=B11v;

B13=B13v;

B22=B22v;

B23=B23v;

B33=B33v;

if beta==inf

beta=realmax;

end

end

end

B=[B11;B13;B22;B23;B33];

M=norm(B);

Bsol=(1/M)*B

E

B11SOL=Bsol(1)

B13SOL=Bsol(2)

B22SOL=Bsol(3)

B23SOL=Bsol(4)

B33SOL=Bsol(5)

165

Para el cálculo por el método de LEVENBERG MARQUARDT requerido en diversas

operaciones del proyecto de grado, es aplicado el mismo código fuente con el cambio de

los parámetros en las funciones principales como: Función, Error, Jacobiano y la semilla

producida por el método de mínimos cuadrados en la función Principal.

Las operaciones matriciales y el cálculo de soluciones por mínimos cuadrados se

realizaron en el software DERIVE.

166

13. BIBLIOGRAFÍA

Abdel-Aziz , Y., & Karara, H. (1971). Direct linear transformation from coordinates in close

range photogrammetry.

Harris, C., & Stephens, M. (1988). A Combined Corner and Edge Detector.

Acosta Amaya, G. A. (2010). Ambiente Multi-Agente Robótico para la navegación

colaborativa en escenarios estructurados. Medellín.

Aguilar, G. (2013). Curso de óptica física y geométrica.

Aristizabal, H. I., & Restrepo, J. (2013). Prototipo para la Medición Automática de la

Velocidad de un Automóvil con Cámara de Video Mediante Procesamiento de

Imágenes. Medellín .

Brown, D. (1966). Decentering Distortion of Lenses.

Carabias, M., Requero García, D., Rodriguez , R., & Andrés, J. (2010). Sistema de visión

estereoscópica para navegación autónoma de vehículos no tripulados. Madrid.

Colciencias. (2013). Obtenido de www.colciencias.gov.co/programa_estrategia/electr-nica-

telecomunicaciones-e-inform-tica.

Cornejo Rodríguez, A., & Urcid Serrano , G. (2005). ÓPTICA GEOMÉTRICA.

Tonantzintla.

Correa Niño, D. A., & Sanabria Cárdenas, R. (2010). Robots de Servicio Cooperativos.

Revista Colombiana de Tecnologías de Avanzada, 119-127.

Díaz Celiz, C. A., & Romero Molano, C. A. (2011). Navegación de robot móvil usando

Kinect, OpenCV y Arduino. Villavicencio.

Digital Camera World. (s.f.). Obtenido de

http://www.digitalcameraworld.com/2012/08/31/cheat-sheet-friday-how-your-digital-

camera-turns-light-into-an-image/

Faugeras, O. (1992). A theory of self-calibration of a moving camera. Springer, 123-151.

Gómez Sánchez, A. E., & Zamorano Acosta, D. I. (2008). visión estereoscópica y

estimación de pose para el posicionamiento de un brazo robótico. Cuernavaca.

Hall, E.L. Measuring curved surfaces for robot visión. Comput. J. No. 15, pp. 42 – 54.

Harris, Chris; Stephens, Mike (1988). A combined corner and edge detection. AVC. United

Kingdom: The Plessey Company plc.

167

Isern González , J. (s.f.). Estudio Experimental de métodos de calibración y

autocalibración de cámaras.

Jaramillo Ortíz, A., Jiménez, R., & Ramos, O. L. (2013). Inspección de calidad para un

sistema de producción industrial. Tecnura.

Jerry , D., & J. Buffa, A. (2014). Física . Prentice Hall .

Jímenez Alonso, F., & Hernández, J. E. (2012). Equipo para controlar automáticamente la

direcció de un vehículo. Madrid.

MIT. (2012). Obtenido de newsoffice.mit.edu/2012/mechanical-engineers-develop-

intelligent-car-co-pilot-0713

Molleda Meré, J. (2008). Técnicas de Visión por Computador para la reconstrucción en

Tiempo Real de la forma 3D de productos laminados. Oviedo.

Nope, S., & Loaiza, H. (2008). Estudio Comparativo de Técnicas para el Reconocimiento

de gestos por Visión Artificial. Cali.

Ordoñez Santiago, C. A. (2005). Formatos de Imagen Digital. Revista Digital Univeristaria,

10.

Ordoñez Santiago, C. A. (2005). Formatos de Imagen Dígital . Revista Dígital Universitaria

, 2-10.

Ricolfe Viala, C. (2006). Caracterización y Optimización del proceso de calibrado de

cámaras basado en plantilla bidimensional. Valencia.

Rodríguez Martín, J. (2008). Curso de Fotografía Dígital. Madrid.

Rojas Gualdrón, J. C. (2007). Desarrollo de Estrategias para el control de móviles

autónomos basados en Redes Neuronales. Bucaramanga.

Sánchez Martínez, N., Arias Pérez, B., Gónzalez Aguilera, D., & Gómez Lahoz, J. (2004).

Análisis Aplicado de métodos de calibración de cámaras para usos

fotogramétricos. Madrid.

Suárez Sanchéz , A. F. (2009). Navegación de un Robot Móvil por Estereovisión . Entre

Ciencia e Ingeniería, 9-23.

Tsai, R. (1987). A versatile camera calibration technique for High-Accuracy 3D machine

vision metrology using off-the-shelf tv cameras and lenses. IEEE, 323-344.

Vilá Ubieto, K. (2009). Reconstrucción 3D de modelos utilizando Técnicas de Visión

Artificial. Madrid.

168

Wang, A. (2009). A simple Method of Radial Distortion Correction with Centre of Distortion

Estimation. Springer.

Zhang , Z. (2000). A Flexible New Technique for Camera Calibration. IEEE, 1330 - 1334.

Documents

RECONSTRUCCIÓN DE ENTORNOS 3D MEDIANTE UN SISTEMA …