Upload
others
View
7
Download
1
Embed Size (px)
Citation preview
1
RECONSTRUCCIÓN DE ENTORNOS 3D MEDIANTE UN SISTEMA DE VISION
ARTIFICIAL ESTEREOSCÓPICO, PARA APLICACIONES EN NAVEGACIÓN
ROBÓTICA.
ETAPA 1: IMPLEMENTACIÓN DE UN SISTEMA DE VISIÓN ARTIFICIAL
ESTEREOSCÓPICO PARA LA ESTIMACIÓN DE LAS COORDENADAS 3 – D DE
OBJETOS PRESENTES EN UN ENTORNO BAJO CONDICIONES DE LUZ
CONTROLADAS.
JUAN ESTEBAN SILVA NARVÁEZ
ANA MARÍA ZAPATA HERRERA
UNIVERSIDAD DE SAN BUENAVENTURA SECCIONAL MEDELLÍN
FACULTAD DE INGENIERÍAS
PROGRAMA DE INGENIERÍA ELECTRÓNICA
MEDELLÍN
2015
2
RECONSTRUCCIÓN DE ENTORNOS 3D MEDIANTE UN SISTEMA DE VISION
ARTIFICIAL ESTEREOSCÓPICO, PARA APLICACIONES EN NAVEGACIÓN
ROBÓTICA.
ETAPA 1: IMPLEMENTACIÓN DE UN SISTEMA DE VISIÓN ARTIFICIAL
ESTEREOSCÓPICO PARA LA ESTIMACIÓN DE LAS COORDENADAS 3 – D DE
OBJETOS PRESENTES EN UN ENTORNO BAJO CONDICIONES DE LUZ
CONTROLADAS.
JUAN ESTEBAN SILVA NARVÁEZ.
ANA MARÍA ZAPATA HERRERA.
Proyecto de grado presentado para optar al título de Ingeniero Electrónico
Asesor
Camilo Andrés Flórez Velásquez, Ingeniero Electricista
UNIVERSIDAD DE SAN BUENAVENTURA SECCIONAL MEDELLÍN
FACULTAD DE INGENIERÍAS
PROGRAMA DE PREGRADO DE INGENIERÍA ELECTRÓNICA
MEDELLÍN
2015
3
DEDICATORIA
Queremos dedicar estos años de esfuerzo a Dios por habernos dado la fuerza y las
personas necesarias para acompañarnos a lo largo de este proceso.
A nuestras Familias, habría sido imposible llegar a donde llegamos sin la fuerza, el
sacrificio, la confianza, la educación y el amor que ustedes siempre tuvieron con
nosotros. Por ustedes somos las personas que hoy en día somos, ya que crecimos en el
amor, la confianza y la fe que se imparte en un verdadero hogar en el que siempre
estamos los unos para los otros. Gracias por ser como son, gracias desde lo profundo de
nuestros corazones.
Camilo Andrés Flórez, maestro, asesor, amigo, gracias por ser ese motor que nos impulsó
a encontrar el camino hacia nuestro éxito.
Sebastián Higuita, gracias por atravesar esta etapa con nosotros, por apoyar nuestros
sueños y darnos ánimo, compañía e inspiración en todo los momentos.
4
AGRADECIMIENTOS
Camilo Andrés Flórez Velásquez, gracias maestro por su entrega en nuestro aprendizaje,
por compartir su sabiduría y por impulsarnos a ser cada día mejores.
5
CONTENIDO
1. RESUMEN Y PALABRAS CLAVES……………………………………………………6
2. INTRODUCCIÓN………………………………………………………………………………..8
3. MODELOS ÓPTICO – GEOMÉTRICOS DE LENTES PRESENTES EN CÁMARAS
DIGITALES………………………………………………………………………………………...15
4. MODELOS DE FORMACIÓN DE IMÁGENES EN CÁMARAS…………………………..39
5. TÉCNICAS DE ESTIMACIÓN DE LOS MODELOS DE FORMACIÓN DE IMÁGENES
EN CÁMARAS, O PROCESO DE CALIBRACIÓN……………………………………………66
6. PRINCIPIOS BÁSICOS DE MEDICIÓN DE COORDENADAS TRIDIMENSIONALES..99
7. METODOLOGÍA Y EXPERIMENTOS DISEÑADOS……………………………………..103
8. RESULTADOS………………………………………………………………………………..116
9. CONCLUSIONES…………………………………………………………………………….145
10. LISTA DE TABLAS…………………………………………………………………………147
11. LISTA DE FIGURAS……………..………………………………………………………...150
12. ANEXOS………………………………………………………………………………….…153
13. BIBLIOGRAFÍA……………………………………………………………………………...166
6
1. RESUMEN
La visión artificial es ampliamente utilizada a nivel mundial en aplicaciones donde se
requiere la información del mundo 3D para la toma de decisiones: en medicina, búsqueda
de objetivos militares, aplicaciones de rescate en desastres y en particular en la
resolución de problemas asociados a la navegación robótica. Para implementar estas
aplicaciones, se emplean cámaras para capturar la información del mundo tridimensional
en dos dimensiones, y a partir de algoritmos de procesamiento de imágenes y de
inteligencia artificial proceder a reconstruir el medio donde el agente robótico navegará.
Existen diversas técnicas que permiten reconstruir la información 3D, dentro de las cuales
se destaca, la visión estereoscópica por su alta precisión en la medición de las
coordenadas de puntos 3D.
A raíz de los diversos desarrollos a nivel mundial y de la creciente necesidad de avances
en esta área que enfrenta la nación (Plan ETI, 2013), se propone Implementar un sistema
metrológico para la medición de las coordenadas 3D de objetos presentes en un entorno
bajo condiciones de luz controlada, mediante el uso de técnicas de visión estereoscópica
y algunos algoritmos de visión artificial, con la finalidad de emplear el sistema
implementado en aplicaciones de navegación de agentes robóticos móviles.
Para llevar a cabo este proyecto, se propone emplear una investigación de tipo
cuantitativo y el método planteado para alcanzar los objetivos propuestos es del tipo
“deductivo-inductivo” e “inductivo- deductivo”, donde se busca corroborar de manera
experimental la calidad o validez de los modelos y técnicas propuestas a lo largo de la
investigación, modelos como el de Pin-Hole, necesario para estudiar la formación de
imágenes, las diferentes técnicas de calibración para hallar los parámetros intrínsecos
(Zhang) y extrínsecos de las cámaras (Faugeras, técnica homogénea y técnica no
homogénea), las ecuaciones necesarias para la estimación de la profundidad de los
objetos 3D usando la Técnica de Estereoscopía y finalmente el algoritmo empleado para
la reconstrucción de superficies 3 – D a partir de la nube de puntos del objeto
tridimensional, estimados por el sistema de visión artificial.
7
Los mejores resultados estimando las coordenadas tridimensionales de un objeto real, se
obtuvieron a partir del uso de matrices de calibración lineal, aplicando la técnica
homogénea y la técnica de Faugeras, generando resultados con un alta precisión cuando
el objeto se encuentra desde la distancia mínima de captura hasta 1.2 metros de
profundidad, con respecto al centro de referencia del sistema de coordenadas (cámara
uno).
Palabras claves:
Visión Artificial, Visión Estereoscópica, Reconstrucción 3D, Modelo Pin-Hole, Técnicas de
Calibración.
8
2. INTRODUCCIÓN
La visión artificial es ampliamente utilizada a nivel mundial para aplicaciones donde se
requiere información del mundo 3D para la toma de decisiones: en medicina
(escáneres y procesamiento, tomografía, resonancia magnética, tomografía axial,
radiología, endoscopias, sistemas de oftalmología, odontología, medicina forense,
ortopedia, cirugía robotizada), búsqueda de objetivos militares, aplicaciones de
rescate en desastres, procesamiento de imágenes climatológicas, cámaras de
automóviles, medida de nivel y detección de impureza en líquidos y en particular en la
resolución de problemas asociados a la navegación robótica.
En particular, la visión artificial se emplea para resolver problemáticas asociadas a la
navegación de agentes robóticos, como por ejemplo en la reconstrucción de entornos
3D para la planificación de navegación en entornos estructurados / no estructurados,
cuyas aplicaciones van desde la planificación de tareas de enjambres de robots hasta
el control automático de la dirección de automóviles, área en la cual ya se han
realizado avances tecnológicos importantes, como por ejemplo, el desarrollo de un
prototipo de laboratorio de un dispositivo universal, que puede controlar la dirección de
un automóvil en carretera sin intervención del conductor (Naranjo y Jiménez, 2012), y
el desarrollo de un sistema de un que actúa como copiloto y podría tomar el control del
automóvil, solo con la finalidad de evitar accidentes (MIT, año 2012).
Para implementar estas aplicaciones, se emplean cámaras para capturar la
información del mundo tridimensional en dos dimensiones, y a partir de algoritmos de
procesamiento de imágenes y de inteligencia artificial se procede a reconstruir el
medio donde el agente robótico navegará. Para reconstruir la información 3D usando
visión artificial, existen las siguientes técnicas: Telemetría láser, control de parámetros
ópticos, visión estereoscópica empleando (2) o más cámaras, técnicas de luz
estructurada entre otras; sobresaliendo las técnicas de estereoscopía por su alta
precisión en la medición de coordenadas de puntos 3D y elemental implementación de
sus algoritmos en sistemas computacionales.
La nación no es ajena a estas aplicaciones que emplean de forma extensiva la visión
artificial, y por tal motivo ha enmarcado en el plan (ETI, 2013) (Electrónica –
Telecomunicaciones – Informática), la necesidad de promover en los grupos de
9
investigación de las universidades, el desarrollo de proyectos de I + D que incentiven
la generación de prototipos industriales y patentes en las áreas de procesamiento
digital de señales unidimensionales y bidimensionales (imágenes) y en el desarrollo de
robots que sirvan para impulsar el desarrollo de la industria nacional. Bajo estas
premisas es claro que el programa de Ingeniería Electrónica de la Universidad de San
Buenaventura Seccional Medellín, con su línea de investigación de robótica, debe
propender por la ejecución de proyectos de investigación que impulsen y apoyen las
áreas estratégicas de interés de los gobiernos local, regional y nacional en lo que
concierne a Ciencia y Tecnología; en particular en el diseño y puesta en marcha de
robots industriales y de sensórica avanzada para estos sistemas, fundamentadas por
ejemplo en la visión artificial.
A partir de lo expuesto, se propone desarrollar un sistema de reconstrucción de
entornos 3D, usando técnicas de visión artificial cimentadas en sistemas de cámaras
estereoscópicas, para su futuro uso en el control de navegación de vehículos a
gasolina o eléctricos bajo condiciones experimentales.
La metodología experimental que se propondrá en el proyecto para la reconstrucción
de entornos y objetos 3 - D, pretende retomar y potenciar las técnicas actualmente
empleadas en Colombia mencionadas por (Suárez & Loaiza, 2011), (Jaramillo Ortíz,
Jiménez, & Ramos, 2013),(Nope & Loaiza, 2008); con el objeto de generar un
prototipo experimental de visión artificial que sirva para reconstruir la información 3 - D
del mundo, inicialmente bajo condiciones de luz controlada, y en un futuro proyecto
bajo condiciones de luz sin control de algún tipo.
2.1 Breve Descripción del Estado del Arte
La visión artificial tiene como objetivo principal conseguir que una computadora pueda
analizar una escena del mundo real como lo haría una persona; para llevar a cabo
esta tarea es necesario crear un modelo 3D de dicha escena con dos cámaras, que
obtienen dos imágenes desde dos puntos de vista diferentes (visión estereoscópica),
esto permite capturar la información del mundo de una forma tridimensional, como lo
haría el ojo humano; es por esto que la visión artificial es ampliamente utilizada a nivel
mundial en diferentes áreas que necesitan la información del mundo 3D para la toma
10
de decisiones, como lo son la medicina, el área militar, el civil y en particular en la
resolución de problemas asociados a la navegación robótica.
La visión artificial se emplea especialmente para la resolución de problemáticas
asociadas a la navegación de agentes robóticos, en particular en la reconstrucción de
entornos 3D para la planificación de navegación en ambiente controlados o no
controlados.
A nivel mundial, varios autores han desarrollado diferentes técnicas que permiten la
reconstrucción de entornos 3D, algunas de las cuales se mencionan a continuación:
(Vilá Ubieto, 2009), propone la reconstrucción de objetos sencillos, a partir de
imágenes adquiridas desde dos cámaras puestas en forma paralela; para realizar
dicha tarea, realizó un algoritmo en Matlab. Sin embargo, este algoritmo sólo
funcionaba de manera adecuada con objetos que tuvieran geometría recta. El sistema
no está capacitado para la reconstrucción de objetos con puntas redondeadas.
Carabias et al (2010), proponen desarrollar una aplicación que obtenga la
representación 3D del medio en el cual navega el agente robótico autónomo, a partir
de dos imágenes tomadas por diferentes cámaras, y a partir de la información
recolectada por estas, planificar la ruta del mismo. El algoritmo implementado por
Carabias, presentó algunos errores, pues al momento de reconstruir la imagen, está
se encontraba un poco desplazada respecto a la original, claro está que los resultados
obtenidos son suficientes para reconocer la existencia o no de obstáculos y a partir de
esta información planificar la navegación del agente robótico.
Suarez y Loaiza (2011), implementaron un sistema de estereovisión de bajo costo
para ser empleado en agentes robóticos móviles, que permite estimar la distancia a la
cual se encuentran los objetos presentes en el campo de visión del agente. Ellos
lograron desarrollar un sistema de visión que permitía la navegación de un robot móvil
autónomo en un ambiente estructurado desconocido con un error al momento de
realizar la medición de 5.04 cm, y con un campo de acción entre 60 cm y 240 cm.
En la Universidad Politécnica de Madrid, Jiménez y Naranjo (2012), han desarrollado
un prototipo de laboratorio de un dispositivo universal, que puede controlar la dirección
de un automóvil en carretera sin intervención del conductor, también un grupo de
ingenieros del MIT ha estado trabajando en el desarrollo de un sistema que actúa
11
como copiloto y podría tomar el control del automóvil, solo con la finalidad de evitar
accidentes.
En Colombia existen los siguientes trabajos asociados a la reconstrucción de entornos
2D y 3D para la navegación de agentes robóticos:
Correa Niño et al (2010), proponen un agente robótico para servicios cooperativos,
con un sistema de sensores muy básicos compuesto por un medidor óptico de cortas
distancias (0-1m) usando el sensor GP2D12 y una cámara digital que solo se emplea
para reconocer colores de objetos. El sistema no está capacitado para la
reconstrucción de entornos 3D.
(Acosta, 2010), propone un sistema Multi - Agente robótico para la navegación
colaborativa en escenarios estructurados; que sirven para la reconstrucción de
entornos 2D a partir de la información recolectada por los sensores ultrasónicos,
mientras el robot evita el choque contra obstáculos en un ambiente de control; sin
embargo el sistema Multi - Agente no está en la capacidad de extraer información
tridimensional del entorno, para su respectivo uso en la navegación.
(Rojas Gualdrón, 2007), propone un control automático fundamentando en redes
neuronales para resolver, el problema de navegación de un agente robótico móvil en
un ambiente estructurado, donde el sensor empleado para la navegación es una
sistema compuesto por cuatro sensores binarios (1-0), que solo indican la existencia o
no existencia del obstáculo alrededor del robot a muy cortas distancias (decenas de
centímetros). La información recolectada (patrones de unos y ceros asociados a los
obstáculos), no se usa para reconstruir el entorno de navegación.
(Díaz Celiz & Romero Molano, 2011), proponen un sistema de visión artificial
implementado con una cámara Kinect de Microsoft, que sirve para obtener la
profundidad en metros de cada punto de un objeto en 3D (cámara de rango), en un
intervalo entre 0.8 m y 3.5 m, usando triangulación con luz infrarroja. La información
obtenida (profundidad) se emplea para planificar la navegación del robot. Los
resultados obtenidos evidencian que este tipo de sensores no son altamente precisos
a la hora de medir distancias (profundidad). Ballester y Phectectt (2011), proponen el
uso experimental de un sensor Kinect de Microsoft, para la medición de distancias.
Este sensor está compuesto por un sistema de iluminación infrarrojo y un arreglo de
12
sensores electrópticos CMOS, que triangulan la posición 3D de los objetos en un
rango de 0.8 m y 3.5 m. El sensor tiene limitaciones respecto a la resolución esperada
y no está orientada a tareas de reconstrucción.
(Aristizábal & Restrepo, 2013), implementaron un prototipo para la medición de la
velocidad de un automóvil con cámara de video, usando técnicas de triangulación y
medición de tiempos entre frames consecutivos. La propuesta no resuelve el problema
de la reconstrucción del entorno 3D para la medición de variables cinemáticas.
2.2 Técnicas de Reconstrucción 3D
La visión artificial se emplea para resolver problemáticas asociadas a la navegación
de agentes robóticos, de especial interés, en la reconstrucción de entornos 3D para la
planificación de navegación en entornos estructurados o no estructurados. Las
técnicas de reconstrucción permiten estimar las coordenadas 3D que corresponden a
diversos puntos del objeto tridimensional a partir de la muestra de imágenes
bidimensionales.
Existen diversas técnicas de reconstrucción 3D, algunas de las cuales se mencionan a
continuación.
Técnica de visión artificial activa:
La técnica de visión activa o cámara móvil, emplea una cámara de video que
obtiene diferentes posiciones del objeto que se desea reconstruir.
Las cámaras están en constante movimiento, manteniendo correspondencia entre
el plano de referencia de la cámara y el plano del objeto.
Telemetría Laser:
La telemetría láser consiste en emitir un rayo luminoso hacia un objeto. Al obtener
las medidas del tiempo de vuelo en diferentes puntos o por métodos de
triangulación, permite estimar las profundidades de este y realizar su
reconstrucción 3D.
13
Técnicas de luz estructurada:
Las técnicas de luz estructurada, son ampliamente empleadas en la industria;
estas permiten reconstruir un entorno 3D mediante el análisis de la deformación
que sufre un rayo luminoso emitido hacia el objeto u entorno a reconstruir. En la
técnica es necesario la adquisición de las imágenes que contienen la deformación
de los rayos emitidos correspondientes al objeto mediante una o varias cámaras.
Técnica de visión artificial Multi-Vistas:
Para obtener la información tridimensional de un objeto por medio de técnicas de
visión artificial, es necesario que existan dos (2) o más perspectivas del mismo; el
proceso se debe realizar de esta forma, ya que al ser procesada la imagen
digitalmente, el punto capturado por ésta pierde el eje asociado a la profundidad.
Las técnicas de visión Multi-Vistas, según la cantidad de imágenes utilizadas, se
clasifican en:
Visión artificial estereoscópica (2 cámaras).
Visión artificial Trifocal (3 cámaras).
Visión artificial n-focal (n cámaras).
En la siguiente tabla se ilustra las diferentes ventajas y desventajas que presenta cada
técnica de reconstrucción 3D al ser aplicadas en la navegación de agentes robóticos.
14
Tabla 1. Tabla comparativa entre las diferentes técnicas de reconstrucción 3D. Propiedad
de los autores.
VENTAJAS DESVENTAJAS
Visión Estereoscópica -Construye el entorno
rápidamente.
-Económico
computacionalmente.
-Correspondencia entre
pixeles de 2 imágenes.
Visión activa -Extrae la información 3D
de un objeto en
movimiento.
- Económico.
-Los Parámetros de
calibración cambian.
-Las cámaras deben
moverse adecuadamente
en el entorno.
Telemetría Laser -Preciso. - Requiere ambientes de
luz controlada y de la
geometría del objeto.
Luz Estructurada -Preciso
-Construye el entorno
rápidamente y con
exactitud.
- Requiere ambientes de
luz controlada y de la
geometría del objeto.
-Costoso
computacionalmente.
A partir de la información anteriormente expuesta, se propone elegir la técnica de visión
artificial estereoscópica, como la más adecuada para la reconstrucción de entornos 3D;
esto debido a las diversas ventajas que esta tiene frente a las demás como los son: rápida
construcción del entorno, la funcionabilidad de la técnica tanto en ambiente controlados
como nos controlados, el bajo costo computacional de sus algoritmos y finalmente su alta
precisión en la medición de coordenadas de puntos 3D.
15
3. MODELOS ÓPTICO – GEOMÉTRICOS DE LENTES PRESENTES EN CÁMARAS
DIGITALES
En el presente capítulo se desarrollarán los marcos conceptuales asociados a la
propagación de rayos luminosos en lentes de sistemas de cámaras digitales, bajo la
perspectiva de la óptica geométrica, donde no se tendrá en cuenta el fenómeno
ondulatorio de la aberración cromática, donde los rayos de luz no se concentran
adecuadamente en el foco por efectos de la dependencia del índice de refracción de la
lente con la longitud de onda (Jerry & J. Buffa, 2014). El estudio de la propagación de la
luz a través de las lentes, permite establecer de forma clara el modelo de formación de
imágenes en una cámara digital, elemento trascendental en las técnicas de visión
estereoscópica bicameral, tricameral y de 4 o más cámaras.
3.1 Cámaras Digitales y Formatos Digitales de Imágenes
El elemento principal de todo sistema de visión artificial estereoscópica es la cámara
digital, que se emplea para adquirir la información visual proveniente de objetos
previamente iluminados. En la figura 1 se ilustran los subistemas más relevantes que
componen a una cámara digital.
Figura 1. Subsistemas que componen a una cámara digital. La fuente de la imagen es el
sitio web http://www.digitalcameraworld.com/2012/08/31/cheat-sheet-friday-how-your-
digital-camera-turns-light-into-an-image/.
16
Para capturar una escena la cámara captura y absorbe la luz a través de la lente guiando
los rayos luminosos hasta el sensor fotoeléctrico implementado en circuito integrado
llamado Charged Couple Device (CCD), que se encarga de convertir la energía y longitud
de onda de los fotones emitidos por cada punto de la escena, en una señal eléctrica
bidimensional llamada señal de video, que está en formato análogo. En la figura 2 se
ilustra un CCD típico de una cámara digital.
Figura 2: Fotografía de un CCD de una cámara webcam digital.
La fuente de la imagen está disponible en el sitio web http://en.wikipedia.org/wiki/Charge-
coupled_device#/media/File:Webcam_CCD_-_640x480px_Colour.jpg, etiquetada para
reutilización no comercial.
El CCD es un arreglo matricial de células fotoeléctricas de dimensiones del orden de los
µm, y cada célula está compuesta por tres elementos electro – ópticos capacitada para
distinguir y medir la potencia lumínica asociada a las longitudes de onda de los colores
básicos verde – rojo y azul. Cada célula registra la unidad básica de información de una
imagen conocida como “píxel”, por lo tanto todas las imágenes son matrices donde cada
posición del arreglo son píxeles.
Si el sensor tiene dimensiones Lx [m] de ancho y Ly [m] de largo, entonces se pueden
definir la cantidad de píxeles por unidad de longitud en la dirección horizontal y la cantidad
de píxeles por unidad de longitud en la dirección vertical así:
17
metro
Píxel
L
HorizontalDirecciónPíxelesdeCantidad
X
(1)
metro
Píxel
L
VerticalDirecciónPíxelesdeCantidad
Y
(2)
Entre mayores sean los valores de y de un CCD de una cámara A respecto a los
valores de y de un CCD de una cámara B, mejor es la resolución de la imagen o lo
que es lo mismo mejor es el muestreo espacial de la misma.
Las señales eléctricas bidimensionales provenientes del CCD, son previamente
digitalizadas mediante un CODEC típicamente con formatos de 8 – 16 – 24 y 32 bits, y
posteriormente procesadas en un DSP (Digital Signal Processor: Procesador digital de
señales), que se encarga de aplicar algoritmos de corrección, interpolación y filtrado de la
imagen, y por último la entrega en un archivo con formatos estándares para el
almacenamiento de imágenes.
Los formatos típicos para almacenar y manipular la información contenida en una imagen
se fundamentan en 2 estándares: estándar de almacenamiento de imágenes de mapa de
bits y estándar de almacenamiento de imágenes por técnicas vectoriales. (Ordoñez
Santiago, 2005).
En el estándar de mapas de bits las imágenes se encuentran conformadas por una rejilla
o matriz, donde sus celdas se les conocen como píxeles. Para cada pixel existe un valor
de intensidad de color o de luminancia propia (escala de grises de la imagen) típicamente
expresada en formato entero de N – Bits de longitud.
En las imágenes Vectoriales conocidas como gráficos orientados a objetos, se almacenan
las características geométricas de las imágenes capturadas como por ejemplo, la longitud
de arco, los radios de las circunferencias, el ángulo entre segmentos de rectas, los
perímetros entre otros; y el color es almacenado en un mapa que especifica las
tonalidades de cada elemento descrito geométricamente.
18
Las imágenes digitales se pueden representar en diferentes formatos; algunos de los
cuales se explican a continuación:
BMP (Bitmap – Mapa de Bits).
Es una de las extensiones más empleadas, porque, permite guardan gran cantidad de
información de la imagen, permitiendo esto la manipulación de las mismas sin riesgo de
sufrir alteraciones en su calidad; su único inconveniente es que al almacenar tanta
información, el archivo termina siendo de un tamaño muy grande.
GIF (Graphics Interchange Format – Formato de Intercambio Gráfico).
Por el contrario de la extensión BMP, GIF ha sido diseñado con el propósito de comprimir
imágenes digitales. Este formato, es apto para publicar animaciones o dibujos en la web,
esto debido a que permite reducir el tamaño del archivo, al disminuir la paleta de colores;
aunque no es muy aconsejable para imágenes que necesiten cierta calidad.
JPG-JPEG (Joint Photographic Experts Group - Grupo de Expertos Fotográficos
Unidos).
JPG utiliza un sistema de compresión, que reduce el tamaño del archivo. En contraste con
el GIF, JPEG permite guardar las imágenes con una paleta de hasta 16 millones de
colores. La compresión que emplea este formato, también podría causar pérdidas en la
calidad.
PNG (Portable Network Graphic - Gráfico portable para la red).
Es un formato ideal para ser empleado e internet, reúne las ventajas de GIF y de JPG, al
permitir emplear compresión, una paleta superior a 256 colores y finalmente, al admitir la
creación de semi - transparencias o transparencias en las imágenes.
Luego de revisar de forma introductoria los elementos que conforman una cámara digital,
y los formatos para representar digitalmente las imágenes capturadas, se procede a
describir los modelos matemáticos que rigen la óptica geométrica de las lentes que hacen
parte de los equipos mencionados.
19
3.2 Modelo de Lentes de Cámaras Digitales
Una lente de una cámara es un dispositivo óptico que sirve para dirigir y concentrar los
haces de luz provenientes de un objeto hacia el CCD, con la finalidad de muestrear
espacialmente los elementos o píxeles que conforman la imagen a ser capturada.
Las lentes típicamente empleadas en sistemas de visión artificial son del tipo “Biconvexas
Convergentes” (Jerry & J. Buffa, 2014), y algunos de los modelos de propagación de
rayos lumínicos geométricos de estas lentes se estudian a continuación.
3.2.1 Modelo de la lente delgada
La lente biconvexa se considera como un sistema formado por un conjunto de lentes de
ancho cero, cuyos rayos característicos se enseñan en la figura 3.
Figura 3. Modelo de la Lente Delgada. La fuente de la imagen es propiedad de los
autores.
Donde:
F [metros] es el foco de la lente biconvexa. RF .
P es el punto de tres dimensiones cuyos rayos luminosos son capturados por la lente.
P’ es el punto de 2 dimensiones formado sobre la superficie del CCD.
20
Para este modelo se cumplen las siguientes propiedades.
1. Todos los rayos provenientes del punto P deben converger en un solo punto sobre
el plano del CCD (plano de formación de la imagen) P’, si el CCD está ubicado a
una distancia de enfocamiento respecto al centro óptico. Si el CCD no está a la
distancia adecuada respecto al centro óptico, el punto P se difumina en varios
puntos sobre el área del sensor provocando el efecto del desenfoque, tal como se
ilustra en la figura 4. El desenfoque genera la sensación visual de “borrosidad” de
la imagen.
2. Todo rayo incidente que viaja paralelo al eje óptico (RP en la figura 3), atravesará
la lente y pasará por el foco en el otro extremo.
3. Todo rayo incidente que pasa por el foco (RF en la figura 3), emerge paralelo al
eje óptico.
4. Todo rayo incidente que cruza por el centro óptico (RC en la figura 3), seguirá su
trayectoria original sin desvío alguno.
Figura 4. Fenómeno del desenfoque. El rayo de luz proveniente de P genera múltiples
puntos sobre el plano de formación de la imagen. La fuente de la imagen es propiedad de
los autores.
A partir de las propiedades enunciadas, se pueden formular las expresiones que rigen al
modelo de lente delgada de la lente biconvexa. En la figura 5 se ilustran los rayos y el
sistema de referencia empleado para determinar dichas expresiones.
21
Figura 5. Obtención de las expresiones que rigen las coordenadas del punto P’ sobre el
CCD, empleando el modelo de lente delgada. La fuente de la imagen es propiedad de los
autores.
Empleando la información de la figura 5, se obtiene que:
Nótese que
'
'tan
y
z
y
z (3)
Además es elemental verificar que:
'
'tan
y
zz
F
z
(4)
De la ecuación 3 se obtiene que:
'' y
y
z
z (5)
Y de (4):
Fy
F
z
z
'' (6)
22
Igualando las expresiones (5) y (6) se llega al siguiente resultado:
Fy
y11
1'
(7) Muy importante.
Esta expresión sirve para predecir el valor de la coordenada 'y del punto P’ formado en
el CCD, o lo que es lo mismo, la distancia a la cual debe estar el plano de formación de
imagen para que se enfoquen los rayos provenientes de P en un solo punto que define al
punto P’ de 2 dimensiones.
Por último la coordenada 'z del punto P’ se calcula empleando la expresión (5) y (7):
Fy
y
zz
11
1' (8) Muy importante
De la expresión (7) se puede notar que la distancia 'y donde se forma el punto P’ no es
constante, depende del valor de la coordenada y del punto P, lo cual implica que no es
factible garantizar que todos los puntos de la imagen se generen sobre el plano de
formación de la imagen, generando el molesto fenómeno del desenfoque explicado
anteriormente.
Aunque este modelo representa de forma muy precisa la propagación de los rayos
luminosos por una lente biconvexa, el fenómeno del desenfoque predicho por este modelo
ocasiona que un (1) punto P genere múltiples puntos ''
3
'
2
'
1 ,,,, KPPPP , que va en contra
del paradigma de la visión estereoscópica que requiere que todo punto P de tres
dimensiones solo posea un punto P’ de dos dimensiones capturado por una cámara.
23
3.2.2 Modelo de Lente Pin-Hole
(Zhang, 2000; Tsai, 1987;Faugeras, 1992) proponen modelar la lente biconvexa de la
cámara como una lente de dimensiones iguales a cero o modelo Pin - Hole (pequeño
orificio circular), que provoca que sólo un (1) haz luminoso proveniente de un punto 𝑃𝑖
del objeto de tres dimensiones que pase por el centro de la lente, es el único que alcanza
a viajar hasta el CCD para formar el punto 𝑃𝑖` equivalente de 2 dimensiones; lo cual
garantiza que en cada célula o píxel del CCD se mapeara de forma inyectiva (uno a uno)
cada punto 𝑃𝑖 del objeto tridimensional, creando una imagen perfectamente enfocada del
mismo, , propiedad que está en consonancia con la fundamentación físico - matemática
de la técnica de reconstrucción tridimensional empleando visión estereoscópica, que
exige que todo punto 𝑃𝑖 de tres dimensiones capturado por la cámara solo produzca un
punto 𝑃𝑖 sobre el plano de formación de la imagen.
Lo enunciado anteriormente implica que el modelo más simple y adecuado para
representar una lente en un sistema de visión tridimensional es el modelo Pin –
Hole.
En la figura 6 se ilustran el rayo luminoso proveniente del punto P que es colimado por la
lente, y los sistemas de referencia empleados para estudiar la formación de la imagen
sobre un plano de imagen, que en el caso de una cámara digital es el CCD.
Figura 6. Rayo luminoso del punto P que interviene en la formación del punto P’ sobre el
CCD, bajo el referente teórico del modelo de Pin-Hole. La fuente de la imagen es
propiedad de los autores.
24
X’ & Z’ ambos en [metros], son las variables que rigen la posición del punto P’ de dos
dimensiones formado sobre el plano de formación de la imagen.
La vista superior del modelo de formación de imagen enseñado en la figura 6, se presenta
en la figura 7.
Figura 7. Vista superior del trazado de rayos de la lente bajo el modelo de Pin-Hole. La
fuente de la imagen es propiedad de los autores.
Nótese que:
tan 𝜃 =𝑥𝐶𝑦𝐶= −𝑥′
𝐹
Por lo tanto:
𝑥` = −𝐹 ∗𝑥𝐶𝑦𝐶 (9)
La expresión (9) sirve para predecir el valor de la coordenada x’ en [metros] del punto P`
formado sobre el plano de formación de la imagen, y se calcula en función de las
coordenadas (𝑥𝐶 , 𝑦, 𝑧𝐶) del punto P.
En la figura 8 se ilustra la vista lateral del sistema de rayos de la lente bajo el modelo Pin
– Hole mostrado en la figura 5.
25
Figura 8. Vista lateral del modelo de Pin-Hole de la lente. La fuente de la imagen es
propiedad de los autores.
De la figura 8, es elemental verificar que:
tan 𝜃 =𝑧𝐶𝑧𝐶= −𝑧′
𝐹
Por lo tanto la coordenada z’ donde se forma el punto P’ en [metros] sobre el plano de
formación de la imagen se calcula así:
𝑧′ = −𝐹 ∗𝑧𝐶𝑦𝐶 (10)
Las expresiones (9) y (10) que rigen las coordenadas del punto P de 3 dimensiones
mapeado a 2 dimensiones, P’, se pueden escribir de forma vectorial así:
[𝑥′𝑦′] =
−𝐹
𝑦𝐶 [𝑥𝐶𝑧𝐶] (11) Muy importante
De la expresión (11) se puede verificar que el modelo Pin – Hole de la lente tiene la
peculiaridad de alterar la orientación de los puntos de la imagen: Si punto P de tres
dimensiones tiene un 0Cx , entonces la lente lo mapea en la imagen en un punto P’
con 0'x y viceversa; y si el punto P de tres dimensiones tiene un 0Cz entonces la
26
lente lo mapea en la imagen en un punto P’ con 0'z y viceversa (la lente bajo el modelo
Pin – Hole trastoca izquierda – derecha y arriba – abajo).
Este hecho será tenido en cuenta en la obtención del modelo de formación de la imagen
en la cámara en el capítulo 6, ya que las cámaras comerciales no alteran la percepción
“arriba – abajo” entre la imagen y el objeto filmado
3.2.3 Modelo de lente de Pin - Hole incluyendo los efectos de distorsión geométrica
El modelo de lente de Pin – Hole que se ha presentado hasta el momento no tiene
presente los efectos de las aberraciones introducidas por defectos de fabricación de las
lentes, o por el desalineamiento de los elementos ópticos presentes en el interior de la
cámara digital. Las aberraciones introducen desenfocamiento y / o distorsiones
geométricas sobre las imágenes capturadas.
Las aberraciones que típicamente aparecen sobre una lente se pueden clasificar en los
siguientes tipos: Aberración esférica, astigmatismo, curvatura de campo, coma y
distorsión.
La aberración esférica es un efecto óptico asociado a la no convergencia de los rayos
luminosos incidentes en el foco de la lente, provocado por refacciones anómalas de
algunos rayos cercanos al borde del dispositivo óptico, y genera la aparición de múltiples
focos a lo largo del eje óptico, tal como se ilustra en la figura 9. La aberración esférica
genera desenfocamiento de la imagen.
Figura 9. Aberración esférica provocada por la refracción anomala de los rayos en la
lente. La fuente de la imagen es de los autores.
27
La aberración comática es provocada por la no convergencia en un “punto focal” de rayos
incidentes paralelos que ingresan de forma oblicua a la lente, a su vez producida de
nuevo por deformaciones de la lente o por cambios anómalos del índice de refracción en
el dispositivo óptico, tal como se ilustra en la figura 10. Al igual que el caso anterior, la
aberración tipo coma provoca desenfoque de la imagen.
Figura 10. Aberración tipo coma. Nótese la aparición anómala de 3 puntos focales. La
fuente de la imagen es propiedad de los autores.
La aberración tipo “Astigmatismo” es provocada por la existencia de 2 índices de
refracción distintos sobre los ejes vertical y horizonal de la lente, que trae como
consecuencia la aparición de dos focos distintos para los rayos emergentes del punto P
de tres dimensiones, tal como se ilustra en la figura 11. Nótese que no existe una posición
d en [metros] adecuada para el plano de formación de la imagen que garantice que se
forme un (1) punto P’ a partir del punto P (fenómeno del desenfoque).
28
Figura 11. Aberración tipo “Astigmatismo”. Nótese de la existencia de dos focos para los
rayos que cruzan por los ejes vertical y horizontal de la lente. La fuente de imagen es
propiedad de los autores.
La aberración tipo Petzval o aberración de curvatura de campo, provoca que los rayos
luminosos capturados por la lente biconvexa se enfoquen de forma perfecta, sobre un
plano de formación esférico, pero no sobre una superficie de formación de la imagen
perfectamente plana, tal como se ilustra en la figura 12.
Figura 12. Trazado de los rayos luminosos en el fenómeno de la aberración de curvatura
de campo, para tres situaciones distintas de un objeto. La fuente de la imagen es
propiedad de los autores.
29
Todas los tipos de aberraciones son provocadas por cambios molestos del índice de
refracción en el volumen de la lente provocados por la inhomogeneidad y anisotropía del
material del que está hecho la lente, o por la dependencia del tensor de índices de
refracción con la longitud de ondas de los rayos luminosos; sin embargo con la tecnología
existente es posible mitigar ostensiblemente todos los tipos de aberraciones provocadas
por las lentes, mediante el uso de sistemas ópticos correctores, o garantizando que los
haces de luz sean monocromáticos (Harris & Stephens, 1988). Un elemento importante a
tener en cuenta es que el modelo Pin – Hole de la lente no es capaz de reproducir
ninguno de los fenómenos de aberración enunciados, ya que las leyes matemáticas de
dicha lente garantiza que un (1) punto P de 3 dimensiones sólo produce un (1) punto P’
sobre el plano de imagen, y no múltiples puntos como en los casos de la aberración.
Aunque no existan aberraciones de algún tipo sobre la lente que provoquen molestos
desenfoques de la imagen, es factible que minúsculas deformaciones geométricas sobre
la forma del dispositivo óptico introduzcan deformaciones sobre la forma de las imágenes
capturadas. (Conrady, 1919; Brown, 1966) enuncian que las lentes reales presentan
anomalías de naturaleza constructiva que generan una serie de distorsiones geométricas
sobre la imagen 2D que aparece sobre el plano de formación de la imagen, provocando
que la posición observada del punto P’ sobre el plano de formación de la imagen, difiera
de la posición teórica esperada si la lente estuviese libre de defectos de fabricación tal
como se presenta en la figura 18.
30
Figura 18. Imagen de un punto P’ sobre un plano de formación de imagen ilustrando el
efecto de distorsión introducida por la lente: Punto 1, ubicación de P’ en lente sin
distorsión, Puntos 2 y 3 ubicación de P’ en lente con distorsión radial y tangencial. La
imagen proviene de Brown, 1966: Decentering distortion of lenses, of Photogrammetric
Engeneering.
Por ejemplo en la figura 18 se ilustra la ubicación correcta predicha por el modelo de lente
Pin – Hole del punto P’ (marcado con la etiqueta 1), y las posibles ubicaciones anómalas
del punto P’ provocadas por efectos de distorsión radial y tangencial de la lente
(ubicaciones etiquetadas como 2 y 3). La circunferencia trazada sirve para establecer el
concepto de “distorsión radial” (distorsión a lo largo del radio de la circunferencia) y
“distorsión tangencial” (distorsión en la dirección del vector tangente en un punto de la
circunferencia).
A continuación se procede a definir los modelos de lentes Pin – Hole con distorsiones.
31
Modelo de Lente Pin – Hole con Distorsión Radial
(Brown, 1966) enumera y propone modelos para las distorsiones geométricas más
relevantes que aparecen sobre la lente de una cámara digital:
Distorsión Radial.
Distorsión Tangencial.
Distorsión Prismática.
La distorsión radial de la lente provoca que todo punto P’ enfocado sobre el plano de
formación de la imagen (CCD), se ubique en alguna posición de una línea recta delimitada
por el punto (𝑥′𝐶𝐷, 𝑧′𝐶𝐷) llamado “centro de la distorsión” y por el punto P’ teórico que
debería aparecer sobre el plano si no hubiese distorsión, tal como se ilustra en la figura
19.
Figura 19: Plano de imagen ilustrando el efecto de distorsión radial sobre un punto P’: El
punto P’ se desplaza hacia una nueva ubicación P’D, ubicado en la dirección radial. La
fuente de la imagen es propiedad de los autores.
32
De la figura 19 se definen:
𝑥′𝐶𝐷 & 𝑧′𝐶𝐷 , como las coordenadas del centro de la distorsión.
𝑥′𝐷 & 𝑧′𝐷 , como las coordenadas del punto con distorsión.
𝑥′ & 𝑧′ como las coordenadas del punto obtenido con el modelo de Pin-Hole.
[Rad] es la dirección angular del vector r’.
De la figura 19 se puede observar que:
𝑟` = √(𝑥′𝐷 − 𝑥′𝐶𝐷)2 + (𝑧′𝐷 − 𝑧′𝐶𝐷)
2 (12)
Donde r’ en [m] es la distancia que existe entre el punto de origen de la distorsión hasta el
punto PD’.
Además:
𝑟 = √(𝑥′ − 𝑥′𝐶𝐷)2 + (𝑧′ − 𝑧′𝐶𝐷)
2 (13)
r [m] es la distancia que existe entre el punto de origen de la distorsión hasta el punto P’
libre de distorsión.
De la figura 19 se nota adicionalmente que:
cos 𝜃 =𝑥′𝐷−𝑥′𝐶𝐷
𝑟` & cos 𝜃 =
𝑥′−𝑥′𝐶𝐷
𝑟 (14)
sen 𝜃 =𝑧′𝐷−𝑧′𝐶𝐷
𝑟` & sen 𝜃 =
𝑧′−𝑧′𝐶𝐷
𝑟 (15)
De las expresiones (14) y (15) se pueden establecer de forma automática las siguientes
desigualdades:
33
𝑥′𝐷−𝑥𝐶𝐷
𝑟`=
𝑥′−𝑥𝐶𝐷
𝑟 (16)
𝑧′𝐷−𝑧𝐶𝐷
𝑟`=
𝑧′−𝑧′𝐶𝐷
𝑟 (17)
Entonces:
𝑥′𝐷−𝑥′𝐶𝐷
𝑥′−𝑥′𝐶𝐷=
𝑟`
𝑟 (18)
𝑧′𝐷−𝑧′
𝑧′−𝑧′𝐶𝐷=
𝑟`
𝑟 (19)
El cociente entre los radios r y r’ se pueden expresar en términos de una función f(r’):
𝑟
𝑟`= 𝑓(𝑟`) (20)
𝑓(𝑟`) = √(𝑥′−𝑥′𝐶𝐷)2+(𝑧′−𝑧′𝐶𝐷)2
√(𝑥′𝐷−𝑥′𝐶𝐷)2+(𝑧′𝐷−𝑧′𝐶𝐷)2 (21)
La función f(r’) se puede aproximar polinómicamente así:
𝑓(𝑟′) =1
𝜌(𝑟`) (22)
Donde 𝜌(𝑟′) es un polinomio de la forma:
𝜌(𝑟`) = 1 + 𝐾1𝑟`2 + 𝐾2𝑟
`4 + 𝐾3𝑟`6 +⋯+ 𝐾𝑁𝑟
`2𝑁 (23)
Donde NKKK ,,, 21 son los coeficientes que modelan el comportamiento del
polinomio 𝜌(𝑟′). Se puede verificar de la expresión del polinomio, que este posee un grado
par, indicando que la distorsión radial no depende de la dirección angular donde se ubica
el punto P’D, si no de la distancia existente entre el centro de la distorsión y el punto en
cuestión.
34
A partir de la expresión (23) y empleando las expresiones (18) y (19) es posible obtener el
modelo de lente Pin – Hole con distorsión radial:
𝑥′ =1
𝜌(𝑟`)(𝑥′𝐷 − 𝑥′𝐶𝐷) + 𝑥′𝐶𝐷 (24)
𝑧′ =1
𝜌(𝑟`)(𝑧′𝐷 − 𝑧′𝐶𝐷) + 𝑧′𝐶𝐷 (25)
Las expresiones (24) y (25) son útiles para predecir la posición del punto P’ sobre el plano
de formación de la imagen, a partir de la medición de las coordenadas del punto P’ con
distorsión.
Si en la figura 19, se intercambian las posiciones de los puntos P’ y P’D, se obtendría que
las coordenadas del punto P’ en una lente con distorsión radial serían iguales a:
𝑥′𝐷 =1
𝜌(𝑟`)(𝑥′ − 𝑥′𝐶𝐷) + 𝑥′𝐶𝐷 (24)
𝑧′𝐷 =1
𝜌(𝑟`)(𝑧′ − 𝑧′𝐶𝐷) + 𝑧′𝐶𝐷 (25)
Donde x’ y z’ se calculan con las expresiones (9) y (10) que rigen al modelo Pin – Hole de
la lente.
Modelo de Lente Pin – Hole con Distorsión Tangencial
(Brown, 1966; Ricolfe, 2006) comenta que la distorsión tangencial aparece cuando el
juego de lentes que hacen parte de algunas cámaras digitales no tienen sus ejes ópticos
perfectamente alineados, generando como consecuencia un desplazamiento
perpendicular al radio que une al centro de la distorsión con el punto P’ predicho por el
modelo de lente Pin – Hole.
A partir de la documentación presente en (Brown, 1966; Ricolfe, 2006), se tiene que las
expresiones que rigen la distorsión tangencial en lentes Pin – Hole son iguales a:
...)'')(''(2))''(2(' 2
22
1 CDCDCDD zzxxpxxrpx (26)
...))''(2()'')(''(2' 22
21 CDCDCDD zzrpzzxxpz (27)
35
Donde:
𝑝1, 𝑝2, … , 𝑝𝑁, son los coeficientes que modelan la distorsión tangencial.
𝑟, es la distancia existente entre el centro de distorsión de la lente y el punto P’ obtenido
con el modelo Pin-Hole de la lente, regida por la expresión (13).
Por lo tanto las expresiones que rigen las coordenadas de la posición del punto P’D en una
lente con distorsión tangencial son iguales a:
DD xxx ''' (28)
DD zzz ''' (29)
Donde x’ y z’ se obtienen con las expresiones (9) y (10) que rigen a la lente bajo el
modelo Pin – Hole.
Distorsión Prismática
(Brown, 1966; Ricolfe, 2006) documenta que la distorsión prismática ocurre cuando hay
imperfecciones en el proceso de fabricación de la lente. La distorsión prismática es
provocada por el desplazamiento de los centros ópticos en algunas lentes de la cámara,
lo que ocasiona que se pierda la perpendicularidad con el eje óptico de la cámara. Para
modelar este tipo de distorsión se debe agregar un prisma a sistema óptico de la cámara.
La distorsión prismática se rige por las siguientes ecuaciones:
...' 6
3
4
2
2
1 rsrsrsx D (30)
...' 6
3
4
2
2
1 rsrsrsz D (31)
𝛿𝑉𝐷(𝑈𝑃 , 𝑉𝑃) = 𝑠1𝑟2 + 𝑠2𝑟
4 + 𝑠3𝑟6…
Donde:
𝑠1, 𝑠2, … , 𝑠𝑁, son los coeficientes que modelan la distorsión prismática.
𝑟, es la distancia entre el centro de distorsión de la lente y el punto obtenido con Pin-Hole.
36
Por lo tanto las expresiones que rigen las coordenadas de la posición del punto P’D con
una lente con distorsión prismática son iguales a:
DD xxx ''' (28)
DD zzz ''' (29)
Donde x’ y z’ se obtienen con las expresiones (9) y (10) que rigen a la lente bajo el
modelo Pin – Hole.
En general todas las distorsiones producidas por la lente se pueden escribir de la forma:
)','(''' zxxxx DD
)','(''' zxzzz DD
3.2.4 Modelo de Lente Gruesa
Un modelo matemático más representativo del comportamiento de los rayos que pasan
por una lente biconvexa es el de lente gruesa. Este modelo tiene presente los radios de
curvatura de las secciones de lente que componen a lente biconvexa, al igual que el
índice de refracción relativo del material de la lente.
En la figura 20 se ilustra el modelo geométrico de la lente gruesa.
Figura 20. Modelo geométrico de la lente gruesa.
37
De la figura 20 se puede observar que la lente gruesa está constituida por tres elementos
ópticos: 2 lentes de radios de curvatura r1 y r2, y un prisma que separa ambas lentes de
espesor S. todo el dispositivo óptico tiene un índice de refracción n, y los medios que
rodean ambas lentes tienen índices n1 y n2’.
La ecuación del constructor de lentes de una lente gruesa, suponiendo que los medios
que rodean a la lente es aire (n1=n2’=1) está dada por:
'
1
21
)1()
2
1
1
1)(1(
2
efrnr
nS
rrn
(32) (Cornejo, 2005):
(Aguilar, 2013) ilustra que el diagrama de una lente gruesa se puede redibujar como se
muestra en la figura 21
Figura 21. Diagrama de propagación de rayos en un modelo de lente biconvexa gruesa.
La fuente de la imagen es propiedad de Guillermo Aguilar de la Universidad Nacional
Federico Villareal, y proviene del sitio web
http://es.scribd.com/doc/225205215/Lentes#scribd.
Y las expresiones que rigen la lente gruesa bajo las suposiciones de igualdad de índices
de refracción del medio que rodea a la lente, son las siguientes:
38
fSS i
111
0
(33)
fxx i 0 (34)
Donde:
0x es la distancia en metros antes del foco primario f, donde se ubica el punto que emite
los rayos luminosos (punto O en la figura 21).
ix es la distancia en metros después del foco secundario f’, donde se ubica la imagen
enfocada del punto ubicado en O.
f es el valor del foco principal, que se encuentra ubicado en el lado donde se encuentra
el objeto que emite los rayos de luz hacia la lente.
'f es el valor del foco secundario, que se encuentra ubicado en el lado donde llegan los
rayos de luz emitidos por el objeto puesto en la posición O.
Las expresiones (33) y (34) sirven para estimar la distancia a la cual se formará la imagen
P’ proveniente de los rayos de luz emitidos por el punto tridimensional P.
Aunque el modelo de lente gruesa representa de forma muy precisa la propagación de los
rayos luminosos por una lente biconvexa y reproduce la mayoría de aberraciones que
pueden aparecer sobre una lente, el fenómeno del desenfoque predicho por este modelo
ocasiona que un (1) punto P observado por la lente genere múltiples puntos
''
3
'
2
'
1 ,,,, KPPPP sobre la superficie del CCD, que va en contra del paradigma de la visión
estereoscópica que requiere que todo punto P de tres dimensiones solo posea un punto
P’ de dos dimensiones capturado por una cámara.
39
4. MODELOS DE FORMACIÓN DE IMÁGENES EN CÁMARAS
En el capítulo anterior se establecieron las expresiones que sirven para calcular las
coordenadas donde se forma el punto P’ sobre el plano de formación de la imagen, que
en una cámara digital es justo el CCD, cuando la lente es regida por el modelo Pin – Hole.
Ahora se procederá a estudiar las leyes geométricas que rigen la formación de la imagen
del punto P’ sobre el CCD, teniendo presente desde los efectos de traslación y rotación a
los que puede estar sometida la cámara digital respecto a un sistema de referencia
tridimensional donde se miden las coordenadas del punto P en tres dimensiones a
capturar con la cámara, hasta los efectos de la densidad de pixeles del CCD en las
coordenadas en dos dimensiones medidas sobre la imagen.
4.1 Modelo de formación de imagen en una Cámara
Una cámara digital se puede representar como un sistema de “cámara oscura”, que aloja
en la cara lateral derecha la lente biconvexa, y en la cara lateral izquierda está presente
el CCD. La representación mencionada se ilustra en la figura 22:
Figura 22. Modelo aproximado de una cámara de video. Donde O’ es el centro del CCD y
O es el centro de la lente. La fuente de la imagen es propiedad de los autores.
El sistema cartesiano '' zx sirve para ubicar las coordenadas de la imagen del punto P,
P’, formada sobre el CCD de la cámara. Nótese de la figura 22 que el centro del sistema
40
de referencia del CCD, O’, coincide con el centro geométrico del CCD, y que la
orientación del sistema de referencia '' zx se ha elegido del tipo “derecho” de forma
arbitraria.
De igual forma el sistema cartesiano tridimensional CCC zyx sirve para ubicar las
coordenadas en tres dimensiones del punto P cuya luz se desea capturar con la cámara.
Nótese de la figura 22 que justo en el centro del sistema de referencia CCC zyx , O,
está ubicada la lente de la cámara; coincide con el centro geométrico del CCD, y que la
orientación del sistema de referencia se ha elegido del tipo “derecho” de forma arbitraria.
Del capítulo 3 (Modelos de lentes), tenemos que las coordenadas del punto P’ formado
sobre el CCD se pueden calcular usando la expresión (11):
C
C
Cz
x
y
F
z
x
'
' (11)
La expresión (11) se puede reescribir así:
CCC
C
zyxy
Fx 00'
(35)
C
C
CC zy
Fyxz
00' (36)
Agregando una tercera ecuación en forma de identidad (1=1) de forma “a priori”:
CC
C
C zyy
x 01
01 (37)
Organizando matricialmente las expresiones (34), (35) y (36), se obtiene la siguiente e
importante expresión que rige a la cámara:
41
100
10
000
000
1
'
'
C
C
C
C
C
C
z
y
x
y
y
F
y
F
z
x
(37)
La expresión (37) sirve para calcular las coordenadas del punto P’ formado sobre el CCD
en función de las coordenadas del punto P cuya luz ha sido capturada con la cámara.
El vector que contiene a las coordenadas del punto P’ de dos dimensiones formado sobre
el CCD, '1'' zx , recibe el nombre de vector de “coordenadas homogéneas” en [m] del
punto P’.
De igual forma el vector que contiene a las coordenadas del punto P de tres dimensiones
cuya imagen ha sido capturada por la cámara, 1CCC zyx , recibe el nombre de
vector de “Coordenadas Homogéneas” del punto P, y se miden en [metros].
Algunos autores como (Tsai, 1987), afirman que normalmente en los diversos estándares
industriales que existen para representar una imagen en formato digital, los valores de las
posiciones de los puntos que la conforman pertenecen a los reales positivos, lo cual
implica la necesidad de transformar el sistema de referencia del plano de formación de la
imagen, '' zx , a un nuevo sistema de referencia cartesiano vu medido en [metros],
presentado en la figura 23.
42
Figura 23. CCD ilustrando los sistemas de referencia cartesianos '' zx y vu . La fuente
de la imagen es propiedad de los autores.
Las coordenadas del punto 𝑃′ medidas respecto al sistema de referencia vu del plano
de la imagen, se pueden calcular usando la siguiente expresión:
'rrv
u
(38)
Donde r es el vector posición del punto 𝑃′ medido en el sistema de referencia '' zx y 𝑟′
es el vector posición que señala el origen O medido desde el sistema de referencia vu .
Por lo tanto:
C
C
C
C
vz
ux
v
u
z
x
v
u
'
'
'
' (39)
Donde (𝑢𝑐 , 𝑣𝑐) son las coordenadas del origen del sistema de referencia (𝑢, 𝑣) medidas
respecto al sistema de referencia '' zx , que a su vez definen las coordenadas del centro
del CCD, O, medidas desde el sistema de referencia vu .
43
La expresión (39) es válida si los ejes 𝑥′ − 𝑢 y 𝑧′ − 𝑣 están en la misma dirección. Si los
ejes están en sentido contrarios tal como se ilustra en la figura 23, es necesario corregir la
expresión (39) multiplicando por -1 el lado derecho:
C
C
vz
ux
v
u
'
' (40)
Recordemos del capítulo 3 que el modelo de la lente Pin – Hole provoca un cambio en la
orientación “arriba – abajo” de la imagen respecto al objeto filmado, evento que no ocurre
en una cámara real. Para corregir este efecto es necesario reemplazar en la expresión
(39) la expresión que rige a v por Cvzv ' :
C
C
vz
ux
v
u
'
' (41)
Reescribiendo la expresión (40) usando coordenadas homogéneas (agregando la
identidad 1=1 como ecuación extra):
1
'
'
1C
C
vz
ux
vu
ó
1
''
100
10
01
1
zx
v
u
vu
C
C
(42)
Es importante recordar que las coordenadas del punto P’ capturado por el CCD son
convertidas a coordenadas en píxeles por las fotocélulas, así que las coordenadas del
punto P’ en [metros], ),(' vuP , convertidas a [píxeles], ),(' PP vuP , son iguales a:
][PíxelesuuP (43)
][PíxelesvvP (44)
44
Donde , son las densidades de píxeles por metro a lo ancho y alto del CCD
definidas en el capítulo 3.
Las expresiones (43) y (44) se pueden reescribir matricialmente empleando coordenadas
homogéneas (agregando la identidad 1 = 1):
1100
00
00
1
vu
v
u
P
P
(45)
Por lo tanto a partir de las expresiones (37), (42) y (45), las coordenadas (𝑢𝑝, 𝑣𝑝) del
punto 𝑃′ presente en la imagen conocidas las coordenadas del punto P tridimensional,
),,( CCC zyx , se pueden calcular usando la siguiente expresión:
100
10
000
000
100
10
01
100
00
00
1 C
C
C
C
C
C
C
C
P
P
z
y
x
y
y
F
y
F
v
u
v
u
(46)
Modelo Matemático de la Cámara Usando el Modelo Pin – Hole de la Lente
Dónde:
|𝛼 0 00 𝛽 00 0 1
|Es la matriz que contiene los factores de escala del CCD.
|−1 0 𝑢𝐶0 1 𝑣𝐶0 0 1
|Es la matriz que contiene las coordenadas del centro de la imagen en metros.
45
||
−𝐹
𝑦𝐶0 0 0
0 0−𝐹
𝑦𝐶 0
01
𝑦𝐶0 0
|| Es la matriz que contiene los parámetros ópticos de la lente bajo el
modelo Pin – Hole. La expresión (46) es importantísima ya que permite calcular las coordenadas del punto P’
sobre la imagen en [Píxeles], a partir del conocimiento de las coordenadas 3 – D del punto
P en [metros]
4.2 Transformación de Sistemas de Referencia
Si el punto P no se mide respecto al sistema de referencia CCC zyx de la cámara si
no que se mide respecto a un sistema de referencia absoluto llamado “Coordenadas del
Mundo” o “World Coordinates”, WWW zyx , es necesario transformar las coordenadas
del punto P medidas respecto al sistema de referencia de la cámara, P(𝑋𝐶 , 𝑌𝐶 , 𝑍𝐶) al
sistema de referencia absoluto P(𝑋𝑊, 𝑌𝑊, 𝑍𝑊).
La introducción de estas nuevas coordenadas para referenciar la ubicación del punto P de
tres dimensiones cuya imagen se capturará con la cámara, permitirá introducir dos
funciones extras al modelo obtenido de la cámara en la sección anterior: Rotación y
Traslación de la cámara en ángulos y direcciones arbitrarias, tal como se puede hacer con
una cámara real. Estas funciones permiten además referenciar la ubicación y orientación
de dos (2) o más cámaras en un sistema de metrología 3 – D o de reconstrucción
tridimensional empleando visión estereoscópica con 2 o más cámaras.
En la figura 24 se ilustran los sistemas de referencia absoluto WWW zyx respecto al
sistema de coordenadas de la cámara CCC zyx .
46
Figura 24. Medición del punto P desde los Sistemas de Referencia absoluto WWW zyx
y respecto al sistema de referencia de la cámara CCC zyx . La fuente de la imagen es
de propiedad de los autores.
Nótese que el sistema de referencia del mundo (sistema absoluto) se ha elegido
arbitrariamente con sentido de orientación tipo “izquierdo” mientras que el sistema de
referencia de la cámara tiene un sentido de orientación “derecho” elegido arbitrariamente.
La transformación del sistema de referencia cartesiano del mundo al sistema cartesiano
de referencia de la cámara, se ejecuta en dos trasformaciones esenciales:
1. Transformación de traslación.
2. Transformación de rotación.
4.2.1 Transformación de Traslación
La transformación de traslación se aplica cuando se desea convertir las coordenadas del
punto P (𝑋𝑊, 𝑌𝑊, 𝑍𝑊) al sistema de referencia CCC zyx , cuyo origen es diferente al
origen del sistema de referencia del mundo, pero todos los ejes de los dos sistemas de
referencia son paralelos.
47
En la figura 25 se ilustran dos sistemas cartesianos de referencia WWW zyx y
TTT zyx , donde el último sistema está trasladado respecto al sistema absoluto, y
eventualmente puede ser el sistema de referencia de la cámara (no necesariamente esto
es cierto si además existe rotación de la misma).
Figura 25. Sistemas cartesianos de referencia, 𝑋𝑊 − 𝑌𝑊 − 𝑍𝑊 y 𝑋𝑇 − 𝑌𝑇 − 𝑍𝑇. La fuente
de la imagen es propiedad de los autores.
De la figura 25 se puede verificar la siguiente propiedad vectorial elemental:
|𝑋𝑇𝑌𝑇𝑍𝑇
| = |
𝑋𝑊𝑌𝑊𝑍𝑊
| − |𝑎𝑏𝑐| (47)
Donde cba es el vector posición del origen de sistema de referencia TTT zyx
medido desde el sistema de referencia del mundo.
Si uno o varios ejes del nuevo sistema de referencia cartesiano de referencia están en
sentido contrario a uno o varios ejes de referencia del mundo, entonces se debe
multiplicar por (-1) la respectiva componente del vector (𝑋𝑇 , 𝑌𝑇 , 𝑍𝑇).
48
En particular se puede observar de la figura 25 que el eje Ty del sistema de referencia
trasladado tiene una dirección contraria al eje Wy del sistema de referencia del mundo,
entonces la ley de trasformación se puede reescribir así:
|𝑋𝑇𝑌𝑇𝑍𝑇
| = |
𝑋𝑊 − 𝑎−𝑌𝑊 + 𝑏)𝑍𝑊 − 𝑐
| (48)
La expresión (47) se puede reescribir matricialmente usando coordenadas homogéneas:
|
𝑋𝑇𝑌𝑇𝑍𝑇1
| = |
1000
0−1 0 0
0 0 1 0
−𝑎 𝑏−𝑐 1
| |
𝑋𝑊𝑌𝑊𝑍𝑊1
| (49)
Esta última expresión sirve para calcular las coordenadas del punto P(𝑋𝑇 , 𝑌𝑇 , 𝑍𝑇)
conocidas las coordenadas del mismo punto respecto al sistema de referencia del mundo
𝑃(𝑋𝑊, 𝑌𝑊, 𝑍𝑊 ).
4.2.2 Transformación de Rotación
Se aplica cuando los sistemas de referencia del mundo, WWW zyx , y de la cámara,
RRR zyx , comparten el mismo origen cartesiano, pero existen desviaciones angulares
entre los ejes tal como se ilustra en la figura 26; donde el último sistema está rotado
respecto al sistema absoluto del mundo, y eventualmente puede ser el sistema de
referencia de la cámara (no necesariamente esto es cierto si existe traslación de la
misma).
49
Figura 26. Posibles rotaciones del sistema RRR zyx , respecto al sistema WWW zyx
A) respecto al eje Z, B) respecto al eje X, y C) Respecto al eje Y. La fuente de la imagen
es de los autores.
En la figura 27 se ilustra el sistema de referencia WWW zyx y el sistema rotado
RRR zyx cuando existe una rotación en el eje z, 𝜃𝑍, medida a partir del eje Wx .
Figura 27: Sistemas de referencia WWW zyx y sistema de referencia RRR zyx
rotado alrededor del eje Z en 𝜃𝑍 [Radianes]. El eje 𝑍𝑊 sale del plano de dibujo. La imagen
es propiedad de los autores.
50
De la figura 27 se puede verificar que:
𝑥𝑅 = |𝑅| cos(𝛼 − 𝜃𝑍) (50)
𝑦𝑅 = |𝑅| sen(𝛼 − 𝜃𝑍) (51)
𝑧𝑅 = 𝑧𝑅 (52)
Dónde:
22
WW yxR (53)
Reemplazando la expresión (53) en las expresiones (50) y (51) y ejecutando las
operaciones trigonométricas, se obtiene que:
𝑋𝑅 = (√𝑥𝑊2 + 𝑦𝑊
2 cos 𝛼) cos𝜃𝑍 + (√𝑥𝑊2 + 𝑦𝑊
2𝑠𝑒𝑛 𝛼) 𝑠𝑒𝑛 𝜃𝑍 (54)
𝑌𝑅 = (√𝑥𝑊2 + 𝑦𝑊
2 sen𝛼) cos𝜃𝑍 − (√𝑥𝑊2 + 𝑦𝑊
2𝑐𝑜𝑠 𝛼) 𝑠𝑒𝑛 𝜃𝑍 (55)
Es elemental verificar de la figura 27 que:
√𝑥𝑊2 + 𝑦𝑊
2 cos𝛼 = 𝑥𝑊 (56)
√𝑥𝑊2 + 𝑦𝑊
2 sen𝛼 = 𝑦𝑊 (57)
Reemplazando las expresiones (56) y (57) en las expresiones (54) y (55), se obtienen los
siguientes resultados:
𝑥𝑅 = 𝑥𝑊 cos 𝜃𝑍 + 𝑦𝑊 𝑠𝑒𝑛 𝜃𝑍 (58)
𝑌𝑅 = 𝑦𝑊 cos 𝜃𝑍 −𝑥𝑊 𝑠𝑒𝑛 𝜃𝑍 (59)
51
Las expresiones (58) y (59) sirven para calcular las coordenadas P(𝑥𝑅 , 𝑦𝑅 , 𝑧𝑅) de un punto
P medido respecto a un sistema de referencia RRR zyx rotado 𝜃𝑍 [𝑅𝑎𝑑𝑖𝑎𝑛𝑒𝑠]
respecto al sistema de referencia del mundo WWW zyx .
Las expresiones (53), (58) y (59) se pueden reescribir matricialmente así:
|
𝑥𝑅𝑦𝑅𝑧𝑅| = |
𝑐𝑜𝑠 𝜃𝑍 𝑠𝑒𝑛 𝜃𝑍 0−𝑠𝑒𝑛 𝜃𝑍 𝑐𝑜𝑠 𝜃𝑍 0
0 0 1| |
𝑥𝑊𝑦𝑊𝑧𝑊| (60)
O de forma compacta
WZZR XRX )()( (61)
Donde:
100
0cossen
0sencos
)( ZZ
ZZ
ZR es la matriz de rotación respecto al eje z.
)( RRRZR zyxX Es el vector posición del punto P medido respecto al sistema de
referencia rotado respecto al eje z.
WWWW zyxX Es el vector posición del punto P medido respecto al sistema de
referencia absoluto del mundo.
A continuación se examinará la trasformación de rotación del sistema de referencia
WWW zyx a un sistema de referencia RRR zyx , si se aplica una rotación 𝜃𝑋[𝑅𝑎𝑑]
al eje 𝑋𝑊.
52
En la figura 28 se ilustra el plano cartesiano del sistema de referencia (𝑋𝑊, 𝑌𝑊, 𝑍𝑊), y el
plano cartesiano del sistema rotado (𝑋𝑅 , 𝑌𝑅 , 𝑍𝑅), cuando se rota el eje X en una cantidad
𝜃𝑋[𝑅𝑎𝑑].
Figura 28. Sistemas de referencia WWW zyx y sistema de referencia RRR zyx
rotado alrededor del eje x en 𝜃𝑋 [Radianes]. El eje 𝑋𝑊 sale del plano de dibujo.
De nuevo:
𝑦𝑅 = |𝑅| cos(𝛽 − 𝜃𝑋) (62)
𝑧𝑅 = |𝑅| sen(𝛽 − 𝜃𝑋) (63)
𝑥𝑅 = 𝑥𝑅 (64)
Donde:
22
WW yzR (65)
Reemplazando la expresión (65) en las expresiones (62) y (63), se llegan a los siguientes
resultados:
𝑦𝑅 = √𝑧𝑊2 + 𝑦𝑊
2 (cos 𝛽 cos 𝜃𝑋 + 𝑠𝑒𝑛 𝛽 𝑠𝑒𝑛 𝜃𝑋) (66)
𝑧𝑅 = √𝑧𝑊2 + 𝑦𝑊
2 (sen𝛽 cos 𝜃𝑋 − cos𝛽 𝑠𝑒𝑛 𝜃𝑋) (67)
53
Es elemental verificar de la figura 28 que:
√𝑧𝑊2 + 𝑦𝑊
2 cos 𝛽 = 𝑦𝑊 (68)
√𝑧𝑊2 + 𝑦𝑊
2 sen𝛽 = 𝑧𝑊 (69)
Reemplazando las expresiones (68) y (69) en las expresiones (66) y (67), se obtiene que:
𝑦𝑅 = 𝑦𝑊 cos𝜃𝑋 + 𝑧𝑊 𝑠𝑒𝑛 𝜃𝑋 (70)
𝑧𝑅 = 𝑧𝑊 cos 𝜃𝑋 −𝑦𝑊 𝑠𝑒𝑛 𝜃𝑋 (71)
Las expresiones (70) y (71) sirven para calcular las coordenadas P(𝑥𝑅 , 𝑦𝑅 , 𝑧𝑅) de un punto
P medido respecto a un sistema de referencia RRR zyx rotado 𝜃𝑋 [𝑅𝑎𝑑𝑖𝑎𝑛𝑒𝑠]
respecto al sistema de referencia del mundo WWW zyx .
Las expresiones (64), (70) y (71) se pueden reescribir matricialmente así:
|
𝑥𝑅𝑦𝑅𝑧𝑅| = |
1 0 00 𝑐𝑜𝑠 𝜃𝑋 𝑠𝑒𝑛 𝜃𝑋0 −𝑠𝑒𝑛 𝜃𝑋 𝑐𝑜𝑠 𝜃𝑋
| |
𝑥𝑊𝑦𝑊𝑧𝑊| (72)
O de forma compacta
WXXR XRX )()( (73)
Dónde:
XX
XX
cossen0
sencos0
001
)(
XR Es la matriz de rotación respecto al eje x.
54
)( RRRXR zyxX Es el vector posición del punto P medido respecto al sistema de
referencia rotado respecto al eje x.
WWWW zyxX Es el vector posición del punto P medido respecto al sistema de
referencia absoluto del mundo.
Por último, la trasformación de rotación del sistema de referencia WWW zyx a un
sistema de referencia RRR zyx , si se aplica una rotación 𝜃𝑌[𝑅𝑎𝑑] alrededor del eje
𝑌𝑊.
En la figura 29 se ilustra el plano cartesiano del sistema de referencia WWW zyx , y el
plano cartesiano del sistema rotado RRR zyx , cuando se rota el eje y en una cantidad
𝜃𝑌[𝑅𝑎𝑑].
Figura 29. Sistemas de referencia WWW zyx y sistema de referencia RRR zyx
rotado alrededor del eje y en 𝜃𝑌 [Radianes]. El eje 𝑌𝑊 sale del plano de dibujo.
Nuevamente, se puede verificar de la figura 29 las siguientes relaciones:
𝑍𝑅 = |𝑅| cos(𝛾 − 𝜃𝑌) (74)
55
𝑋𝑅 = |𝑅| sen(𝛾 − 𝜃𝑌) (75)
𝑦𝑅 = 𝑦𝑅 (76)
Y:
22
WW xzR (77)
√𝑧𝑊2 + 𝑥𝑊
2 cos 𝛾 = 𝑧𝑊 (78)
√𝑧𝑊2 + 𝑥𝑊
2 sen 𝛾 = 𝑥𝑊 (79)
Reemplazando las expresiones (77), (78) y (79) en las expresiones (74) y (75) se llega a
los siguientes resultados:
𝑧𝑅 = 𝑧𝑊 cos 𝜃𝑌 + 𝑥𝑊 𝑠𝑒𝑛 𝜃𝑌 (80)
𝑥𝑅 = 𝑥𝑊 cos 𝜃𝑌 −𝑧𝑊 𝑠𝑒𝑛 𝜃𝑌 (81)
Las expresiones (80) y (81) sirven para calcular las coordenadas P(𝑥𝑅 , 𝑦𝑅 , 𝑧𝑅) de un punto
P medido respecto a un sistema de referencia RRR zyx rotado 𝜃𝑌 [𝑅𝑎𝑑𝑖𝑎𝑛𝑒𝑠]
respecto al sistema de referencia del mundo WWW zyx .
Las expresiones (76), (80) y (81) se pueden reescribir matricialmente así:
|
𝑥𝑅𝑦𝑅𝑧𝑅| = |
𝑐𝑜𝑠 𝜃𝑌 0 −𝑠𝑒𝑛 𝜃𝑌0 1 0
𝑠𝑒𝑛 𝜃𝑌 0 𝑐𝑜𝑠 𝜃𝑌
| |
𝑥𝑊𝑦𝑊𝑧𝑊| (82)
O de forma compacta
WYYR XRX )()( (83)
Dónde:
56
YY
YY
cos0sen
010
sen-0cos
)(
YR Es la matriz de rotación respecto al eje y.
)( RRRYR zyxX Es el vector posición del punto P medido respecto al sistema de
referencia rotado respecto al eje y.
WWWW zyxX Es el vector posición del punto P medido respecto al sistema de
referencia absoluto del mundo.
Nótese que las tres matrices de rotación obtenidas son ortonormales.
Si se aplican simultáneamente desplazamientos angulares en los tres ejes del sistema de
referencia WWW zyx , entonces las coordenadas del sistema rotado resultante se
calcula así:
|
𝑋𝑅𝑌𝑅𝑍𝑅
| = 𝑅(𝜃𝑋, 𝜃𝑌, 𝜃𝑍) |
𝑋𝑊𝑌𝑊𝑍𝑊
| (84) Expresión importantísima
Donde la matriz de orden 3X3, 𝑅(𝜃𝑋, 𝜃𝑌, 𝜃𝑍) se calcula así:
𝑅(𝜃𝑋, 𝜃𝑌, 𝜃𝑍) = 𝑅(𝜃𝑋) 𝑅(𝜃𝑌) 𝑅(𝜃𝑍) (85)
𝑅(𝜃𝑋, 𝜃𝑌, 𝜃𝑍) Recibe el nombre de matriz de rotación y es ortonormal.
La expresión (43) se puede reescribir usando coordenadas homogéneas así:
11
0
0
0
00
,,
01
33
W
W
W
ZYX
R
R
R
z
y
x
R
z
y
x
(86)
57
4.3 Modelo Lineal de Formación de la Imagen de la Cámara Incluyendo
Traslación y Rotación
De las expresiones (46), (49) y (86) es posible obtener una única expresión para calcular
las coordenada en [Píxeles] de un punto P’ proveniente de la filmación de un punto P
medido respecto al sistema de referencia absoluto WWW zyx :
11000
100
010
001
1
0
0
0
00
,,
000
10
000
000
100
10
01
100
00
00
1
33
W
W
W
ZYX
C
C
C
C
C
P
P
z
y
x
c
b
a
R
y
y
F
y
F
v
u
v
u
(87)
Si se multiplica ambos lados de la expresión (87) por Cy , entonces la expresión (86) se
puede reescribir de la siguiente forma:
11000
100
010
001
1
0
0
0
00
,,
00010
000
000
100
10
01
100
00
0033
W
W
W
ZYX
C
C
C
CP
CP
z
y
x
c
b
a
RF
F
v
u
y
yv
yu
Si definimos la coordenada Cy con un nuevo nombre: CP yt , donde Pt recibe el nombre
de “Coordenada Homogénea de la Cámara”, entonces la anterior expresión se puede
reescribir así:
11000
100
010
001
1
0
0
0
00
,,
00010
000
000
100
10
01
100
00
0033
W
W
W
ZYX
C
C
P
PP
PP
z
y
x
c
b
a
RF
F
v
u
t
tv
tu
(88) Modelo Lineal de Una Cámara
58
Donde el vector PPPPP ttvtu recibe el nombre de Vector de Coordenadas ‘up, vp’
homogéneas.
PPtu Recibe el nombre de Coordenada ‘up’ homogénea, y PPtv recibe el nombre de
Coordenada ‘vp’ homogénea.
Se puede verificar la siguiente propiedad: La primera y la segunda componente del
vector de coordenadas homogéneas ‘up, vp’ al ser divididas por la tercera
componente homogénea ( Pt ), dan como resultado las coordenadas en píxeles del
punto 𝑷′(𝒖𝒑, 𝒗𝒑).
El producto de las tres primeras matrices de la expresión (88) se puede reescribir así:
1333 0,
0010
000
000
100
10
01
100
00
00
KF
F
v
u
C
C
(89)
Donde la matriz K de orden 3X3 es igual a:
010
0
0
010
00
00
100
10
01
100
00
00
Fv
uF
F
F
v
u
K C
C
C
C
(90)
Se puede observar que la matriz K contiene todos los parámetros intrínsecos de la
cámara: Parámetros constructivos de la cámara tanto de la lente como del CCD, que
no dependen de las transformaciones de traslación y rotación.
Por lo tanto la expresión (87) se puede escribir en términos de K así:
59
11000
100
010
001
1
0
0
0
00
,,
0
0, 33
1333
W
W
W
ZYX
P
PP
PP
z
y
x
c
b
a
RK
t
tv
tu
(91)
Ó
1
10
'
10
0,,0,
31
1333
31
1333
1333
W
W
W
ZYX
P
PP
PP
z
y
x
TIRK
t
tv
tu
(92)
Donde
100
010
001
`I
&
c
b
a
T 13 (Vector que contiene las coordenadas de traslación de la cámara respecto al
sistema de referencia del mundo).
Los parámetros de la matriz de rotación 𝑅(𝜃𝑋, 𝜃𝑌, 𝜃𝑍) (los elementos de dicha matriz), y los
parámetros que componen al vector de traslación reciben el nombre de parámetros
extrínsecos de la cámara y obviamente dependen de los ángulos de giro que posea
la cámara respecto al sistema de referencia absoluto y de la traslación de la cámara
respecto a dicho sistema del mundo.
60
Al multiplicar las matrices se llega al siguiente resultado:
11
0
0
0
1
0
0
0
1
,,3333
W
W
W
ZYX
P
PP
PP
z
y
x
c
b
a
RK
t
tv
tu
(92)
Otro Modelo Lineal Equivalente de una Cámara
(Importante)
Este modelo lineal equivalente de la formación de la imagen en una cámara es usado por
(Zhang, 2000) para definir la metodología diseñada por él para “calibrar” cámaras
(proceso experimental de estimación de los parámetros intrínsecos y extrínsecos de una
cámara bajo un modelo lineal o no lineal).
4.4 Modelo No Lineal de la Cámara: Introducción de las distorsiones
geométricas
Como se presentó en el capítulo anterior, al modelo de la lente Pin - Hole se puede
modificar para representar todos los tipos de distorsiones que pueden aparecer sobre
dicho dispositivo óptico: La distorsión radial, la distorsión tangencial y la distorsión
prismática.
A continuación se procede a enseñar las modificaciones del modelo lineal de la cámara
para introducir los efectos de las distorsiones generadas por la lente.
61
Modelo de la Cámara con Distorsión
Del modelo lineal de la cámara, se puede verificar que:
1
'
'
100
10
01
100
00
00
1
z
x
v
u
v
u
C
C
P
P
(93)
Del capítulo 4 las distorsiones introducidas por la lente se pueden modelar así:
)','(''' zxxxx DD (94)
)','(''' zxzzz DD (95)
Donde )','(' zxxD y )','(' zxzD representan las distorsiones introducidas por la lente
(idealmente dichos deltas deberían valer 0), y )','( DD zx son las coordenadas del punto P’
con distorsión.
Si la lente introduce distorsión entonces la ecuación (93) que sirve para predecir la
posición de los píxeles se podría reescribir así:
1
'
'
100
10
01
100
00
00
1D
D
C
C
PD
PD
z
x
v
u
v
u
(96)
Donde PDu y
PDv son las coordenadas en píxeles del punto P’ cuyas coordenadas están
distorsionadas (en ubicaciones incorrectas) por efecto de anomalías constructivas
existentes en la lente.
Reemplazando las expresiones (94) y (95) en la expresión (96) se llega al siguiente
resultado:
62
1
)','(''
)','(''
100
10
01
100
00
00
1
zxzz
zxxx
v
u
v
u
D
D
C
C
PD
PD
Ejecutando las operaciones matriciales:
0
)','('
)','('
100
10
01
100
00
00
1
'
'
100
10
01
100
00
00
1
zxz
zxx
v
u
z
x
v
u
v
u
D
D
C
C
C
C
PD
PD
(97)
Reemplazando las expresiones (37), (86) y (49) en la expresión (97):
0
)','('
)','('
100
10
01
100
00
00
1
10
'
10
0,,
0010
000
000
100
10
01
100
00
00
31
1333
31
1333
PD
PD
C
C
W
W
W
ZYX
C
C
P
PPD
PPD
tzxz
tzxx
v
u
z
y
x
TIRF
F
v
u
t
tv
tu
(98)
La expresión (98) se conoce como el Modelo de la Cámara No Lineal, que tiene presente
todos los tipos de distorsiones representadas en las expresiones que rigen a )','(' zxxD y
)','(' zxzD .
La expresión (98) se puede representar de la siguiente forma usando el resultado
ilustrado en la expresión (88):
63
0
)','('
)','('
100
10
01
100
00
00
PD
PD
C
C
P
PP
PP
P
PPD
PPD
tzxz
tzxx
v
u
t
tv
tu
t
tv
tu
(99)
Si se define
0
)','('
)','('
100
10
01
100
00
00
PD
PD
C
C
P
PDP
PDP
tzxz
tzxx
v
u
t
tv
tu
(100)
Donde DPu y
DPv son las distorsiones en píxeles introducidas por la lente.
Entonces la expresión que rige el vector de coordenadas homogéneas de los píxeles
distorsionados por causa de la lente, será igual a:
P
PPD
PPD
P
PP
PP
P
PPD
PPD
t
tv
tu
t
tv
tu
t
tv
tu
(101)
De donde se concluye que:
PDP
PDP
PD
PD
vv
uu
v
u (102)
La expresión (102) afirma que las coordenadas del punto P’ distorsionado por causa de la
lente se puede calcular como las coordenadas del punto P’ en píxeles sin distorsionar,
más unos deltas en píxeles que representan las distorsiones introducidas por las lentes.
64
(Ricolfe, 2006) documenta las expresiones más usuales empleadas en la literatura de
modelos de cámaras para modelar las distorsiones presentes en una lente en unidades
de píxeles:
Distorsión Tangencial:
...))((2))(2( 2
22
1 PCDPPCDPPCDPPD vvuupuurpu (103)
...))(2())((2 22
21 PCDPPCDPPCDPPD vvrpvvuupv (104)
Donde:
𝑝1, 𝑝2, … , 𝑝𝑁, son los coeficientes que modelan la distorsión tangencial.
),( PCDPCD vu son las coordenadas en píxeles del centro de la distorsión.
𝑟, es la distancia entre el centro de distorsión de la lente y el punto obtenido con Pin-Hole:
22 )()( PCDPPCDP vvuur (105)
Distorsión Prismática:
...6
3
4
2
2
1 rsrsrsuPD (106)
...6
3
4
2
2
1 rsrsrsvPD (107)
Donde:
𝑠1, 𝑠2, … , 𝑠𝑁, son los coeficientes que modelan la distorsión prismática.
𝑟, es la distancia entre el centro de distorsión de la lente y el punto obtenido con Pin-Hole
dada por la expresión (105).
Distorsión Radial:
6
3
4
2
2
1)( rkrkrkuuu PCDPPD (108)
6
3
4
2
2
1)( rkrkrkvvv PCDPPD (109)
65
𝑟, es la distancia entre el centro de distorsión de la lente y el punto obtenido con Pin-Hole
dada por la expresión (105).
La distorsión total introducida por la lente es la suma de la distorsión tangencial más la
radial más la prismática:
......))((2
))(2()(
6
3
4
2
2
12
22
1
6
3
4
2
2
1
rsrsrsvvuup
uurprkrkrkuuu
PCDPPCDP
PCDPPCDPPD (110)
&
......))(2(
))((2)(
6
3
4
2
2
1
22
2
1
6
3
4
2
2
1
rsrsrsvvrp
vvuuprkrkrkvvv
PCDP
PCDPPCDPPCDPPD (111)
(Tsai, 1987), enuncia que en aplicaciones de visión estereoscópica sólo en necesario
considerar la distorsión radial, ya que un modelo de la cámara más elaborado donde se
incluyan los otros tipos de distorsiones, los métodos numéricos empleados para estimar
los parámetros del modelo podrían aparecer molestos fenómenos de inestabilidad
numérica; además (Tsai,1987) muestra que en la mayoría de cámaras de buena calidad
las distorsiones prismática y tangencial suelen ser despreciables frente a la distorsión
radial, por tal motivo se tomó la decisión en el presente documento de sólo modelar el
efecto de la distorsión radial en la cámara.
66
5. TÉCNICAS DE CALIBRACIÓN DE LA CÁMARA
El proceso de calibración de una cámara consiste en la estimación de los parámetros
intrínsecos (factores de escalamiento, las coordenadas del centro del plano de imagen y
la distancia focal) y extrínsecos (rotación y traslación) de esta; al conocer estos
parámetros se puede obtener las distancias precisas en el mundo real a partir de
imágenes capturadas del mismo.
Existen diferentes técnicas para realizar el proceso de estimación de parámetros del
modelo de la cámara, clasificadas estas según el tipo de parámetros a determinar
(extrínsecos o intrínsecos), el tipo de plantilla empleada (plantillas unidimensionales,
bidimensionales, tridimensionales), según el modelo a estimar (lineal o no lineal) entre
otras posibles clasificaciones.
En el presente capítulo se abordaran las técnicas más usualmente empleadas a la fecha
para calibrar cámaras, con la finalidad de emplear los resultados obtenidos en el diseño
de un sistema metrológico de obtención de las coordenadas en tres dimensiones de un
punto del espacio empleando Visión Estereoscópica.
En la figura 30 se puede observar en un diagrama, una posible clasificación de algunas de
las técnicas empleadas para calibrar una cámara.
67
Figura 30. Diagrama ilustrativo de algunas técnicas o métodos empleados para calibrar
cámaras. La fuente de la imagen es de los autores.
68
Todas las técnicas de calibración exigen conocer de antemano los valores de las
coordenadas de un conjunto de N - puntos de 3 dimensiones en [metros],
NPPPP ,,,, 321 , y sus respectivos puntos de 2 dimensiones en píxeles capturados
por la cámara ',,',',' 321 NPPPP , con la finalidad de reemplazar estas coordenadas
en el modelo lineal o no lineal de la cámara, para luego estimar los parámetros de la
misma empleando diversos métodos numéricos de optimización lineal como los mínimos
cuadrados, o métodos de optimización no lineales como el método del descenso del
gradiente, el método de Newton, o el método de Levenberg – Marquardt. Los métodos de
optimización empleados para estimar los parámetros intrínsecos y extrínsecos de la
cámara, se fundamentan en la minimización de la norma euclidiana de un vector error,
donde dicho vector se calcula como la diferencia aritmética entre las coordenadas en
píxeles medidas de los puntos ',,',',' 321 NPPPP y las coordenadas en píxeles de
estos puntos estimadas por el método numérico de optimización.
Los N – puntos de tres dimensiones a ser medidos durante el proceso de calibración
están ubicados en un arreglo físico que recibe el nombre de plantilla. Normalmente la
plantilla posee puntos de tres dimensiones cuyas coordenadas en metros respecto a un
sistema de referencia absoluto WWW zyx son conocidas.
Las técnicas de calibración se pueden clasificar según el tipo de plantillas empleadas para
calibrar cámaras: Según el número de dimensiones geométricas que posean las plantillas,
las técnicas de calibración se pueden clasificar así (Zhang,2000):
Técnicas de calibración que usan plantillas tridimensionales, técnicas de calibración que
usan plantillas bidimensionales, y técnicas de calibración que usan plantillas
unidimensionales, enseñadas en la figura 31.
69
Figura 31. Ejemplos de tipos de plantillas empleadas para calibración de cámaras: a)
Plantilla tridimensional, b) plantillas bidimensionales. La fuente de la imagen es propiedad
de (Zhang Zhengyou, 2004).
Las técnicas que emplean plantillas tridimensionales como la técnica de Faugeras
(Faugeras, 1992), requieren de objetos armados por lo menos con tres planos
típicamente ortogonales entre sí, reticulados de forma uniforme en [metros] para
establecer un sistema de referencia de medición de las coordenadas de los puntos
presentes sobre la misma, que además garantice que los puntos tridimensionales puestos
sobre cada uno de los planos posean por lo menos una coordenada idéntica,
característica que facilita el proceso de medición de los valores de las coordenadas de los
puntos.
Cuando se usa una técnica de calibración de cámaras empleando una plantilla
tridimensional solo es necesaria una (1) pose o captura de la imagen de dicha plantilla,
pero se exige conocer la ubicación de la cámara o cámaras y las coordenadas de los
puntos presentes en la plantilla desde el sistema de referencia absoluto WWW zyx .
70
Las técnicas de calibración que emplean plantillas bidimensionales, como la técnica de
Zhang (Zhang, 2000), requieren de la implementación de una superficie plana
previamente reticulada de forma uniforme para establecer las coordenadas de cada uno
de los puntos tridimensionales puestos sobre estas. Las técnicas de calibración que
emplean plantillas bidimensionales requieren de tres poses en diferentes posiciones de la
misma para estimar los parámetros del modelo de una cámara, y no se requiere conocer
la ubicación de la cámara respecto al sistema de referencia absoluto WWW zyx ,
propiedad que facilita enormemente el proceso de medición de las coordenadas de los
puntos presentes en la plantilla a ser empleados en el proceso de calibración.
Por último las técnicas de calibración que requieren de plantillas unidimensionales, usan
objetos puntuales que sean fácilmente visibles por múltiples cámaras, y por ende son
ampliamente empleadas en la estimación de parámetros de sistemas de visión artificial
compuestos por varias cámaras (Ricolfe, 2006).
De la ecuación (92) del capítulo anterior, se puede verificar que el modelo lineal de una
cámara se puede representar como una matriz multiplicada por el vector de coordenadas
homogéneas del sistema de referencia absoluto del mundo:
111
0
0
0
1
0
0
0
1
,,
34
24
14
33
23
13
32
22
12
31
21
11
3333
W
W
W
W
W
W
ZYX
P
PP
PP
z
y
x
C
C
C
C
C
C
C
C
C
C
C
C
z
y
x
c
b
a
RK
t
tv
tu
(112)
ó
3
1134
24
14
33
23
13
32
22
12
31
21
11
43
W
W
W
W
W
W
P
PP
PP
z
y
x
C
C
C
C
C
C
C
C
C
C
C
C
z
y
x
C
t
tv
tu
(113)
71
La matriz C recibe el nombre de matriz de calibración de la cámara, y obviamente los
parámetros de dicha matriz, 34131211 ,,,, CCCC , dependen de los parámetros
intrínsecos y extrínsecos de la cámara.
Existen técnicas de calibración que inicialmente sólo sirven para estimar el valor de los
elementos de la matriz C, y reciben el nombre de técnicas o métodos de calibración
implícitos.
Cuando la técnica de calibración es capaz de estimar los valores de los parámetros
intrínsecos y / o extrínsecos de la cámara, se afirma que la técnica pertenece a los
métodos de calibración explícitos.
A continuación se procede a estudiar algunas técnicas consideradas como clásicas para
calibrar cámaras digitales, abordadas en el proyecto de grado.
5.1 Técnicas de Calibración Lineal
Las técnicas de calibración lineal implícitas proponen estimar los elementos de la matriz C
que modela linealmente la cámara, a partir de una pose de una plantilla tridimensional.
Estos métodos de estimación de parámetros del modelo de la cámara se fundamentan en
la estimación de los elementos de la matriz C, 34131211 ,,,, CCCC , a partir de un
sistema de ecuaciones lineales conformado por los valores de las coordenadas de los
puntos medidos en la plantilla tridimensional y los valores de las coordenadas de dichos
puntos capturados en la imagen. El sistema de ecuaciones lineales se construye a partir
de la ecuación que rige al modelo lineal de la cámara presentada en la expresión (113).
De la expresión (113) se obtiene que un (1) punto iP de coordenadas ),,( WiWiWi zyx
medido en la plantilla respecto al sistema de referencia absoluto, con un respectivo punto
'iP de coordenadas ),( PiPi vu medido en la imagen, cumple con las siguientes
ecuaciones:
72
14131211 CzCyCxCtu WiWiWiPiPi (114)
24232221 CzCyCxCtv WiWiWiPiPi (115)
34333231 CzCyCxCt WiWiWiPi (116)
Reemplazando la ecuación (116) en las ecuaciones (114) y (113) y organizando
matricialmente el sistema obtenido, se llega al siguiente importantísimo resultado:
0
0
1
0000
0
1
000
11234
33
32
31
24
23
22
21
14
13
12
11
122
C
C
C
C
C
C
C
C
C
C
C
C
v
u
vz
uz
vy
uy
vx
ux
zyx
zyx
Pi
Pi
PiWi
PiWi
PiWi
PiWi
PiWi
PiWi
WiWiWi
WiWiWi
(117)
Si se poseen N – puntos capturados de la plantilla tridimensional NPPPP ,,,, 321 con
sus respectivos N – puntos sobre la imagen ',,',',' 321 NPPPP , entonces el sistema
de ecuaciones (117) se puede reescribir así:
73
02
11234
33
32
31
24
23
22
21
14
13
12
11
122
2
2
22
22
22
22
22
22
222
222
1
1
11
1
11
11
12
11
111
111
0
0
0
0
0
0
1
0000
0
1
000
1
0000
0
1
000
1
0000
0
1
000
NNPN
PN
PNWi
PNWN
PNWi
PNWN
PNWN
PNWN
WNWNWN
WNWNWN
P
P
PW
PW
PW
PW
PW
PW
WWW
WWW
P
P
PW
PWi
PW
PW
PW
PW
WWW
WWW
C
C
C
C
C
C
C
C
C
C
C
C
v
u
vz
uz
vy
uy
vx
ux
zyx
zyx
v
u
vz
uz
vy
uy
vx
ux
zyx
zyx
v
u
vz
uz
vy
uy
vx
ux
zyx
zyx
Ó de forma compacta:
12112122 0 NN CL (118)
Donde L es la matriz dada por
PN
PN
PNWi
PNWN
PNWi
PNWN
PNWN
PNWN
WNWNWN
WNWNWN
P
P
PW
PW
PW
PW
PW
PW
WWW
WWW
P
P
PW
PWi
PW
PW
PW
PW
WWW
WWW
v
u
vz
uz
vy
uy
vx
ux
zyx
zyx
v
u
vz
uz
vy
uy
vx
ux
zyx
zyx
v
u
vz
uz
vy
uy
vx
ux
zyx
zyx
L
1
0000
0
1
000
1
0000
0
1
000
1
0000
0
1
000
2
2
22
22
22
22
22
22
222
222
1
1
11
1
11
11
12
11
111
111
Nótese que la matriz L se puede calcular en términos de las mediciones de las
coordenadas de los puntos NPPPP ,,,, 321 y ',,',',' 321 NPPPP , así que las
incógnitas a calcular es el vector conformado por los elementos de la matriz C que rige al
modelo lineal de la cámara.
74
Cómo el sistema de ecuaciones dado por (118) tiene 12 incógnitas, se requiere por lo
menos de 12 ecuaciones para ser resuelto, lo cual implica que se requiere capturar por lo
menos 6 puntos de la plantilla tridimensional con sus respectivos puntos bidimensionales
medidos en píxeles sobre la imagen capturada con la cámara.
Para garantizar que el sistema de ecuaciones posea una solución única, es necesario
garantizar que las ecuaciones sean linealmente independientes, lo cual se puede alcanzar
garantizando que los puntos capturados en la plantilla tridimensional pertenezcan a
diferentes planos.
Si se trata de resolver el sistema de ecuaciones dado por (118) empleando mínimos
cuadrados, la solución estimada es bastante desagradable: es la solución trivial
112112 0
C .
Demostremos rápidamente esta afirmación:
La solución estimada de C por mínimos cuadrados de la ecuación (117),
112C , es igual a:
bLLLC TT 1
112 )(
(119)
Donde b es el vector de términos independientes que para la ecuación es igual a 0. Por lo
tanto:
11212
1
112 00)(
N
TT LLLC
Así que es necesario establecer un método adecuado para estimar los parámetros del
modelo lineal de la cámara sin caer en el tipo de soluciones triviales no deseadas
ilustradas.
75
A continuación se proceden a ilustrar un primer método de calibración para estimar los
valores de la matriz C empleando mínimos cuadrados sin solución trivial: Técnica de
Calibración de Hall.
5.1.1 Método de calibración Lineal 1 Empleando Plantillas Tridimensionales: La
Técnica de Calibración de Hall
(Hall et al, 1982) propusieron la siguiente idea para poder determinar los parámetros de la
matriz C que rige a la cámara sin caer en la solución trivial 112112 0
C :
El modelo lineal que rige la formación de un punto en el CCD está dado por la expresión
(113):
|
𝑢𝑃𝑡𝑃𝑣𝑃𝑡𝑃𝑡𝑃
| = |
𝐶11𝐶21𝐶31
𝐶12𝐶22𝐶32
𝐶13𝐶23𝐶33
𝐶14𝐶24𝐶34
| |
𝑥𝑊𝑦𝑊𝑧𝑊1
|
Multiplicando ambos lados por una constante λ:
|
𝑢𝑃𝑡𝑃 λ𝑣𝑃𝑡𝑃λ𝑡𝑃λ
| = |
𝐶11λ𝐶21λ𝐶31λ
𝐶12λ𝐶22λ𝐶32λ
𝐶13λ𝐶23λ𝐶33λ
𝐶14λ𝐶24λ𝐶34λ
| |
𝑥𝑊𝑦𝑊𝑧𝑊1
| , λ ∈ R (120)
Nótese de la anterior ecuación que:
𝑢𝑃 =𝑢𝑃 𝑡𝑃 λ
𝑡𝑃 λ → 𝑢𝑃 = 𝑢𝑃
&
𝑣𝑃 =𝑣𝑃 𝑡𝑃 λ
𝑡𝑃 λ → 𝑣𝑃 = 𝑣𝑃
76
Se verifica que multiplicar por un factor λ a la ecuación que rige el modelo de la cámara,
no afecta el valor de las coordenadas en píxeles del punto P mapeado en el punto P’ en la
imagen capturada.
En particular si λ = 1
𝐶34 entonces el sistema de ecuaciones tendrá la siguiente forma:
|
𝑢𝑃𝑡𝑃 λ𝑣𝑃𝑡𝑃λ𝑡𝑃λ
| =
|
|
𝐶11𝐶34𝐶21𝐶34𝐶31𝐶34
𝐶12𝐶34𝐶22𝐶34𝐶32𝐶34
𝐶13𝐶34𝐶23𝐶34𝐶33𝐶34
𝐶14𝐶34𝐶24𝐶34
𝐶34𝐶34
= 1|
|
|
𝑥𝑊𝑦𝑊𝑧𝑊1
|
Por lo tanto, se puede suponer que el elemento 3 – 4 de la matriz de calibración es igual a
1 . Al reemplazar 𝐶34 = 1 en el sistema de ecuaciones lineales dado por la expresión
(118) se obtiene que:
02
112
33
32
31
24
23
22
21
14
13
12
11
122
2
2
22
22
22
22
22
22
222
222
1
1
11
1
11
11
12
11
111
111
0
0
0
0
0
0
1
1
0000
0
1
000
1
0000
0
1
000
1
0000
0
1
000
NNPN
PN
PNWi
PNWN
PNWi
PNWN
PNWN
PNWN
WNWNWN
WNWNWN
P
P
PW
PW
PW
PW
PW
PW
WWW
WWW
P
P
PW
PWi
PW
PW
PW
PW
WWW
WWW
C
C
C
C
C
C
C
C
C
C
C
v
u
vz
uz
vy
uy
vx
ux
zyx
zyx
v
u
vz
uz
vy
uy
vx
ux
zyx
zyx
v
u
vz
uz
vy
uy
vx
ux
zyx
zyx
77
Organizando el sistema de ecuaciones lineales se llega al siguiente sistema bajo notación
matricial:
02
2
2
1
1
11233
32
31
24
23
22
21
14
13
12
11
122
22
22
22
22
22
22
222
222
11
1
11
11
12
11
111
111
1
0000
0
1
000
1
0000
0
1
000
1
0000
0
1
000
NPN
PN
P
P
P
P
NPNWi
PNWN
PNWi
PNWN
PNWN
PNWN
WNWNWN
WNWNWN
PW
PW
PW
PW
PW
PW
WWW
WWW
PW
PWi
PW
PW
PW
PW
WWW
WWW
v
u
v
u
v
u
C
C
C
C
C
C
C
C
C
C
C
vz
uz
vy
uy
vx
ux
zyx
zyx
vz
uz
vy
uy
vx
ux
zyx
zyx
vz
uz
vy
uy
vx
ux
zyx
zyx
Ese sistema de ecuaciones no homogéneo se puede resolver con mínimos cuadrados:
Si se define una nueva matriz L y un nuevo vector b iguales a:
122
22
22
22
22
22
22
222
222
11
1
11
11
12
11
111
111
1
0000
0
1
000
1
0000
0
1
000
1
0000
0
1
000
NPNWi
PNWN
PNWi
PNWN
PNWN
PNWN
WNWNWN
WNWNWN
PW
PW
PW
PW
PW
PW
WWW
WWW
PW
PWi
PW
PW
PW
PW
WWW
WWW
vz
uz
vy
uy
vx
ux
zyx
zyx
vz
uz
vy
uy
vx
ux
zyx
zyx
vz
uz
vy
uy
vx
ux
zyx
zyx
L
&
02
2
2
1
1
NPN
PN
P
P
P
P
v
u
v
u
v
u
b
Entonces el sistema a resolver por mínimos cuadrados será el sistema no homogéneo
12111112 NN bCL (121)
78
Cuya solución estimada por mínimos cuadrados es:
bLLLC TT 1
111 )(
(122)
Si no se desea suponer que el parámetro 𝐶34 = 1 de la matriz que rige al modelo lineal de
la cámara (también llamada en la literatura como “matriz de calibración”), se puede usar
una alternativa muy interesante para estimar los elementos de la matriz de calibración.
5.1.2 Método de Calibración Lineal Empleando Plantillas Tridimensionales Número
2: Solución de la ecuación homogénea
Este método de calibración parte del supuesto que la magnitud del vector compuesto por
todos los elementos de la matriz de calibración,𝐶 = [𝐶11, 𝐶12 , 𝐶13 , … , 𝐶34]𝑇, tiene una
magnitud igual a uno.
Recordemos que la ecuación (118) es igual a:
12112122 0 NN CL
Si se multiplica ambos extremos de la ecuación por una constante ϒ, es elemental
verificar que la solución no es alterada:
000
34
13
12
11
34
13
12
11
12
34
13
12
11
122
C
C
C
C
L
C
C
C
C
L
C
C
C
C
L NN
(123)
Si se escoge la constante 𝛾 igual a:
79
γ =1
√𝐶112 + 𝐶12
2 + 𝐶132 +⋯+ 𝐶34
2 (124)
Entonces el vector TCCC 341211 será un vector unitario.
Por lo tanto la estimación de los elementos de la matriz de calibración, se reduce a
resolver el siguiente sistema de ecuaciones homogéneo sujeto a una restricción:
𝐿2𝑁𝑋12 𝐶12𝑋1 = 02𝑁𝑋1 & ‖𝐶12𝑋1‖ = 1 (125)
Se procede a resolver el problema expuesto usando la técnica de optimización con
restricciones de “Multiplicadores de Lagrange”.
Sea
112C una estimación de 112C , entonces se debe cumplir que
0112LC , o lo que es lo mismo
bLC 112 donde 0b
Por lo tanto el vector error cometido en el proceso de estimación de 112C es igual a:
112112 0 CLCLE (126)
Calculando la norma euclidiana del vector error:
)()( 112112
2
CLCLEEE TT (127)
El objetivo planteado es el de estimar los valores de {𝐶11, 𝐶12 , 𝐶13 , … , 𝐶34} que minimicen
la magnitud al cuadrado del error sujeto a la restricción ‖𝐶12𝑋1‖ = 1.
80
‖𝐸‖2 =
{
|
𝐿11𝐿21⋮
𝐿2𝑁 1
𝐿12𝐿22⋮
𝐿2𝑁 2
𝐿13𝐿23⋮
𝐿2𝑁 3
⋯⋯⋯⋯
𝐿1 12𝐿2 12⋮
𝐿2𝑁 12
||
|
𝐶11𝐶12𝐶13⋮𝐶34
|
|
}
𝑇
|
𝐿11𝐿21⋮
𝐿2𝑁 1
𝐿12𝐿22⋮
𝐿2𝑁 2
𝐿13𝐿23⋮
𝐿2𝑁 3
⋯⋯⋯⋯
𝐿1 12𝐿2 12⋮
𝐿2𝑁 12
||
|
𝐶11𝐶12𝐶13⋮𝐶34
|
|
Ejecutando las operaciones matriciales se llega al siguiente resultado:
‖𝐸‖2 = [𝐿11𝐶11 + 𝐿12𝐶12 + ⋯+ 𝐿1 12𝐶34]2 + [𝐿21𝐶11 + 𝐿22𝐶12 + ⋯+ 𝐿2 12𝐶34]
2 +⋯+
[𝐿2𝑁 1𝐶11 + 𝐿2𝑁 2𝐶12 + ⋯+ 𝐿2𝑁 12𝐶34]2 (127)
Minimicemos ‖𝐸‖2 sujeto a la restricción 𝐶12𝑋1 = 1 empleando la técnica de
multiplicadores de Lagrange:
Se debe calcular un escalar λ tal que:
∇ ‖𝐸‖2 − λ ∇𝑔 = 0 (129)
Donde 𝑔 = (𝐶112+ 𝐶12
2 + 𝐶132+ . . . + 𝐶34
2− 1) = 0 (condición de magnitud igual a 1 del
vector solución C).
Por lo tanto la expresión (129) se puede escribir así:
|
|
|
2𝐿11 [𝐿11𝐶11 + 𝐿12𝐶12 + ⋯+ 𝐿1 12𝐶34] + 2𝐿21 [𝐿21𝐶11 + 𝐿22𝐶12 + ⋯+ 𝐿2 12𝐶34] + ⋯
+ 2𝐿2𝑁 1 [𝐿2𝑁 1𝐶11 + 𝐿2𝑁 2𝐶12 + ⋯+ 𝐿2𝑁 12𝐶34]
2𝐿12 [𝐿11𝐶11 + 𝐿12𝐶12 + ⋯+ 𝐿1 12𝐶34] + 2𝐿22 [𝐿21𝐶11 + 𝐿22𝐶12 + ⋯+ 𝐿2 12𝐶34] + ⋯
+ 2𝐿2𝑁 2 [𝐿2𝑁 1𝐶11 + 𝐿2𝑁 2𝐶12 + ⋯+ 𝐿2𝑁 12𝐶34]
⋮2𝐿1 12 [𝐿11𝐶11 + 𝐿12𝐶12 + ⋯+ 𝐿1 12𝐶34] + 2𝐿2 12 [𝐿21𝐶11 + 𝐿22𝐶12 + ⋯+ 𝐿2 12𝐶34] + ⋯
+ 2𝐿2𝑁 12 [𝐿2𝑁 1𝐶11 + 𝐿2𝑁 2𝐶12 + ⋯+ 𝐿2𝑁 12𝐶34]
|
|
|
=
λ |
|
2𝐶112𝐶122𝐶13⋮
2𝐶34
|
| (130)
81
Organizando la ecuación anterior en forma matricial:
|
𝐿11𝐿12⋮
𝐿1 12
𝐿21𝐿22⋮
𝐿2 12
𝐿31𝐿32⋮
𝐿3 12
⋯⋯⋯⋯
𝐿2𝑁 1𝐿2𝑁 2⋮
𝐿2𝑁 12
| |
𝐿11𝐿21⋮
𝐿2𝑁 1
𝐿12𝐿22⋮
𝐿2𝑁 2
𝐿13𝐿23⋮
𝐿2𝑁 3
⋯⋯⋯⋯
𝐿1 12𝐿2 12⋮
𝐿2𝑁 12
||
|
𝐶11𝐶12𝐶13⋮𝐶34
|
|= λ
|
|
𝐶11𝐶12𝐶13⋮𝐶34
|
| (131)
De forma más compacta:
[𝐿𝑇 𝐿]𝐶12𝑋1 = λ 𝐶12𝑋1 (132)
Si se define la matriz cuadrada M igual a LLM T , entonces la ecuación (132) se
puede representar de la siguiente forma:
112112 CMC (133) Importantísima expresión.
Así que el problema de determinar el valor el vector incógnita 112C se ha convertido en un
problema matemático de valores y vectores propios.
Donde los valores propios de la matriz M , λ ,se calculan así:
λ = {λ ∈ C / det (M − λ I) = 0} (134)
Cada λ tiene asociado un vector propio �� tal que:
(M − λ I)�� = 0 (135)
Los vectores �� que sean soluciones de la anterior ecuación son los vectores propios de la
matriz M.
82
La solución
112C es el vector propio unitario que minimiza la norma al cuadrado del error,
y corresponde al valor propio más pequeño de la matriz M.
5.1.3 Método de Calibración Lineal Usando Plantillas Tridimensionales Número 3:
Técnica de Calibración de Faugeras
(Faugeras, 1992), propone una idea novedosa para estimar los elementos de la matriz de
calibración: Al revisar los valores que adquiere la subfila tres de la matriz C, se observa
que corresponde con la tercera fila de la matriz de rotación:
Recordemos que la matriz C de calibración se calcula así:
𝐶 = [𝐾 0] [𝑅] [𝑇]𝑋𝑊 = |
𝐶11𝐶21𝐶31
𝐶12𝐶22𝐶32
𝐶13𝐶23𝐶33
𝐶14𝐶24𝐶34
|
Al ejecutar las operaciones matriciales se llega al siguiente interesante resultado:
[𝐶31 𝐶32 𝐶33] = [𝑅31 𝑅32 𝑅33 ]
Como la matriz de rotación es ortonormal, entonces la magnitud de la tercera fila de la
matriz de rotación es igual a uno:
𝑅31 2 + 𝑅32
2 + 𝑅33 2 = 1
(Faugeras, 1992) al notar esta propiedad, toma la decisión de estimar la matriz C que rige
al modelo lineal de la cámara de tal forma que conserve la propiedad enunciada (la subfila
[𝐶31 𝐶32 𝐶33] debe tener una longitud igual a 1).
Por lo tanto el sistema 12112122 0 NN CL se resuelve usando Multiplicadores de
Lagrange, teniendo presente la restricción:
83
𝐶31 2 + 𝐶32
2 + 𝐶33 2 = 1
El sistema 12112122 0 NN CL se puede reescribir así:
||
𝑥𝑊1 𝑦𝑊10⋮
𝑥𝑊𝑁0
0⋮
𝑦𝑊𝑁0
𝑧𝑊1 1
0⋮
𝑧𝑊𝑁0
0⋮10
0 0𝑥𝑊1⋮0𝑥𝑊𝑁
𝑦𝑊1⋮0𝑦𝑊𝑁
0 0𝑧𝑊1⋮0𝑧𝑊𝑁
1⋮01
−𝑢𝑃1−𝑉𝑃1⋮
−𝑢𝑃𝑁−𝑣𝑃𝑁
−𝑢𝑃1 𝑋𝑊1 −𝑢𝑃1 𝑦𝑊1 −𝑢𝑃1 𝑧𝑊1−𝑣𝑃1 𝑋𝑊1 −𝑣𝑃1 𝑦𝑊1 −𝑣𝑃1 𝑧𝑊1
⋮−𝑢𝑃𝑁 𝑋𝑊𝑁−𝑣𝑃𝑁 𝑋𝑊𝑁
⋮−𝑢𝑃𝑁 𝑦𝑊𝑁−𝑣𝑃𝑁 𝑦𝑊𝑁
⋮−𝑢𝑃𝑁 𝑧𝑊𝑁−𝑣𝑃𝑁 𝑧𝑊𝑁
||
|
|
|
|
𝐶11𝐶12𝐶13𝐶14𝐶21𝐶22𝐶23𝐶24𝐶31𝐶32𝐶33𝐶34
|
|
|
|
=
|
|
|
0000000⋮00
|
|
|
(136)
O de forma equivalente:
12
33
32
31
32
34
24
23
22
21
14
13
12
11
92 0
NNN
C
C
C
F
C
C
C
C
C
C
C
C
C
D
ó
84
1233292 0' NNN CFCD (137)
Donde las matrices D y F son iguales a:
𝐷 = ||
𝑥𝑊1 𝑦𝑊10⋮
𝑥𝑊𝑁0
0⋮
𝑦𝑊𝑁0
𝑧𝑊1 1
0⋮
𝑧𝑊𝑁0
0⋮10
0 0𝑥𝑊1⋮0𝑥𝑊𝑁
𝑦𝑊1⋮0𝑦𝑊𝑁
0 0𝑧𝑊1⋮0𝑧𝑊𝑁
1⋮01
−𝑢𝑃1−𝑣𝑃1⋮
−𝑢𝑃𝑁−𝑣𝑃𝑁
|| (138)
𝐹 = ||
−𝑢𝑃1 𝑥𝑊1 −𝑢𝑃1 𝑦𝑊1 −𝑢𝑃1 𝑧𝑊1−𝑣𝑃1 𝑥𝑊1 −𝑣𝑃1 𝑦𝑊1 −𝑣𝑃1 𝑧𝑊1
⋮−𝑢𝑃𝑁 𝑥𝑊𝑁−𝑣𝑃𝑁 𝑥𝑊𝑁
⋮−𝑢𝑃𝑁 𝑦𝑊𝑁−𝑣𝑃𝑁 𝑦𝑊𝑁
⋮−𝑢𝑃𝑁 𝑧𝑊𝑁−𝑣𝑃𝑁 𝑧𝑊𝑁
|| (139)
Al aplicar Multiplicadores de Lagrange a la ecuación (136) con la restricción 𝐶31 2 +
𝐶32 2 + 𝐶33
2 = 1, se llega al siguiente sistema de ecuaciones:
[𝐹𝑇 𝐹 − 𝐹𝑇 𝐷 (𝐷𝑇 𝐷)−1 𝐷𝑇𝐹] |
𝐶31𝐶32𝐶33
| = 𝜆 |
𝐶31𝐶32𝐶33
| (140)
O de forma equivalente:
𝑀 𝐶3 = 𝜆 𝐶3 (141)
Donde FDDDDFFFM TTTT 1)( es una matriz cuadrada de orden (3,3).
El problema de estimar los elementos 𝐶3 de calibración, es equivalente a resolver el
problema de valores y vectores propios enseñado en la expresión 141.
𝐶3 Es el vector propio unitario asociado al valor propio más pequeño.
85
El vector que contienen los demás elementos de la matriz C de calibración,
𝐶` = [𝐶11, 𝐶12, 𝐶13, 𝐶14, 𝐶21, 𝐶22, 𝐶23,𝐶24, 𝐶34 ] ,se estima así:
𝐶` = −(𝐷𝑇 𝐷)−1 𝐷𝑇𝐹 𝐶3 (142)
Además si 𝐶` y 𝐶3 son soluciones estimadas de buena calidad, entonces se debería
cumplir que el vector error asociado a la ecuación (137) debería tender al vector 0:
𝐸 = 𝐷𝐶` + 𝐹𝐶3 ≅ 0
5.1.4 Método de Calibración Lineal Usando Plantillas Bidimensionales: Técnica de
Calibración de Zhang
(Zhang, 2000), propone una novedosa técnica de calibración orientada a la estimación de
los parámetros extrínsecos de una cámara digital: a diferencia de los métodos propuestos
por (Hall, 1982), (Tsai, 1987) y (Faugeras, 1992), no se requiere del uso de plantillas 3D
muy elaboradas, sólo el empleo de plantillas de dos dimensiones cuyas coordenadas de
puntos tridimensionales carecen de una dimensión; y no es necesario conocer la posición
y ángulos de rotación de la cámara respecto a la plantilla empleada
Zhang (2000), propone capturar tres imágenes digitales de la misma plantilla
bidimensional desde diferentes posiciones de la cámara, con la finalidad calcular tres
matrices CBA HyHH , llamadas matrices de homografías. Estas matrices estimadas por
la metodología propuestas por el autor, sirven para estimar los parámetros intrínsecos de
la cámara.
Matrices de Homografías
Una homografía es una trasformación que toma un punto P de dos dimensiones presente
en un plano y le asocia otro punto P' de dos dimensiones.
En el caso de las cámaras, una homografía es una transformación matricial que toma un
punto P presente sobre una plantilla bidimensional, que al ser medidos en un sistema de
referencia absoluto puesto sobre la misma plantilla sólo poseen dos dimensiones, y le
86
asocia un punto P' (la imagen capturada de P por la cámara cuyas coordenadas están en
píxeles).
Recordemos que el modelo de la cámara está regido por la ecuación (92):
11
0
0
0
1
0
0
0
1
,,3333
W
W
W
ZYX
P
PP
PP
z
y
x
c
b
a
RK
t
tv
tu
Si se multiplica ambos lados del modelo lineal de la cámara por un factor de escala 𝜆 , se
obtiene el siguiente resultado:
11
0
0
0
1
0
0
0
1
,,3333
W
W
W
ZYX
P
PP
PP
z
y
x
c
b
a
RK
t
tv
tu
(143)
Si los puntos capturados de la plantilla bidimensional solo poseen dos dimensiones
respecto al sistema de referencia absoluto del mundo, evento que ocurriría si la plantilla
contiene al sistema de referencia, tal como se ilustra en la figura 32, entonces la
componente 𝑌𝑊 de cualquier punto de plantilla será igual a 0.
87
Figura 32. Plantilla de calibración de Zhang ilustrando el sistema de referencia absoluto
puesto sobre ella. La fuente de la imagen es (Zhang, 2004).
El punto P (𝑋𝑊, 0, 𝑍𝑊) genera un punto P´ (𝑢𝑃 , 𝑣𝑃) en el plano imagen, regido por la
siguiente ecuación:
1
0
1
0
0
0
1
0
0
0
1
,,3333
W
W
ZYX
P
PP
PP
z
x
c
b
a
RK
t
tv
tu
Al operar matricialmente se obtiene el siguiente resultado:
13332313331
2322212321
1312111311
33 W
W
P
PP
PP
z
x
cRbRaRRR
cRbRaRRR
cRbRaRRR
K
t
tv
tu
(144)
Se define la matriz de homografía H así:
𝐻𝐴 = |
ℎ11 ℎ12 ℎ13ℎ21 ℎ22 ℎ23ℎ31 ℎ32 ℎ33
| = 𝜆𝐾 |
𝑅11 𝑅13 −𝑅11𝑎 + 𝑅12𝑏 − 𝑅13𝑐𝑅21 𝑅23 −𝑅21𝑎 + 𝑅22𝑏 − 𝑅23𝑐𝑅31 𝑅33 −𝑅31𝑎 + 𝑅32𝑏 − 𝑅33𝑐
|
88
Nótese que la matriz HA es cuadrada y sus dos primeras columnas son las columnas 1 y 3
de la matriz de rotación, que son ortonormales.
Por lo tanto la expresión (144) se puede representar así:
1333231
232221
131211
W
W
AAA
AAA
AAA
P
PP
PP
z
x
hhh
hhh
hhh
t
tv
tu
(145)
Cálculo de la Matriz de Homografía para una pose de una Plantilla Bidimensional
Si se tiene una plantilla de dos dimensiones con N-puntos de coordenadas
{(𝑥𝑊1, 𝑧𝑊1),( 𝑥𝑊2, 𝑧𝑊2),…,(𝑥𝑊𝑖, 𝑧𝑊𝑖),…,( 𝑥𝑊𝑁, 𝑧𝑊𝑁)}, la homografía del punto (𝑥𝑊𝑖, 𝑧𝑊𝑖) es
igual a:
1333231
232221
131211
Wi
Wi
AAA
AAA
AAA
Pi
PiPi
PiPi
z
x
hhh
hhh
hhh
t
tv
tu
(146)
Al expandir la expresión 146 se llega al siguiente resultado:
𝑢𝑝𝑖 𝑡𝑃𝑖 𝜆 = 𝑥𝑊𝑖ℎ11𝐴 + 𝑧𝑊𝑖 ℎ12𝐴 + ℎ13𝐴 (147)
𝑣𝑝𝑖 𝑡𝑃𝑖 𝜆 = 𝑥𝑊𝑖ℎ21𝐴 + 𝑧𝑊𝑖 ℎ22𝐴 + ℎ23𝐴 (148)
𝑡𝑃𝑖 𝜆 = 𝑥𝑊𝑖ℎ31𝐴 + 𝑧𝑊𝑖 ℎ32𝐴 + ℎ33𝐴 (149)
Reemplazando la expresión (149) en las expresiones (147) y (148) se obtiene el siguiente
resultado:
𝑥𝑊𝑖ℎ11𝐴 + 𝑧𝑊𝑖 ℎ12𝐴 + ℎ13𝐴 − 𝑥𝑊𝑖ℎ31𝐴 𝑢𝑝𝑖 − 𝑧𝑊𝑖 ℎ32𝐴 𝑢𝑝𝑖 − ℎ33𝐴 𝑢𝑝𝑖 = 0 (150)
𝑥𝑊𝑖ℎ21𝐴 + 𝑧𝑊𝑖 ℎ22𝐴 + ℎ23𝐴 − 𝑥𝑊𝑖ℎ31𝐴 𝑣𝑝𝑖 − 𝑧𝑊𝑖 ℎ32𝐴 𝑣𝑝𝑖 − ℎ33𝐴 𝑣𝑝𝑖 = 0 (151)
89
Al organizar matricialmente las ecuaciones anteriores se tiene que:
|𝑥𝑊𝑖0 𝑧𝑊𝑖0 10 0𝑥𝑊𝑖
0𝑧𝑊𝑖
01 − 𝑥𝑊𝑖 𝑢𝑝𝑖−𝑥𝑊𝑖 𝑣𝑝𝑖
−𝑧𝑊𝑖 𝑢𝑝𝑖−𝑧𝑊𝑖 𝑣𝑝𝑖
− 𝑢𝑝𝑖− 𝑣𝑝𝑖
|
|
|
|
ℎ11𝐴ℎ12𝐴ℎ13𝐴ℎ21𝐴ℎ22𝐴ℎ23𝐴ℎ31𝐴ℎ32𝐴ℎ33𝐴
|
|
|
= |00|
Como se poseen nueve incógnitas y cada punto capturado de la plantilla aporta dos
ecuaciones, se requieren por lo menos cinco puntos de la plantilla para generar 10
ecuaciones y despejar por mínimos cuadrados los parámetros de la matriz de homografía.
Si se usan seis puntos
||
𝑥𝑊10⋮
𝑥𝑊60
𝑧𝑊10⋮𝑧𝑊60
10⋮10
0𝑥𝑊1⋮0𝑥𝑊6
0𝑧𝑊1⋮0𝑧𝑊6
01⋮01
− 𝑥𝑊1 𝑢𝑝1−𝑥𝑊1 𝑣𝑝1
⋮− 𝑥𝑊6 𝑢𝑝6− 𝑥𝑊6 𝑣𝑝6
−𝑧𝑊1 𝑢𝑝1
−𝑧𝑊1 𝑣𝑝1⋮
−𝑧𝑊6 𝑢𝑝6
−𝑧𝑊6 𝑣𝑝6
− 𝑢𝑝1− 𝑣𝑝1⋮
− 𝑢𝑝6− 𝑣𝑝6
||
|
|
|
ℎ11𝐴ℎ12𝐴ℎ13𝐴ℎ21𝐴ℎ22𝐴ℎ23𝐴ℎ31𝐴ℎ32𝐴ℎ33𝐴
|
|
|
=
|
|
|
000000000000
|
|
|
O de forma general, para N - puntos:
𝐿2𝑁𝑋9 ℎ𝐴 9𝑋1 = 012𝑋1 (152)
Este sistema de ecuaciones lineales es homogéneo y (Zhang, 2000) sugiere resolverlo
con la restricción |ℎ𝐴 | = 1, cuya solución ya se sabe es igual a:
𝐿𝑇𝐿 ℎ𝐴 = 𝜆 ℎ𝐴 (153)
Donde 𝜆 es el valor propio de la matriz 𝑀 = 𝐿𝑇𝐿, que garantiza que la solución ℎ𝐴 genere
el mínimo error:
𝐿 ℎ𝐴 ≈ 0
90
El valor del vector ℎ𝐴 cuyos elementos son las componentes de la matriz de homografía
HA obtenido por mínimos cuadrados, se emplea como un "valor semilla" para resolver de
nuevo la ecuación (152) usando un método numérico de optimización no lineal, como por
ejemplo el método de Levenberg - Marquardt; con la finalidad de estimar un valor del
vector ℎ𝐴 que genere un error inferior al generado por la técnica de mínimos cuadrados,
es decir, para obtener una solución más adecuada de ℎ𝐴 que se ajuste a las mediciones
efectuadas.
Si se capturan otras dos imágenes de la plantilla bidimensional desde otras dos
posiciones diferentes a la original, es posible calcular con la metodología enseñada otras
dos matrices de homografía CB HyH
Con las tres matrices de homografía estimadas es totalmente factible estimar los
parámetros intrínsecos de la cámara, tal como se enseña en la próxima sección.
Cálculo de los Parámetros Intrínsecos de una Cámara Empleando la Metodología o
Técnica de Calibración de Zhang
Recordemos que la matriz Hi (cualquiera de las tres matrices de homografía) tiene la
siguiente forma:
𝐻𝑖 = |
ℎ11 ℎ12 ℎ13ℎ21 ℎ22 ℎ23ℎ31 ℎ32 ℎ33
| = |ℎ1𝑖 ℎ2
𝑖
⋮ ⋮ ℎ3
𝑖
⋮| = 𝜆𝐾 |𝑅1
𝑖 𝑅3𝑖
⋮ ⋮ 𝑃⋮| (154)
Donde ℎ1𝑖 , ℎ2
𝑖 y ℎ3𝑖 son las columnas de la matriz de homografía i - ésima.
Los vectores de rotación 𝑅1𝑖 y 𝑅3
𝑖 son ortonormales y tienen la misma longitud, por lo tanto
se debe cumplir que:
𝑅1𝑖 𝑇 . 𝑅3
𝑖 = 0 (155) (Los dos vectores son ortogonales)
𝑅1𝑖 𝑇 . 𝑅1
𝑖 = 𝑅3𝑖 𝑇 . 𝑅3
𝑖 (156) (Los dos vectores tienen la misma longitud)
91
De la expresión (154) se puede verificar que la primera y segunda columnas de la matriz
Hi son iguales a:
ℎ1𝑖 = 𝜆𝐾𝑅1
𝑖 (157)
ℎ2𝑖 = 𝜆𝐾𝑅3
𝑖 (158)
Si se define la matriz de parámetros intrínsecos KK ' , entonces las expresiones
(157) y (158) se pueden escribir así:
ℎ1𝑖 = 𝐾′𝑅1
𝑖 (159)
ℎ2𝑖 = 𝐾′𝑅3
𝑖 (160)
Despejando los vectores de rotación de las ecuaciones (159) y (160):
𝑅1𝑖 = 𝐾′−1 ∗ ℎ1
𝑖 (161)
𝑅3𝑖 = 𝐾′−1 ∗ ℎ2
𝑖 (162)
Reemplazado las expresiones (161) y (162) en las expresiones (155) y (156):
[𝐾′−1 ∗ ℎ1𝑖]𝑇. 𝐾′−1. ℎ2
𝑖 = 0 (163)
&
[𝐾′−1 ∗ ℎ1𝑖]𝑇. 𝐾′−1. ℎ1
𝑖 = [𝐾′−1. ℎ2𝑖 ]𝑇. 𝐾′−1. ℎ2
𝑖 (164)
De propiedades matriciales, se tiene que (𝐴𝐵)𝑇 = 𝐵𝑇𝐴𝑇 . Al aplicar este resultado en las
expresiones (163) y (164) se llega a los siguientes resultados:
(ℎ1𝑖)𝑇 . (𝐾′−1)𝑇 . 𝐾′−1ℎ2
𝑖 = 0 (165)
(ℎ1𝑖)𝑇 . (𝐾′−1)𝑇 . 𝐾′−1. ℎ1
𝑖 = (ℎ2𝑖)𝑇 (𝐾′−1)𝑇 𝐾′−1. ℎ2
𝑖 (166)
Toda matriz cuadrada A cumple la siguiente propiedad:
92
(𝐴−1)𝑇 𝐴 = 𝐵 = |𝑏11 𝑏12 𝑏13𝑏12 𝑏22 𝑏23𝑏13 𝑏23 𝑏33
|
Donde B es una matriz simétrica.
(Zhang, 2004) define la matriz B (cónica absoluta) así:
B= (𝐾′−1)𝑇 . 𝐾′−1 = ||
1
𝛼2𝐹2𝜆20
−𝑈𝐶
𝛼𝐹2𝜆2
01
𝛽2𝐹2𝜆2−𝑉𝐶
𝛽𝐹2𝜆2
−𝑈𝐶
𝛼2𝐹2𝜆2−𝑉𝐶
𝛽𝐹2𝜆2
𝑈𝑐𝑝2+𝑉𝑐𝑝
2
𝐹2𝜆2+
1
𝜆2
|| (167)
Si se definen los siguientes parámetros intrínsecos:
𝛼𝑝 = 𝛼𝐹, 𝛽𝑝 = 𝛽𝐹, 𝑢𝐶𝑃 = 𝛼𝑢𝑐 , 𝑣𝐶𝑃 = 𝛽𝑣𝑐
Entonces la matriz B se puede reescribir así:
𝐵 = |
|
1
𝛼𝑝2𝜆2
0−𝑈𝑐𝑝
𝛼𝑝2𝜆2
01
𝛽𝑝2𝜆2
−𝑉𝑐𝑝
𝛽𝑝2𝜆2
−𝑈𝑐𝑝
𝛼𝑝2𝜆2
−𝑉𝑐𝑝
𝛽𝑝2𝜆2
𝑈𝑐𝑝2
𝛼𝑝2𝜆2
++𝑉𝑐𝑝
2
𝛽𝑝2𝜆2
+1
𝜆2
|
| (168)
Por lo tanto las ecuaciones {165, 166} se pueden reescribir en términos de B:
(ℎ1𝑖)𝑇 . 𝐵 . ℎ2
𝑖 = 0 (169)
(ℎ1𝑖)𝑇 . 𝐵 . ℎ1
𝑖 = (ℎ2𝑖)𝑇𝐵 ℎ2
𝑖 (170)
Como:
93
ℎ1𝑖 = |
ℎ11𝑖
ℎ21𝑖
ℎ31𝑖
| y ℎ2𝑖 = |
ℎ12𝑖
ℎ22𝑖
ℎ32𝑖
|
Entonces:
(ℎ11𝑖 ℎ21
𝑖 ℎ31𝑖) |
𝑏11 𝑏12 𝑏13𝑏12 𝑏22 𝑏23𝑏13 𝑏23 𝑏33
| |
ℎ12𝑖
ℎ22𝑖
ℎ32𝑖
| = 0 (171)
&
(ℎ11𝑖 ℎ21
𝑖 ℎ31𝑖) |
𝑏11 𝑏12 𝑏13𝑏12 𝑏22 𝑏23𝑏13 𝑏23 𝑏33
| |
ℎ11𝑖
ℎ21𝑖
ℎ31𝑖
| − (ℎ12𝑖 ℎ22
𝑖 ℎ32𝑖) |
𝑏11 𝑏12 𝑏13𝑏12 𝑏22 𝑏23𝑏13 𝑏23 𝑏33
| |
ℎ12𝑖
ℎ22𝑖
ℎ32𝑖
| = 0
(172)
Al operar las ecuaciones anteriores y teniendo presente que 012 B (ver expresión 168),
se llega al siguiente conjunto de ecuaciones:
0
0
33
23
2213
12
11
2222 2
32
2
3132223121
2
22
2
2132123111
2
12
2
11
3231312232212221311232111211
b
b
bb
b
b
hhhhhhhhhhhhhh
hhhhhhhhhhhhhh
AAAAAAAAAAAAAA
AAAAAAAAAAAAAA
(173)
Como existen otras dos matrices de homografías entonces el sistema de ecuaciones
completo será igual a:
94
0
0
0
0
0
0
33
23
2213
12
11
2222
2222
2222
2
32
2
3132223121
2
22
2
2132123111
2
12
2
11
3231312232212221311232111211
2
32
2
31
3231
2
32
2
31
3231
32223121
2
22
2
2132123111
2
12
2
11
312232212221311232111211
32223121
2
22
2
2132123111
2
12
2
11
312232212221311232111211
b
b
bb
b
b
hhhhhhhhhhhhhh
hhhhhhhhhhhhhh
hh
hh
hh
hh
hhhhhhhhhhhh
hhhhhhhhhhhh
hhhhhhhhhhhh
hhhhhhhhhhhh
CCCCCCCCCCCCCC
CCCCCCCCCCCCCC
BB
BB
AA
AA
BBBBBBBBBBBB
BBBBBBBBBBBB
AAAAAAAAAAAA
AAAAAAAAAAAA
(174)
Al resolver el sistema de ecuaciones lineales homogéneas empleando la técnica de
valores y vectores propios enseñadas anteriormente, se obtiene los valores de
{𝑏11, 𝑏12, 𝑏13, 𝑏22, 𝑏23, 𝑏33}.
Con los valores de la matriz B es posible calcular los parámetros intrínsecos presentes en
la matriz K' de la cámara usando la expresión (168):
22
2
13
2
23332211
2211
)( BBBBBB
BB
(175)
22
2
11
22
2
13
2
23332211 )(
BB
BBBBBBP
(176)
2
2211
22
2
13
2
23332211 )(
BB
BBBBBBP
(180)
Por último es factible combinar las técnicas de Zhang y Faugeras para estimar los
parámetros extrínsecos del modelo lineal de la cámara:
Recordemos que:
95
111
0
0
0
1
0
0
0
1
,, 433333
W
W
W
W
W
W
ZYX
P
PP
PP
z
y
x
Cz
y
x
c
b
a
RK
t
tv
tu
Donde la matriz 43C es la matriz estimada de calibración por las técnicas de Faugeras,
Hall u Homogénea.
Despejando el producto de la matriz de rotación por la matriz de traslación se llega al
siguiente importante resultado, que sirve para estimar de forma implícita los parámetros
extrínsecos de la cámara:
43
1
3333
1
0
0
0
1
0
0
0
1
,,
CK
c
b
a
R ZYX
5.2 Determinación de los Parámetros de Distorsión Radial de la Lente de la Cámara
(Wang, 2009), propone un método simple para determinar la distorsión radial provocada
por la lente de la cámara sin necesidad de requerir los parámetros intrínsecos de la
cámara. El método calcula el centro de distorsión de las lentes estableciendo que las
líneas rectas capturadas del mundo real son distorsionadas en la imagen en formas de
secciones de arco circulares en el plano, tal como se enseña en la figura 23.
96
Figura 33. Plano imagen con 3 líneas rectas distorsionadas por efectos de la distorsión
radial introducida por la lente. La fuente de la imagen es propiedad de los autores.
Recordando que la ecuación de una circunferencia es:
(𝑥 − ℎ)2 + (𝑦 − 𝑘)2 = 𝑅2
O en forma de ecuación general de la cónica:
𝑥2 + 𝑦2 + 𝐴𝑥 + 𝐵𝑦 + 𝐶 = 0
Donde:
𝐴 = −2ℎ
𝐵 = −2𝑘
𝐶 = ℎ2 + 𝑘2 − 𝑅2
𝑅 = √ℎ2 + 𝑘2 − 𝐶
Cómo el radio es mayor que cero, se debe cumplir la siguiente condición para garantizar
que la cónica no represente una circunferencia degenerada:
𝐴2
4 +𝐵2
4− 𝐶 > 0
97
Al reemplazar las ecuaciones de la distorsión radial en píxeles estudiadas en el modelo no
lineal de la cámara en la ecuación de la línea recta 𝑣𝑃 = 𝑚𝑢𝑃 + 𝑏, se obtiene la siguiente
ecuación de una circunferencia:
𝑢𝑃𝐷2 + 𝑣𝑃𝐷
2 + 𝐴𝑢𝑃𝐷 + 𝐵𝑣𝑃𝐷 + 𝐶 = 0 (181)
Donde:
𝐴 =𝑚
𝑘1(𝑏 + 𝑚𝑢𝑃𝐶𝐷 − 𝑣𝑃𝐶𝐷)− 2𝑣𝑃𝐶𝐷
𝐵 = −1
𝑘1(𝑏 + 𝑚𝑢𝑃𝐶𝐷 − 𝑣𝑃𝐶𝐷)− 2𝑣𝑃𝐶𝐷
𝐶 = 𝑢𝑃𝐶𝐷2 + 𝑣𝑃𝐶𝐷
2 + [𝑣𝑃𝐶𝐷
𝐾1(𝑏 + 𝑚𝑢𝑃𝐶𝐷 − 𝑣𝑃𝐶𝐷)−
𝑚𝑢𝑃𝐶𝐷𝐾1(𝑏 + 𝑚𝑢𝑃𝐶𝐷 − 𝑣𝑃𝐶𝐷)
] +1
𝐾1
Además:
𝑢𝑃𝐶𝐷2 + 𝑣𝑃𝐶𝐷
2 + 𝐴𝑢𝑃𝐶𝐷 + 𝐵𝑣𝑃𝐶𝐷 + 𝐶 − 1
𝑘1= 0 (182)
Para cada punto de la circunferencia 1 de la figura 33 es posible obtener las siguientes
ecuaciones:
𝑢𝑃𝐷1𝐴1 + 𝑣𝑃𝐷1𝐵1 + 𝐶1 = −𝑢𝑃𝐷12 − 𝑣𝑃𝐷1
2
𝑢𝑃𝐷2𝐴1 + 𝑣𝑃𝐷2𝐵1 + 𝐶1 = −𝑢𝑃𝐷22 − 𝑣𝑃𝐷2
2
𝑢𝑃𝐷3𝐴1 + 𝑣𝑃𝐷3𝐵1 + 𝐶1 = −𝑢𝑃𝐷32 − 𝑣𝑃𝐷3
2
𝑢𝑃𝐷𝐾𝐴1 + 𝑣𝑃𝐷𝐾𝐵1 + 𝐶1 = −𝑢𝑃𝐷𝐾2 − 𝑣𝑃𝐷𝐾
2
Por el método de mínimos cuadrados se despejan las variables (𝐴1, 𝐵1, 𝐶1). Nótese que
como se tienen 3 incógnitas se requieren por lo menos 3 puntos de la circunferencia para
que exista una solución. Este procedimiento se repite para la circunferencia 2 y la
circunferencia 3 y se calculan las constantes (𝐴2, 𝐵2, 𝐶2) y (𝐴3, 𝐵3, 𝐶3).
De la expresión (182) se obtiene las siguientes ecuaciones:
98
a) 𝑢𝑃𝐶𝐷2 + 𝑣𝑃𝐶𝐷
2 + 𝐴1𝑢𝑃𝐶𝐷 + 𝐵1𝑣𝑃𝐶𝐷 + 𝐶1 − 1
𝑘1= 0
b) 𝑢𝑃𝐶𝐷2 + 𝑣𝑃𝐶𝐷
2 + 𝐴2𝑢𝑃𝐶𝐷 + 𝐵2𝑣𝑃𝐶𝐷 + 𝐶2 − 1
𝑘1= 0
c) 𝑢𝑃𝐶𝐷2 + 𝑣𝑃𝐶𝐷
2 + 𝐴3𝑢𝑃𝐶𝐷 + 𝐵3𝑣𝑃𝐶𝐷 + 𝐶3 − 1
𝑘1= 0
Al restar las ecuaciones a-b, a-c y b-c, se obtiene el siguiente sistema de ecuaciones:
(𝐴1 − 𝐴2)𝑢𝑃𝐶𝐷 + (𝐵1 − 𝐵2)𝑣𝑃𝐶𝐷 + (𝐶1 − 𝐶2) = 0(𝐴1 − 𝐴3)𝑢𝑃𝐶𝐷 + (𝐵1 − 𝐵3)𝑣𝑃𝐶𝐷 + (𝐶1 − 𝐶3) = 0(𝐴2 − 𝐴3)𝑢𝑃𝐶𝐷 + (𝐵2 − 𝐵3)𝑣𝑃𝐶𝐷 + (𝐶2 − 𝐶3) = 0
Al resolver este sistema de ecuaciones, por mínimos cuadrados, se obtienen las
coordenadas del centro de la distorsión (𝑢𝑃𝐶𝐷, 𝑣𝑃𝐶𝐷) .
Se puede obtener el valor de la constante K1 perteneciente al polinomio de distorsión
radial, al reemplazar las coordenadas de centro de distorsión estimadas en las
ecuaciones a, b o c.
99
6. PRINCIPIOS BÁSICOS DE MEDICIÓN DE COORDENADAS
TRIDIMENSIONALES
En este capítulo se procede a estudiar de forma muy concisa la fundamentación de la
técnica de visión estereoscópica para estimar las coordenadas de un punto P de tres
dimensiones, a partir de un sistema de visión conformado por 2 o más cámaras.
6.1 Reconstrucción de las Coordenadas de un Punto P Tridimensional a Partir de
las imágenes capturadas
Se tiene un sistema de visión compuesto por dos cámaras cuyas matrices de calibración
son conocidas, llamadas CA y CB, cuyos modelos de cámaras son iguales a:
134
24
14
33
23
13
32
22
12
31
21
11
W
W
W
A
A
A
A
A
A
A
A
A
A
A
A
PA
PAPA
PAPA
z
y
x
C
C
C
C
C
C
C
C
C
C
C
C
t
tv
tu
y
134
24
14
33
23
13
32
22
12
31
21
11
W
W
W
B
B
B
B
B
B
B
B
B
B
B
B
PB
PBPB
PBPB
z
y
x
C
C
C
C
C
C
C
C
C
C
C
C
t
tv
tu
(185)
Donde:
PA
PAPA
PAPA
t
tv
tu
es el vector de coordenadas homogéneas en píxeles del punto P' proveniente
del punto P tridimensional filmado por la cámara A.
PB
PBPB
PBPB
t
tv
tu
es el vector de coordenadas homogéneas en píxeles del punto P' proveniente
del punto P tridimensional filmado por la cámara B.
100
1
W
W
W
z
y
x
Es el vector de coordenadas homogéneas del punto P tridimensional.
Ejecutando las operaciones matriciales mostradas en las expresiones (185), se obtienen
los siguientes resultados:
AWAWAWA
AWAWAWA
AWAWAWA
PA
PAPA
PAPA
CzCyCxC
CzCyCxC
CzCyCxC
t
tv
tu
34333231
24232221
14131211
(186)
BWBWBWB
BWBWBWB
BWBWBWB
PB
PBPB
PBPB
CzCyCxC
CzCyCxC
CzCyCxC
t
tv
tu
34333231
24232221
14131211
(187)
Reemplazando la expresión que rige a PAt en las otras dos ecuaciones presentes en
(186), se llega al siguiente resultado:
)()()()( 3414133312321131 PAAAWAPAAWAPAAWAPAA uCCzCuCyCuCxCuC (188)
)()()()( 3424233322322131 PAAAWAPAAWAPAAWAPAA vCCzCvCyCvCxCvC (189)
Ejecutando el mismo procedimiento en la expresión 187:
)()()()( 3414133312321131 PBBBWBPBBWBPBBWBPBB uCCzCuCyCuCxCuC (190)
)()()()( 3424233322322131 PBBBWBPBBWBPBBWBPBB vCCzCvCyCvCxCvC (191)
El sistema de ecuaciones conformado por las ecuaciones (188), (189), (190) y (191) se
puede representar matricialmente así:
101
)(
)(
)(
)(
)()()(
)()()(
)()()(
)()()(
3424
3414
3424
3414
233322322131
133312321131
233322322131
133312321131
PBBB
PBBB
PAAA
PAAA
W
W
W
BPBABPBBBPBB
BPBBBPBBBPBB
APAAAPAAAPAA
APAAAPAAAPAA
vCC
uCC
vCC
uCC
z
y
x
CvCCvCCvC
CuCCuCCuC
CvCCvCCvC
CuCCuCCuC
(192) Expresión muy importante
El sistema de ecuaciones (192) se puede resolver por mínimos cuadrados, y la solución
obtenida es nada más y nada menos que las tres coordenadas que rigen la posición del
punto P en el espacio.
Si se tuviesen N - cámaras, el sistema de ecuaciones para estimar las coordenadas del
punto P de tres dimensiones tendría la siguiente forma:
)(
)(
)(
)(
)(
)(
)()()(
)()()(
)()()(
)()()(
)()()(
)()()(
3424
3414
3424
3414
3424
3414
233322322131
133312321131
233322322131
133312321131
233322322131
133312321131
PNNN
PNNN
PBBB
PBBB
PAAA
PAAA
W
W
W
NPNNNPNNNPNN
NPNNNPNNNPNN
BPBABPBBBPBB
BPBBBPBBBPBB
APAAAPAAAPAA
APAAAPAAAPAA
vCC
uCC
vCC
uCC
vCC
uCC
z
y
x
CvCCvCCvC
CuCCuCCuC
CvCCvCCvC
CuCCuCCuC
CvCCvCCvC
CuCCuCCuC
(193)
Una de las problemáticas más interesantes en la reconstrucción de las coordenadas de
un punto P de tres dimensiones empleando visión estereoscópica, es la detección de las
imágenes '
AP y '
BP del punto P capturado simultáneamente por dos o más cámaras
(Puntos correspondientes), problemática que recibe el nombre de “Correspondencia de
Píxeles”.
Se han propuesto para resolver el problema de la correspondencia, desde el uso de
señalizadores ópticos como por ejemplo etiquetas puestas sobre un punto del objeto,
hasta el uso de "rejillas láser", con la finalidad de identificar sobre las 2 o más imágenes
capturadas las imágenes de los puntos correspondientes, para leer sus coordenadas en
102
píxeles y así poder usar la ecuación (192) para la estimación de las coordenadas en
metros de un punto de interés del mundo.
En la etapa 2 del proyecto se propondrá una metodología fundamentada en la geometría
epipolar y el uso de matrices fundamentales (Zhang, 2004; Faugeras, 1992), para la
detección de píxeles correspondientes en dos o más imágenes capturadas por diferentes
cámaras, para la posterior reconstrucción tridimensional de la escena.
103
7. METODOLOGÍA Y EXPERIMENTOS DISEÑADOS
La metodología propuesta para el cumplimiento del objetivo “Estimar los parámetros de
algunos modelos físico – matemáticos de cámaras a partir del uso de algunas técnicas de
calibración” se procede a ilustrar a continuación.
7.1 Estimación de los Parámetros del Modelo de Distorsión Radial de Cada Una de
las Cámaras Empleando la Metodología propuesta por Wang
La primera actividad importante dentro del proceso de calibración de una cámara, es
estimar el modelo de distorsión de las mismas. Este modelo sirve para corregir los valores
de las coordenadas en píxeles de los puntos 3D capturados, cuyos valores son
incorrectos debido a la distorsión introducida por la lente de la cámara. Los valores
corregidos de las coordenadas en píxeles de los puntos medidos, se emplearán en la
estimación de las matrices de calibración de las cámaras usando las técnicas lineales
abordadas en el proyecto de grado.
A continuación se presentan los pasos asociados al proceso de estimación del modelo de
distorsión para cualquiera de las 2 cámaras.
1. Captura de 3 líneas rectas presentes en una plantilla bidimensional: Se construyó una
plantilla bidimensional reticulada usando cuadrículas de ajedrez, con dimensiones de
30X22 [cm]. Las cuadriculas empleadas tienen dimensiones arbitrarias de 2X2 [cm]. A
partir de la imagen capturada se seleccionan arbitrariamente 3 líneas rectas,
conformada cada una por lo menos por 3 puntos cuyas coordenadas en píxeles son
conocidas. Las coordenadas de cada punto seleccionado se estiman aplicando el
algoritmo de detección de esquinas de Harris (Harris y Stephens, 1988). Se deben
tabular estos puntos capturados para cada línea recta en Excel.
2. Estimación de los parámetros del modelo de distorsión radial: Al aplicar los pasos
ilustrados en la sección 5.2 sobre los datos medidos, se estiman los parámetros
104
(𝑢𝑃𝐶𝐷, 𝑣𝑃𝐶𝐷) y K1 del modelo de distorsión y se calcula las magnitudes al cuadrado de
los vectores de error asociado a la solución por mínimos cuadrados de cada ecuación
ilustrada en la sección 5.2, para evaluar el éxito del método tratando de reproducir las
coordenadas en píxeles de cada punto capturado. Los programas empleados para
dichos cálculos son el Derive y el Matlab.
7.2 Estimación de las Matrices de los Modelos Lineales de las Cámaras Empleando
Métodos de Calibración Lineal que Usan Plantillas Tridimensionales (Técnicas de
Hall, Homogénea y Faugeras)
Para estimar las matrices de los modelos lineales de las 2 cámaras que hacen parte del
sistema de estereoscopía implementado por el equipo de trabajo, usando las técnicas de
Hall, Homogénea y Faugeras, se propusieron los siguientes pasos:
1. Diseño de Plantilla Tridimensional: Las técnicas mencionadas exigen del uso de una
plantilla tridimensional reticulada de forma regular, y para tal fin se construyó una
plantilla de madera tipo MDF conformada por tres planos ortogonales entre sí, cuyas
dimensiones son 30X22X22 [cm] con espesores de 3 [mm]. Se procedió a imprimir en
papel bond una cuadricula tipo “ajedrez” con cuadrados con dimensiones de 2X2 cm.
En la figura 34 se ilustra la plantilla tridimensional elaborada por el grupo de trabajo.
105
Figura 34. Plantilla tridimensional elaborada para la calibración de las cámaras usando las
técnicas de Hall, Homogénea y Faugeras. La imagen es elaborada por los autores.
2. Proposición de sistema de referenciación para las medidas de las coordenadas de los
puntos 3D de la plantilla tridimensional.
Arbitrariamente se seleccionó un arreglo de cámaras y de la plantilla 3D ilustrado en la
figura 35, donde ambas cámaras están separadas una distancia d [m] y sus lentes
están a la misma altura h [m]. El sistema de referencia absoluto elegido WWW zyx
se ubicó justo en la cámara 1, de tal forma que el eje cartesiano Wy del sistema de
referencia fuese colineal con el eje cartesiano Cy . Esta decisión estuvo soportada en
la futura aplicación del sistema estereoscópico a diseñar, en un agente robótico móvil
que esté en la capacidad de medir el entorno 3D desde su “punto de vista”. La plantilla
tridimensional está a L [m] respecto a la cámara 1.
106
Figura 35. Sistema diseñado para la calibración de las cámaras empleando una
plantilla tridimensional. La imagen es elaborada por los autores.
3. Medición del ángulo de apertura de la cámara digital LifeCam Studio de Microsoft:
Las cámaras elegidas para hacer parte del sistema de visión estereoscópica, son de
referencia LIFECAM STUDIO de Microsoft, que captura imágenes de 1920X1080
píxeles HD (high definition) con formato de video YUY2, que cuenta además con un
excelente sistema óptico que atenúa considerablemente las distorsiones introducidas
por la lente. Las cámaras poseen un sistema mecánico que le permite al usuario
ajustar sus ángulos de elevación y azimutal entre 0 y 360º. Se sugiere garantizar que
dichos ángulos sean iguales a cero durante la prueba, para que solo exista la
transformación de traslación en los modelos de las cámaras.
Una pregunta interesante que surge durante el proceso de calibración, es ¿cuál debe
ser la distancia d [m] sugerida entre las cámaras, para garantizar que un punto de un
objeto sea capturado por los CCD’s de ambas cámaras?, cuestión vital en los
procesos de estereoscopía.
107
Para resolver este interrogante se procedió a obtener la expresión que rige el ángulo
de apertura horizontal de la cámara, que sirve para establecer cuál debe ser la
distancia mínima de separación entre las cámaras en función de la distancia mínima
de ubicación del objeto al sistema óptico y dicho ángulo de apertura.
En la figura 36 se ilustran las relaciones trigonométricas existentes entre el ángulo de
apertura θ, la distancia de separación d [m] de las cámaras, y la distancia de
separación dmin [m] entre el punto PA y las cámaras, donde el punto tridimensional está
ubicado en la medianería de las dos cámaras.
Figura 36. Esquema para hallar la distancia mínima de captura de un punto de un objeto
por ambas cámaras, teniendo en cuenta el ángulo de apertura y la distancia entre las
mismas, las líneas trazadas representan los rayos luminosos principales más extremos
que pueden ingresar a las cámaras y ser detectados por los CCDs. La imagen es
propiedad de los autores.
De la figura 36 se nota que:
tan (𝜃
2) =
𝑑
2𝑑𝑚𝑖𝑛
Por lo tanto:
108
𝑑𝑚𝑖𝑛 = 𝑑
2 tan (𝜃2)
Se propone por lo tanto ejecutar una prueba para la medición del ángulo de apertura
horizontal de la cámara, con la finalidad de establecer una expresión que sirva para
calcular la distancia mínima de un objeto a la cual ambas cámaras puedan capturar su
imagen.
En la figura 37 se ilustra la imagen de la prueba sugerida para medir el ángulo de apertura
horizontal de una (1) de las cámaras.
Figura 37. Prueba experimental sugerida para medir el ángulo de apertura horizontal para
cualquiera de las 2 cámaras. La imagen es propiedad de los autores.
La prueba consiste en medir la separación angular de los rayos luminosos más extremos
que provienen de 2 cilindros (para el caso tornillos), que pueden ser detectados por el
CCD de la cámara. Ambos cilindros están ubicados a una distancia radial r [m] de la lente.
Es necesario emplear un soporte graduado en grados como el enseñado en la figura 37,
para medir el ángulo de apertura. Los dos cilindros se ubican de tal forma, que sus
respectivas imágenes aparezcan en los bordes izquierdo y derecho del CCD, y luego se
procede a medir el ángulo de apertura. El centro del soporte graduado en grados debe
estar situado justo donde se encuentra la lente de la cámara.
A partir de la medición del ángulo de apertura es posible establecer cual debe ser la
distancia de separación d [m] entre ambas cámaras: La distancia d [m] debe ser
seleccionada de tal forma que garantice una distancia dmin [m] arbitraria a la cual debe
109
estar ubicada el objeto 3D de las cámaras, con la finalidad de garantizar que se pueda
capturar simultáneamente sus imágenes.
Esperamos que sea claro para el público lector que la plantilla de calibración debe estar a
una distancia superior a dmin para garantizar que los puntos capturados sean visibles por
ambas cámaras:
mindL
La figura 37 ilustra claramente el ángulo de apertura medido y es igual a º60 .
La distancia d se seleccionó arbitrariamente igual a 0.4 [m], por lo tanto:
m
dd 3464.0
30tan2
4.0
2tan2
ºmin
Así que la distancia L [m] se eligió igual a min53175.0 dmL .
La plataforma de calibración implementada tiene los siguientes valores para sus
parámetros:
mL 53175.0 , md 4.0 , mh 078.0
La plataforma de medición se implementó usando los materiales del Kit de Óptica marca
“Pasco” presente en la unidad de laboratorios de la Universidad de San Buenaventura
Seccional Medellín, sobre el cual se ubicaron las cámaras digitales y la plantilla
tridimensional. Este arreglo permitió medir las coordenadas de los puntos tridimensionales
de la plantilla desde el sistema de referencia absoluto presente en la cámara 1 con alta
precisión. En la figura 38 se ilustra la plataforma de medición elaborada por el equipo de
trabajo.
110
Figura 38. Plataforma de medición de coordenadas de los puntos de la plantilla
tridimensional, implementada con los accesorios presentes en el kit de óptica marca
“Pasco” de la Unidad de Laboratorios de la Universidad de San Buenaventura Seccional
Medellín. La imagen es de propiedad de los autores.
En la figura 39 se ilustra un esquema de la plataforma de medición ilustrando las
posiciones de las cámaras y de la plantilla.
111
Figura 39. Plataforma de medición implementada ilustrando el sistema de referencia
absoluto y la ubicación de las cámaras y de la plantilla tridimensional. La imagen es
elaborada por los autores.
El Sistema cartesiano que rige las coordenadas de los puntos de la plantilla se ilustra en
la figura 39:
112
Figura 39. Sistema cartesiano de referencia de la plantilla. Imagen elaborada por los
autores.
De las figuras 39 y 40 es posible verificar las siguientes expresiones útiles para medir las
coordenadas de los puntos seleccionados pertenecientes a la plantilla tridimensional:
PLANTILLAW xx 15.0 , )53175.0( PLANTILLAW yy , PLANTILLAW zz 078.0
4. Medición de las coordenadas en píxeles de los puntos de la plantilla tridimensional
presentes en las imágenes capturadas por las cámaras: Los puntos a capturar de la
plantilla son justo las esquinas de las cuadriculas de la plantilla, y sus coordenadas deben
ser medidas con precisión de subpíxel. Para la detección de las esquinas de las
cuadriculas de ajedrez y sus respectivas coordenadas en píxeles, se empleó el algoritmo
de detección de esquinas de Harris (Harris y Stephens, 1988). Los puntos a capturar no
pueden estar en un sólo plano de la plantilla para garantizar que el sistema de ecuaciones
esté bien condicionado. En los anexos se presenta el programa implementado en Matlab
para medir las coordenadas en píxeles de los puntos de la plantilla elegidos en las
pruebas de calibración. Las coordenadas en metros y en píxeles de los puntos elegidos
para las pruebas de calibración, se consignaran en tablas de Excel.
5. Estimación de las matrices de calibración usando plantillas tridimensionales: Aplicando los
pasos ilustrados en las secciones 5.1.1, 5.1.2 y 5.1.3 sobre los datos medidos, se estiman
las matrices de calibración y la magnitud al cuadrado del vector error asociado a la
113
estimación de cada matriz, para evaluar el éxito del método tratando de reproducir las
coordenadas en píxeles de cada punto capturado. Los programas empleados para dichos
cálculos son el Derive y el Matlab.
7.3 Estimación de los Parámetros Intrínsecos de los Modelos Lineales de las
Cámaras Empleando El Método de Calibración de Zhang
Para la estimación de los parámetros intrínsecos de cada una de las cámaras empleadas
a partir de la metodología propuesta por Zhang analizada en la sección 5.1.4, se
proponen los siguientes pasos:
3. Implementación de plantilla bidimensional: Se construyó una plantilla bidimensional
reticulada usando cuadrículas de ajedrez, con dimensiones de 30X22 [cm]. De nuevo
cada una de las cuadriculas empleadas tienen dimensiones arbitrarias de 2X2 [cm].
4. Sistema de referencia empleado para medir las coordenadas de los puntos elegidos
de la plantilla bidimensional: En la figura 40 se ilustra el sistema de referencia absoluto
del mundo puesto sobre la plantilla bidimensional.
Figura 40. Plantilla bidimensional empleada en la prueba de Zhang ilustrando el sistema
de referencia del mundo. La imagen es propiedad de los autores.
5. Medición de las coordenadas de los puntos elegidos para la prueba de Zhang
respecto al sistema de referencia de las imágenes: Como se ha explicado en la
114
sección 5.1.4, es necesario capturar 3 poses de la plantilla bidimensional con la
finalidad de estimar las 3 matrices de homografía requeridas por el método de Zhang
para estimar los parámetros intrínsecos de cada cámara. Usando la plataforma de
medición enseñada en la figura 39, se procede a capturar las poses de la plantilla
empleando las 2 cámaras. Los puntos a capturar de cada plantilla son justo las
esquinas de las cuadriculas de la plantilla, y sus coordenadas deben ser medidas con
precisión de subpíxel. Para la detección de las esquinas de las cuadriculas de ajedrez
y sus respectivas coordenadas en píxeles, se utiliza de nuevo el algoritmo de
detección de esquinas de Harris (Harris y Stephens, 1988). Las coordenadas en
metros y en píxeles de los puntos elegidos de la plantilla para las pruebas de
calibración, se consignaran en tablas de Excel.
Se sugiere que los puntos capturados no sean colineales para garantizar que los
sistemas de ecuaciones estén bien condicionados numéricamente.
Con la información tabulada se procede a estimar las matrices de homografía, los
elementos de la cónica absoluta y los parámetros intrínsecos para cada una de las
cámaras, a partir de la aplicación de la metodología explicada en la sección 5.1.4. Los
programas usados para dichos cálculos se implementaron con el Derive y el Matlab.
7.3 Estimación de las Coordenadas en Tres Dimensiones Empleando Visión
Estereoscópica
Con los parámetros estimados de los modelos propuestos para las cámaras, se procede a
construir el sistema de ecuaciones necesario para la estimación de la profundidad de los
objetos 3D usando la Técnica de Estereoscopía presentado en el capítulo 6. Para la
construcción del sistema de ecuaciones, fue necesario resolver el problema de la
correspondencia entre pixeles de dos imágenes provenientes de un mismo objeto, usando
por ejemplo un láser que permitía detectar puntos similares en las imágenes
bidimensionales, escogidos previamente por los estudiantes investigadores.
Una vez construido el sistema de ecuaciones necesario para le estimación de la
profundidad, programado el algoritmo de reconstrucción y resuelto el problema de
115
correspondencia, se llevó a cabo el último experimento, este consistía en la
reconstrucción y estimación de la profundidad de un Cubo de Rubik. Para este se tomaron
diferentes capturas del mismo objeto a diferentes distancias, con el objetivo de conocer
hasta donde eran válidas las ecuaciones halladas previamente, y que tan reales eran las
coordenadas del mundo entregadas.
Por último se implementó una GUIDE en Matlab para poner a prueba el sistema de visión
estereoscópica implementado por el grupo de trabajo.
116
8. RESULTADOS
8.1 Estimación de Modelo de Distorsión Radial.
A partir de la revisión del marco referencial, antes de realizar los experimentos de
calibración no lineal, se debe obtener el polinomio correspondiente a la distorsión radial,
distorsión que sufren las lentes de las cámaras a utilizar,
Figura 37. Captura de tres (3) líneas rectas en la cámara 1 y la cámara 2
respectivamente. Imagen propiedad de los autores.
117
En las tablas número 2 y 3 se ilustran los 6 puntos capturados en píxeles de las 3 líneas
rectas presentes en las imágenes de las cámaras 1 y 2.
Tabla 2
Puntos en pixeles correspondientes a las líneas rectas capturadas con la cámara número
uno (1). La tabla fue elaborada por los autores.
PUNTO 1
Up,Vp
[Píxeles]
PUNTO 2
Up,Vp
[Píxeles]
PUNTO 3
Up,Vp
[Píxeles]
PUNTO 4
Up,Vp
[Píxeles]
PUNTO 5
Up,Vp
[Píxeles]
PUNTO 6
Up,Vp
[Píxeles]
Línea 1 1063,372 1029,406 990,445 956,479 918,519 884,553
Línea 2 992,699 957,665 918,625 884,592 845,553 811,519
Línea 3 595,521 628,521 667,520 700,520 739,520 772,520
Tabla 3
Puntos en pixeles correspondientes a las líneas rectas capturadas con la cámara número
dos (2). La tabla fue elaborada por los autores.
PUNTO 1
Up,Vp
[Píxeles]
PUNTO 2
Up,Vp
[Píxeles]
PUNTO 3
Up,Vp
[Píxeles]
PUNTO 4
Up,Vp
[Píxeles]
PUNTO 5
Up,Vp
[Píxeles]
PUNTO 6
Up,Vp
[Píxeles]
Línea 1 1195,409 1160,441 1120,478 1085,510 1045,548 1010,580
Línea 2 709,717 745,684 787,645 822,613 864,575 899,542
Línea 3 945,397 944,431 942,470 940,504 939,544 937,578
118
Aplicando la metodología de Wang se obtienen los siguientes valores de los parámetros
𝑘1, 𝑢𝑃𝐶𝐷 𝑣𝑃𝐶𝐷 para la cámara 1 y la cámara 2 respectivamente.
Cámara uno:
𝑢𝑃𝐶𝐷 = 911.853 [𝑝𝑖𝑥𝑒𝑙𝑒𝑠]
𝑣𝐶𝐷 = 540.493 [𝑝𝑖𝑥𝑒𝑙𝑒𝑠]
𝐾1 = −7.4𝑋10−6
Cámara dos:
𝑢𝑃𝐶𝐷 = 1215.733 [𝑝𝑖𝑥𝑒𝑙𝑒𝑠]
𝑣𝑃𝐶𝐷 = 358.139 [𝑝𝑖𝑥𝑒𝑙𝑒𝑠]
𝐾1 = 2.548𝑋10−6
Al corroborar la calidad de las soluciones de los sistemas de ecuaciones, se encontró que
la magnitud del vector error correspondiente a las soluciones de los parámetros A, B y C
es del orden de 10000; lo cual implica que el modelo de distorsión radial no se ajusta a las
lentes de las cámaras.
De forma independiente se procedió a ajustar un polinomio lineal a cada una de las rectas
presentes en las imágenes, y efectivamente por lo tanto las cámaras no sufren de
distorsión radial ya que el modelo no se ajusta a las curvas de la imagen.
8.2 Técnicas de Calibración
Para el presente trabajo, se emplearon dos técnicas de calibración, escogidas estas por
las ventajas que presentaban frente a las demás; como la simplicidad en sus plantillas
(Zhang), o los parámetros que permitían conocer, en el caso de Zhang se encontraron los
parámetros intrínsecos y para la técnica lineal los extrínsecos.
119
8.2.1 Técnica de Zhang
A continuación, en la figura número 38, se ilustran las 3 diferentes capturas realizadas a
la plantilla de 2 dimensiones para las 2 cámaras, imágenes necesarias para el método de
calibración planteado por Zhang.
Figura 38. Captura en 3 posiciones de una plantilla bidimensional realizada por la cámara
número uno.
Figura 39. Captura en 3 posiciones de una plantilla bidimensional realizada por la cámara
número dos.
En las siguientes tablas se logran observar los puntos en pixeles capturados para la
técnica de Zhang y su equivalente en metros.
120
Tabla 4
Coordenadas en pixeles y su equivalencia en metros de la imagen número uno capturada
por la cámara número uno. La tabla fue elaborada por los autores.
Punto 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑿𝑾 (m) 𝒁𝑾 (m)
1 616 309 0.02 0.2
2 1199 398 0.26 0.16
3 914 449 0.14 0.14
4 1012 543 0.18 0.10
5 723 647 0.06 0.06
6 1156 730 0.24 0.02
Tabla 5
Coordenadas en pixeles y su equivalencia en metros de la imagen número dos capturada
por la cámara número uno. La tabla fue elaborada por los autores.
Punto 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑿𝑾 (m) 𝒁𝑾 (m)
1 544 266 0.04 0.2
2 736 350 0.14 0.18
3 908 460 0.26 0.14
4 503 468 0.02 0.12
5 590 576 0.06 0.08
6 827 704 0.2 0.02
121
Tabla 6
Coordenadas en pixeles y su equivalencia en metros de la imagen número tres capturada
por la cámara número uno. La tabla fue elaborada por los autores.
Punto 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑿𝑾 (m) 𝒁𝑾 (m)
1 927 399 0.04 0.18
2 1454 495 0.28 0.16
3 1134 543 0.14 0.12
4 1347 652 0.24 0.08
5 987 699 0.06 0.04
6 1256 748 0.2 0.02
Tabla 7
Coordenadas en pixeles y su equivalencia en metros de la imagen número uno capturada
por la cámara número dos. La tabla fue elaborada por los autores.
Punto 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑿𝑾 (m) 𝒁𝑾 (m)
1 1135 410 0.02 0.2
2 1325 628 0.22 0.06
3 1467 450 0.28 0.16
4 1255 554 0.16 0.1
5 1117 677 0.08 0.02
6 1143 524 0.06 0.12
122
Tabla 8
Coordenadas en pixeles y su equivalencia en metros de la imagen número dos capturada
por la cámara número dos. La tabla fue elaborada por los autores.
Punto 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑿𝑾 (m) 𝒁𝑾 (m)
1 646 444 0.02 0.2
2 741 576 0.06 0.08
3 853 548 0.14 0.1
4 931 454 0.2 0.18
5 996 477 0.24 0.16
6 1062 621 0.28 0.02
Tabla 9
Coordenadas en pixeles y su equivalencia en metros de la imagen número tres capturada
por la cámara número dos. La tabla fue elaborada por los autores.
Punto 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑿𝑾 (m) 𝒁𝑾 (m)
1 484 600 0.02 0.02
2 512 395 0.06 0.18
3 604 478 0.1 0.1
4 752 508 0.18 0.06
5 741 394 0.2 0.16
6 841 342 0.28 0.2
123
A partir de lo expuesto en el marco referencial sobre la técnica de calibración de Zhang,
se procede a enseñar los resultados obtenidos de la matriz B y los parámetros intrínsecos
relacionados a centro del plano imagen.
La matriz B de la cámara uno es igual a:
|0.000000300021268 0 −0.000298721890892
0 0.000000299826163 −0.000148806459950−0.000298721890892 −0.000148806459950 0.999999944310843
|
Por lo tanto, Las coordenadas de centro del plano imagen para la cámara uno son:
𝑢𝑐𝑝 =−𝐵13𝐵11
= 995.669049 [𝑃𝑖𝑥𝑒𝑙𝑒𝑠]
𝑣𝑐𝑝 =−𝐵23𝐵22
= 496.3091 [𝑃𝑖𝑥𝑒𝑙𝑒𝑠]
La matriz B de la cámara dos es igual a:
|−0.000000258278049 0 0.000269126510552
0 −0.000000258016638 0.0001783959325830.000269126510552 0.000178395932583 −0.999999947872838
|
Por lo tanto, Las coordenadas de centro del plano imagen para la cámara dos son:
𝑈𝐶𝑝 =−𝐵13𝐵11
= 1042 [𝑃𝑖𝑥𝑒𝑙𝑒𝑠]
𝑉𝐶𝑝 =−𝐵23𝐵22
= 691.412 [𝑃𝑖𝑥𝑒𝑙𝑒𝑠]
8.2.2 Técnicas lineales
A continuación, en las figuras 40 y 41, se ilustran las capturas realizadas por cada una
de las cámaras de la plantilla 3 - dimensional; necesarias estas imágenes para desarrollar
la técnica de calibración lineal.
124
Figura 40. Captura de la plantilla 3D realizada por la cámara 1.
Figura 41. Captura de la plantilla 3D realizada por la cámara 2.
En las tablas que a continuación se muestran se plasman los puntos elegidos para
realizar el proceso de calibración, con sus respectivas coordenadas en pixeles y metros.
125
Tabla 10.
Puntos elegidos de la captura realizada de la cámara 1. La tabla fue elaborada por los
autores.
Puntos 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑿𝑾 (m) 𝒀𝑾 (m) 𝒁𝑾 (m)
1 736 260 -0.12 -0.65175 0.125
2 1004 479 0 -0.65175 0.025
3 868 657 -0.06 -0.65175 -0.055
4 632 775 -0.12 -0.45175 -0.075
5 1114 736 0.04 -0.55175 -0.075
6 1374 245 0.16 -0.63175 0.125
7 1428 417 0.16 -0.55175 0.045
8 1519 711 0.16 -0.45175 -0.055
Tabla 11
Puntos elegidos de la captura realizada de la cámara 2. La tabla fue elaborada por los
autores.
Puntos 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑿𝑾 (m) 𝒀𝑾 (m) 𝒁𝑾 (m)
1 496 310 0.17 -0.75175 0.128
2 968 701 0.41 -0.73175 -0.072
3 1072 378 0.45 -0.57175 0.068
4 769 542 0.31 -0.75175 0.008
126
5 562 721 0.23 -0.65175 -0.072
6 1057 490 0.45 -0.65175 0.028
7 887 422 0.37 -0.75175 0.068
8 768 746 0.33 -0.55175 -0.072
Técnica no Homogénea – término 𝑪𝟑𝟒 = 𝟏
A partir de lo expuesto en el marco referencial sobre la técnica de calibración no
homogénea, se procede a enseñar los resultados obtenidos.
Para esta primera técnica sólo es necesario emplear seis (6) de los ocho (8) enseñados
en la tabla anterior.
La matriz C de la cámara uno (1) es:
𝐶 = |1.62132336 ∗ 104 −9877.494103 1015.495789−380.5964446 −4953.311798 − 1.603356864 ∗ 104
−0.6557885837 −9.805073302 1.190052328
986.0031849713.0750239
1|
A continuación se enseña una tabla que muestra el valor de los pixeles medidos a través
de Matlab y su valor calculado con la matriz C hallada.
127
Tabla 12
Valor de los pixeles medidos a través de Matlab y su valor calculado con la matriz C
hallada, para la cámara uno (1). La tabla fue elaborada por los autores.
Puntos 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑼𝑷 Calculado 𝑽𝑷 Calculado
1 736 260 735.7675010 260.2908253
2 1004 479 1003.886620 477.1506205
3 868 657 868.3743775 658.0455053
4 632 775 632.3095002 774.8687661
5 1114 736 1113.403463 736.1006115
6 1374 245 1374.262173 245.5364343
La matriz C de la cámara uno (2) es:
𝐶 = |− 3.293687566 ∗ 104 2.039686027 ∗ 104 −1857.717426−778.7887997 1.295171826 ∗ 104 3.017066898 ·∗ 104
−1.591403643 22.27587554 −2.825206627
1.304832169 ∗ 104
927.92276231
|
A continuación se enseña una tabla que muestra el valor de los pixeles medidos a través
de Matlab y su valor calculado con la matriz C hallada.
Tabla 13
128
Valor de los pixeles medidos a través de Matlab y su valor calculado con la matriz C
hallada, para la cámara dos (2). La tabla fue elaborada por los autores.
Puntos 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑼𝑷 Calculado 𝑽𝑷 Calculado
1 496 310 495.9120578 310.1149715
2 968 701 968.1265741 701.0467591
3 1072 378 1072.523714 377.7199662
4 769 542 769.3054303 541.6729032
5 562 721 561.8820552 721.0609030
6 1057 490 1056.268600 490.3773759
Técnica homogénea, |𝑪| = 𝟏
A partir de lo expuesto en el marco referencial sobre la técnica de calibración homogénea,
se procede a enseñar los resultados obtenidos.
Para esta técnica fue necesario emplear los ocho (8) enseñados en la tablas número 10 y
11.
Para este caso la matriz C para la cámara uno (1):
𝐶
= |−0.638831249671722 0.391461800108568 −0.0322558267776590.011869144753209 0.202651922090391 0.628811943020495 0.000016413093913 0.000392494914295 −0.000036083294110
−0.034159414260843 −0.021685855602661−0.000032223582720
|
A continuación se enseña una tabla que muestra el valor de los pixeles medidos a través
de Matlab y su valor calculado con la matriz C hallada.
129
Tabla 14
Valor de los pixeles medidos a través de Matlab y su valor calculado con la matriz C
hallada, para la cámara uno (1). Técnica homogénea |𝐶| = 1. La tabla fue elaborada por
los autores.
Puntos 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑼𝑷 Calculado 𝑽𝑷 Calculado
1 736 260 735.8843717 260.0471881
2 1004 479 1004.038333 477.7694539
3 868 657 868.2669363 658.6750690
4 632 775 632.1147876 775.0085202
5 1114 736 1113.449018 734.1914710
6 1374 245 1374.251462 245.3699258
7 1428 417 1427.607310 416.9155130
8 1519 711 1519.409709 712.0714728
Para este caso la matriz C para la cámara dos (2):
A continuación se enseña una tabla que muestra el valor de los pixeles medidos a través
de Matlab y su valor calculado con la matriz C hallada.
Tabla 15
130
Valor de los pixeles medidos a través de Matlab y su valor calculado con la matriz C
hallada, para la cámara dos (2). Técnica homogénea |𝐶| = 1. La tabla fue elaborada por
los autores.
Puntos 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑼𝑷 Calculado 𝑽𝑷 Calculado
1 496 310 496.1447654 309.5601630
2 968 701 968.0728033 700.9366241
3 1072 378 1072.333899 378.6600376
4 769 542 769.351253 541.1725456
5 562 721 562.5756169 722.2761973
6 1057 490 1057.864081 489.2719711
7 887 422 885.7975539 423.0368345
8 768 746 766.8167051 745.0664436
Técnica de Faugeras
A partir de lo expuesto en el marco referencial sobre la técnica de calibración de Faugeras
(1992), se procede a enseñar los resultados obtenidos.
Para esta técnica fue necesario emplear los ocho (8) enseñados en la tabla número
Tabla 16
131
Valor de los pixeles medidos a través de Matlab y su valor calculado con la matriz C
hallada, para la cámara uno (1). Técnica Faugeras. La tabla fue elaborada por los autores.
Puntos 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑼𝑷 Calculado 𝑽𝑷 Calculado
1 736 260 735.9015266 260.0293742
2 1004 479 1004.015234 477.8216061
3 868 657 868.3108563 658.6553356
4 632 775 632.1027798 775.0343748
5 1114 736 1113.381132 734.1491570
6 1374 245 1374.233303 245.3748433
7 1428 417 1427.575251 415.6081498
8 1519 711 1519.467892 712.0780050
Tabla 17
Valor de los pixeles medidos a través de Matlab y su valor calculado con la matriz C
hallada, para la cámara dos (2). Técnica Faugeras. La tabla fue elaborada por los autores.
Puntos 𝑼𝑷 [Píxeles] 𝑽𝑷 [Píxeles] 𝑼𝑷 Calculado 𝑽𝑷 Calculado
1 496 310 496.1447654 309.5601630
2 968 701 968.0728033 700.9366241
3 1072 378 1072.333899 378.6600376
4 769 542 769.351253 541.1725456
5 562 721 562.5756169 722.2761973
132
6 1057 490 1057.864081 489.2719711
7 887 422 885.7975539 423.0368345
8 768 746 766.8167051 745.0664436
A continuación se ilustran los gráficos comparativos de las matrices de calibración de la
cámara uno y dos, matrices encontradas con las técnicas lineales de Faugeras, técnica
homogénea y Zhang. Ambas cámaras son de buena calidad, de los experimentos
enseñados anteriormente, se puede concluir que no sufren distorsión radial. Se realizó la
captura de la plantilla tridimensional con una resolución de 1920x1080 pixeles.
0
200
400
600
800
1000
1200
1400
1600
0 1 2 3 4 5 6 7 8 9
Píx
el e
qu
ival
en
te
Número del punto capturado
Up - Cámara 1
Puntos Reales No homogenea Homogenea Faugeras
133
0
200
400
600
800
1000
0 1 2 3 4 5 6 7 8 9
Píx
el e
qu
ival
en
te
Número del punto capturado
Vp - Cámara 1
Puntos Reales No homogenea Homogenea Faugeras
0
200
400
600
800
1000
1200
1 2 3 4 5 6 7 8
Pix
el e
qu
ival
en
te
Número del punto capturado
Up - Cámara 2
Puntos Reales No homogenea Homogenea Faugeras
134
Figura 42. Grafico comparativo donde se ilustran cada una de las coordenadas (Up-Vp), la
línea de tendencia de los puntos reales en la plantilla de calibración tridimensional y las
líneas de tendencia de los puntos encontrados por las matrices de calibración halladas
por las técnicas homogénea, Faugeras y Zhang (No homogéneas).
Finalmente se realizó una prueba con un cubo de Rubik, con el objetivo de probar los
diferentes métodos de calibración expuestos anteriormente a diferentes distancias con
respecto al eje Y. A continuación se muestran las tablas donde se indican los resultados
del proceso metrológico de las esquinas del objeto.
Figura 43. Capturas para estimación de coordenadas tridimensionales de un cubo de
rubik.
0
100
200
300
400
500
600
700
800
0 1 2 3 4 5 6 7 8 9
Pix
el e
qu
ival
en
te
Número del punto capturado
Vp - Cámara 2
Puntos Reales No homogenea Homogenea Faugeras
135
Dónde
𝐴𝐵 = 𝐵𝐷 = 𝐶𝐷 = 𝐶𝐴 = 5.3𝑐𝑚
Tabla 19.
Estimación de las coordenadas tridimensionales de las esquinas del cubo aplicando la
técnica homogénea a un (1) metro de distancia del centro de referencia. La tabla fue
elaborada por los autores.
Punto 𝑿𝑾 (𝒎) 𝒀𝑾 (𝒎) 𝒁𝑾 (𝒎)
A 0.0825 -1.0643 -0.0334
B 0.1371 -1.0790 -0.0323
C 0.0831 -1.0725 -0.0886
D 0.1371 -1.0790 -0.0878
136
Tabla 20.
Estimación de las coordenadas tridimensionales de las esquinas del cubo aplicando la
técnica homogénea a 1.25 metros de distancia del centro de referencia. La tabla fue
elaborada por los autores.
Punto 𝑿𝑾 (𝒎) 𝒀𝑾 (𝒎) 𝒁𝑾 (𝒎)
A 0.0552 -1.3142 0.0113
B 0.1068 -1.3032 0.0100
C 0.0527 -1.3270 -0.0445
D 0.1071 -1.3370 -0.0453
Tabla 21.
Estimación de las coordenadas tridimensionales de las esquinas del cubo aplicando la
técnica homogénea a 1.5 metros de distancia del centro de referencia. La tabla fue
elaborada por los autores.
Punto 𝑿𝑾 (𝒎) 𝒀𝑾 (𝒎) 𝒁𝑾 (𝒎)
A 0.0520 -1.6298 0.0076
B 0.1072 -1.6451 0.0083
C 0.0516 -1.6341 -0.0486
D 0.1063 -1.6583 -0.0508
137
Tabla 22.
Estimación de las coordenadas tridimensionales de las esquinas del cubo aplicando la
técnica homogénea a 1.75 metros de distancia del centro de referencia. La tabla fue
elaborada por los autores.
Punto 𝑿𝑾 (𝒎) 𝒀𝑾 (𝒎) 𝒁𝑾 (𝒎)
A 0.0462 -1.9523 -0.0282
B 0.0992 -1.9643 -0.0251
C 0.0470 -1.9564 -0.0850
D 0.1010 -1.9891 -0.0844
Técnica de Faugeras
Tabla 23.
Estimación de las coordenadas tridimensionales de las esquinas del cubo aplicando la
técnica de Faugeras a un (1) metro de distancia del centro de referencia. La tabla fue
elaborada por los autores.
Punto 𝑿𝑾 (𝒎) 𝒀𝑾 (𝒎) 𝒁𝑾 (𝒎)
A 0.0826 -1.0629 -0.0329
B 0.1372 -1.0693 -0.0322
C 0.0833 -1.0709 -0.0884
D 0.1373 -1.0773 -0.0876
138
Tabla 24.
Estimación de las coordenadas tridimensionales de las esquinas del cubo aplicando la
técnica de Faugeras a 1.25 metros de distancia del centro de referencia. La tabla fue
elaborada por los autores.
Punto 𝑿𝑾 (𝒎) 𝒀𝑾 (𝒎) 𝒁𝑾 (𝒎)
A 0.0553 -1.3120 0.0114
B 0.1089 -1.3047 0.0102
C 0.0528 -1.3247 -0.0444
D 0.1072 -1.3346 -0.0452
Tabla 25.
Estimación de las coordenadas tridimensionales de las esquinas del cubo aplicando la
técnica de Faugeras a 1.5 metros de distancia del centro de referencia. La tabla fue
elaborada por los autores.
Punto 𝑿𝑾 (𝒎) 𝒀𝑾 (𝒎) 𝒁𝑾 (𝒎)
A 0.0521 -1.6265 0.0077
B 0.1073 -1.6306 0.0084
C 0.0518 -1.6341 -0.0485
D 0.1064 -1.6548 -0.0507
139
Tabla 26.
Estimación de las coordenadas tridimensionales de las esquinas del cubo aplicando la
técnica de Faugeras a 1.75 metros de distancia del centro de referencia. La tabla fue
elaborada por los autores.
Punto 𝑿𝑾 (𝒎) 𝒀𝑾 (𝒎) 𝒁𝑾 (𝒎)
A 0.0464 -1.9478 -0.0280
B 0.0994 -1.9598 -0.0250
C 0.0473 -1.9517 -0.0849
D 0.1012 -1.9843 -0.0843
Técnica de Zhang
Tabla 27
Estimación de las coordenadas tridimensionales de las esquinas del cubo aplicando la
técnica de Zhang a un (1) metro de distancia del centro de referencia. La tabla fue
elaborada por los autores.
Punto 𝑿𝑾 (𝒎) 𝒀𝑾 (𝒎) 𝒁𝑾 (𝒎)
A 0.0788 -0.8594 -0.0137
B 0.1239 -0.8686 -0.0125
C 0.0806 -0.8566 -0.0599
D 0.1254 -0.8627 -0.0588
140
Tabla 28.
Estimación de las coordenadas tridimensionales de las esquinas del cubo aplicando la
técnica de Zhang a un 1.25 metros de distancia del centro de referencia. La tabla fue
elaborada por los autores.
Punto 𝑿𝑾 (𝒎) 𝒀𝑾 (𝒎) 𝒁𝑾 (𝒎)
A 0.0606 -0.9892 0.0252
B 0.1024 -0.9989 0.0249
C 0.0601 -0.9878 -0.0183
D 0.1022 -0.9963 -0.0184
Tabla 29
Estimación de las coordenadas tridimensionales de las esquinas del cubo aplicando la
técnica de Zhang a un 1.5 metros de distancia del centro de referencia. La tabla fue
elaborada por los autores.
Punto 𝑿𝑾 (𝒎) 𝒀𝑾 (𝒎) 𝒁𝑾 (𝒎)
A 0.0669 -1.1079 0.0241
B 0.1065 -1.1129 0.0250
C 0.0682 -1.0992 -0.0159
D 0.1069 -1.1114 -0.0167
141
Tabla 30
Estimación de las coordenadas tridimensionales de las esquinas del cubo aplicando la
técnica de Zhang a un 1.75 metros de distancia del centro de referencia. La tabla fue
elaborada por los autores.
Punto 𝑿𝑾 (𝒎) 𝒀𝑾 (𝒎) 𝒁𝑾 (𝒎)
A 0.0752 -1.1738 0.0019
B 0.1069 -1.1967 0.0049
C 0.0765 -1.1699 -0.0341
D 0.1100 -1.1896 -0.0327
A continuación, conociendo las medidas reales del cubo, se ilustran los gráficos
comparativos de la estimación de las coordenadas tridimensionales del objeto real
ubicado en distintas profundidades.
0
0.01
0.02
0.03
0.04
0.05
0.06
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
Dis
tan
cia
en
me
tro
s e
ntr
e e
squ
inas
Número del punto equivalente a las esquinas A,B,C,D
Estimación 3D a 1 metro de distancia
Dimension Real Zhang Homogeneas Faugeras
142
0
0.01
0.02
0.03
0.04
0.05
0.06
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
Dis
tan
cia
en
me
tro
s e
ntr
e e
squ
inas
Número del punto equivalente a las esquinas A,B,C,D
Estimación 3D a 1.25 metros de distancia
Dimension Real Zhang Homogeneas Faugeras
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
Dis
tan
cia
en
me
tro
s e
ntr
e e
squ
inas
Número del punto equivalente a las esquinas A,B,C,D
Estimación 3D a 1.5 metros de distancia
143
Figura 44. Gráfico comparativo de la estimación de las coordenadas X y Z del objeto
tridimensional, donde se ilustran las distancias entre las esquinas del objeto real y la
estimación realizada por las distintas técnicas de calibración. Procedimiento realizado a
distintas profundidades con respecto al centro de referencia. Las gráficas fueron
elaboradas por los autores.
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
Dis
tan
cia
en
me
tro
s e
ntr
e e
squ
inas
Número del punto equivalente a las esquinas A,B,C,D
Estimación 3D a 1.75 de distancia
144
Finalmente se ilustra un gráfico comparativo que ilustra la estimación de la coordenada
equivalente a la profundidad del objeto en las distintas posiciones.
Figura 45. Gráfico comparativo entre la distancia real del objeto en las distintas posiciones
de captura y la estimación de la profundidad en promedio realizada por las distintas
técnicas de calibración. Las gráficas fueron elaboradas por los autores.
0
0.5
1
1.5
2
2.5
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
Dis
tan
cia
en
me
tro
s
Número de la posición
Real Zhang Homogeneas Faugeras
145
9. CONCLUSIONES
A partir de la revisión de los resultados obtenidos, se procede a dar como conclusión los
beneficios y desventajas sobre el uso de las diferentes técnicas de calibración empleadas:
Técnica de Zhang, Técnica homogénea, Técnica no homogénea y Técnica de Faugeras,
en la estimación de coordenadas tridimensionales del entorno.
- La técnica de calibración de Zhang, versátil en la sencillez de sus plantillas
bidimensionales y suministrando valores importantes tales como los parámetros
intrínsecos de la cámara, no logra estimar con gran precisión las coordenadas
tridimensionales de un objeto real, generando errores en el cálculo de la
profundidad y en las medidas reales del mismo.
Los errores se deben al ingreso de los parámetros extrínsecos manualmente
conociendo, en base al montaje experimental, las matrices de rotación y traslación
de ambas cámaras. Por lo tanto, la técnica de calibración de Zhang debe ser
complementada con una técnica de calibración lineal para mayor precisión en
reconstrucción de entornos tridimensionales.
- Las técnicas de calibración lineal tienen un coeficiente de correlación alto, por lo
tanto, la matriz de calibración planteada al aplicar la técnica de Faugeras genera
un punto tridimensional similar a los puntos generados con las matrices de
calibración producidos por las técnicas lineales homogénea y no homogénea;
Siendo las técnicas de Faugeras y la técnica lineal homogénea más precisas.
- Los parámetros de la matriz de calibración obtenidos por la técnica Faugeras y la
técnica lineal homogénea permitieron una estimación con alta precisión de
distintas coordenadas tridimensionales del elemento en un rango de profundidad
de 0.8 metros a 1.25 metros desde el centro de las cámaras al objeto.
146
Trabajos Futuros
En aplicaciones de navegación robótica es necesario tener un mayor alcance de
profundidad para estimar las coordenadas del entorno tridimensional, por lo tanto, se
propone definir una nueva plantilla que permita la calibración de las cámaras a cortas y
largas distancias y verificar su comportamiento en la reconstrucción 3D.
Analizar el comportamiento de las técnicas de Correlación y de Geometría Epipolar y sus
algoritmos, para determinar la correspondencia entre pixeles de 2 imágenes capturadas
con el sistema de visión estereoscópica artificial.
Seleccionar una técnica para la interpolación de superficies sobre los puntos 3-D
estimados por el sistema de visión estereoscópica bajo condiciones de luz controlada, y
aplicarla para la reconstrucción de objetos 3 – D.
147
10. LISTA DE TABLAS
Tabla 1. Tabla comparativa entre las diferentes técnicas de reconstrucción 3D……….13-
14
Tabla 2. Puntos en pixeles correspondientes a las líneas rectas capturadas con la cámara
número uno (1)………………………………………………………………………………….107
Tabla 3. Puntos en pixeles correspondientes a las líneas rectas capturadas con la cámara
número uno (2)…………………………………………………………………………………108
Tabla 4. Coordenadas en pixeles y su equivalencia en metros de la imagen número uno
capturada por la cámara número uno………………………………………………………..110
Tabla 5. Coordenadas en pixeles y su equivalencia en metros de la imagen número dos
capturada por la cámara número uno.110
Tabla 6. Coordenadas en pixeles y su equivalencia en metros de la imagen número tres
capturada por la cámara número uno.111
Tabla 7. Coordenadas en pixeles y su equivalencia en metros de la imagen número uno
capturada por la cámara número dos.111
Tabla 8. Coordenadas en pixeles y su equivalencia en metros de la imagen número dos
capturada por la cámara número dos.112
Tabla 9. Coordenadas en pixeles y su equivalencia en metros de la imagen número tres
capturada por la cámara número dos.112
Tabla 10. Puntos elegidos de la captura realizada de la cámara 1.115
Tabla 11.Puntos elegidos de la captura realizada de la cámara 2.116
Tabla 12. Valor de los pixeles medidos a través de Matlab y su valor calculado con la
matriz C hallada, para la cámara uno (1) 117
Tabla 13. Valor de los pixeles medidos a través de Matlab y su valor calculado con la
matriz C hallada, para la cámara dos (2)117
148
Tabla 14. Valor de los pixeles medidos a través de Matlab y su valor calculado con la
matriz C hallada, para la cámara uno (1). Técnica homogénea |𝐶| = 1……………..118
Tabla 16. Valor de los pixeles medidos a través de Matlab y su valor calculado con la
matriz C hallada, para la cámara dos (2). Técnica homogénea |𝐶| = 1 ……………….120
Tabla 17. Valor de los pixeles medidos a través de Matlab y su valor calculado con la
matriz C hallada, para la cámara uno (1). Técnica Faugeras …………………………..121
Tabla 18. Valor de los pixeles medidos a través de Matlab y su valor calculado con la
matriz C hallada, para la cámara dos (2). Técnica Faugeras……………………….. ….125
Tabla 19. Estimación de las coordenadas tridimensionales de las esquinas del cubo
aplicando la técnica homogénea a un (1) metro de distancia del centro de
referencia……………………………………………………………………………………….123
Tabla 20. Estimación de las coordenadas tridimensionales de las esquinas del cubo
aplicando la técnica homogénea a 1.25 metros de distancia del centro de
referencia…………………………………………………………………………………………126
Tabla 21. Estimación de las coordenadas tridimensionales de las esquinas del cubo
aplicando la técnica homogénea a 1.5 metros de distancia del centro de
referencia………………………………………………………………………………………..126
Tabla 22. Estimación de las coordenadas tridimensionales de las esquinas del cubo
aplicando la técnica homogénea a 1.75 metros de distancia del centro de
referencia…………………………………………………………………………………………126
Tabla 23. Estimación de las coordenadas tridimensionales de las esquinas del cubo
aplicando la técnica de Faugeras a un (1) metro de distancia del centro de
referencia………………………………………………………………………………………..127
Tabla 24. Estimación de las coordenadas tridimensionales de las esquinas del cubo
aplicando la técnica de Faugeras a 1.25 metros de distancia del centro de
referencia………………………………………………………………………………………..127
149
Tabla 25. Estimación de las coordenadas tridimensionales de las esquinas del cubo
aplicando la técnica de Faugeras a 1.5 metros de distancia del centro de
referencia……………………………………………………………………………………….128
Tabla 26. Estimación de las coordenadas tridimensionales de las esquinas del cubo
aplicando la técnica de Faugeras a 1.75 metros de distancia del centro de
referencia………………………………………………………………………………………...128
Tabla 27. Estimación de las coordenadas tridimensionales de las esquinas del cubo
aplicando la técnica de Zhang a un (1) metro de distancia del centro de
referencia………………………………………………………………………………………...129
Tabla 28. Estimación de las coordenadas tridimensionales de las esquinas del cubo
aplicando la técnica de Zhang a un 1.25 metros de distancia del centro de
referencia………………………………………………………………………………………...129
Tabla 29. Estimación de las coordenadas tridimensionales de las esquinas del cubo
aplicando la técnica de Zhang a un 1.5 metros de distancia del centro de
referencia………………………………………………………………………………………...130
Tabla 30. Estimación de las coordenadas tridimensionales de las esquinas del cubo
aplicando la técnica de Zhang a un 1.75 metros de distancia del centro de
referencia………………………………………………………………………………………..130
150
11. LISTA DE FIGURAS
Figura 1. Subsistemas que componen a una cámara digital…………………………...……15
Figura 2: Fotografía de un CCD de una cámara webcam digital…………………………....16
Figura 3. Modelo de la Lente Delgada………………………………………………………....19
Figura 4. Fenómeno del desenfoque………………………………………………………...…20
Figura 5. Obtención de las expresiones que rigen las coordenadas del punto P’ sobre el
CCD………………………………………………………………………………………………...21
Figura 6. Rayo luminoso del punto P que interviene en la formación del punto P’ sobre el
CCD, bajo el referente teórico del modelo de Pin-Hole …………………………………….23
Figura 7. Vista superior del trazado de rayos de la lente bajo el modelo de Pin-Hole……24
Figura 8. Vista lateral del modelo de Pin-Hole de la lente……………………………………25
Figura 9. Aberración esférica provocada por la refracción anomala de los rayos en la
lente………………………………………………………………………………………………...27
Figura 10. Aberración tipo coma. Nótese la aparición anómala de 3 puntos focales.…….27
Figura 11. Aberración tipo “Astigmatismo”. Nótese de la existencia de dos focos para los
rayos que cruzan por los ejes vertical y horizontal de la lente……………………...……….28
Figura 12. Trazado de los rayos luminosos en el fenómeno de la aberración de curvatura
de campo, para tres situaciones distintas de un objeto………………………………………29
Figura 18. Imagen de un punto P’ sobre un plano de formación de imagen ilustrando el
efecto de distorsión introducida por la lente: Punto 1, ubicación de P’ en lente sin
distorsión, Puntos 2 y 3 ubicación de P’ en lente con distorsión radial y
tangencial………………………………………………………………………………….………30
Figura 19: Plano de imagen ilustrando el efecto de distorsión radial sobre un punto P’: El
punto P’ se desplaza hacia una nueva ubicación P…………………………………………..31
Figura 20. Modelo geométrico de la lente gruesa……………………………………………37
151
Figura 21. Diagrama de propagación de rayos en un modelo de lente biconvexa gruesa.38
Figura 22. Modelo aproximado de una cámara de video…………………………………….40
Figura 23. CCD ilustrando los sistemas de referencia cartesianos '' zx y vu ………..42
Figura 24. Medición del punto P desde los Sistemas de Referencia absoluto WWW zyx
y respecto al sistema de referencia de la cámara…………………………………………….46
Figura 25. Sistemas cartesianos de referencia, 𝑋𝑊 − 𝑌𝑊 − 𝑍𝑊 y 𝑋𝑇 − 𝑌𝑇 − 𝑍𝑇………....47
Figura 26. Posibles rotaciones del sistema RRR zyx , respecto al sistema
WWW zyx ……………………………………………………………………………………... 49
Figura 27: Sistemas de referencia (𝑥𝑤 , 𝑦𝑤 , 𝑧𝑤) y sistema de referencia rotado alrededor del
eje Z en 𝜃𝑍 [Radianes]……………………………………………………………………………50
Figura 28. Sistema de referencia del mundo (𝑥𝑤 , 𝑦𝑤 , 𝑧𝑤), sistema de referencia rotado
(𝑥𝑟, 𝑦𝑟, 𝑧𝑟), cuando se aplica una rotación 𝜃𝑥 respecto al eje 𝑋 ……………………………..52
Figura 29. Sistema de referencia del mundo (𝑥𝑤 , 𝑦𝑤 , 𝑧𝑤), sistema de referencia rotado
(𝑥𝑟, 𝑦𝑟, 𝑧𝑟), cuando se aplica una rotación 𝜃𝑌 respecto al eje 𝑌 ……………………………..54
Figura 30. Diagrama ilustrativo de algunas técnicas o métodos empleados para calibrar
cámaras……………………………………………………………………………………………68
Figura 31. Ejemplos de tipos de plantillas empleadas para calibración de cámaras……..70
Figura 32. Plantilla de calibración de Zhang ilustrando el sistema de referencia absoluto
puesto sobre ella………………………………………………………………………………….87
Figura 33. Plano imagen con 3 líneas rectas distorsionadas por efectos de la distorsión
radial introducida por la lente……………………………………………………………………96
Figura 34. Metodología implementada………………………………………………………..102
Figura 35. Montaje experimental para medir el ángulo de apertura θ…………….........105
Figura 36. Esquema para hallar la distancia mínima de captura de un punto de un objeto
por ambas cámaras, teniendo en cuenta el ángulo de apertura y la distancia entre las
mismas………………………………………………………………………………………….106
152
Figura 37. Captura de tres (3) líneas rectas en la cámara 1 y la cámara 2
respectivamente…………………………………………………………………………………107
Figura 38. Captura en 3 posiciones de una plantilla bidimensional realizada por la cámara
número uno………………………………………………………………………………………109
Figura 39. Captura en 3 posiciones de una plantilla bidimensional realizada por la cámara
número dos…………………………………………………………………………………….109
Figura 40. Captura de la plantilla 3D realizada por la cámara 1………………………….114
Figura 41. Captura de la plantilla 3D realizada por la cámara 2…………………………115
Figura 42. Grafico comparativo donde se ilustran cada una de las coordenadas (Up-Vp), la
línea de tendencia de los puntos reales en la plantilla de calibración tridimensional y las
líneas de tendencia de los puntos encontrados por las matrices de calibración halladas
por las técnicas homogénea, Faugeras y Zhang (No
homogéneas)…………………………………………………………………………….……122
Figura 43. Capturas para estimación de coordenadas tridimensionales de un cubo de
rubik……………………………………………………………………………………………….124
Figura 44. Gráfico comparativo de la estimación de las coordenadas X y Z del objeto
tridimensional, donde se ilustran las distancias entre las esquinas del objeto real y la
estimación realizada por las distintas técnicas de calibración. Procedimiento realizado a
distintas profundidades con respecto al centro de referencia
…………………………………………………………………………………………………….132
Figura 45. Gráfico comparativo entre la distancia real del objeto en las distintas posiciones
de captura y la estimación de la profundidad en promedio realizada por las distintas
técnicas de calibración ……………………………………………………………………….133
153
12. ANEXOS
A continuación se ilustra el código fuente realizado en el software MATLAB para los
procesos requeridos en el presente trabajo de grado, Tales como: Captura de imágenes
con detección de bordes, Método numérico de LEVENBERG – MARQUART,
Código en MATLAB para capturar 2 imágenes con detección de bordes:
clear all
info=imaqhwinfo('winvideo',1)
info.SupportedFormats
obj1=videoinput('winvideo',1,'YUY2_1920x1080')
obj2=videoinput('winvideo',2,'YUY2_1920x1080')
set(obj1,'ReturnedColorSpace','rgb');
set(obj2,'ReturnedColorSpace','rgb');
src1=getselectedsource(obj1);
src1.FocusMode='manual';
src1.Focus=13;
src2=getselectedsource(obj2);
src2.FocusMode='manual';
src2.Focus=13;
preview(obj1)
preview(obj2)
154
s=input('start','s')
if s=='y'
for i=1:20
A=getsnapshot(obj1);
B=getsnapshot(obj2);
end
closepreview(obj1)
closepreview(obj2)
end
155
-Código en MATLAB para capturar 2 imágenes al mismo tiempo, aplicando un delay para
corregir ruido a la captura, Además es posible ingresar los pixeles capturados por ambas
cámaras para estimar las coordenadas 3D del punto con la matriz de calibración
escogida.
clc
clear all
F=2.7e-3;
LX=3.2e-3;
LY=2.4e-3;
alfa=(1920/LX);
beta=(1080/LY);
uc=LX/2;
vc=LY/2;
thetax=0;
thetay=0;
thetaz=0*(pi/180);
xmc1=0;
ymc1=0;
zmc1=0;
156
xmc2=0.4;
ymc2=0;
zmc2=0;
XC1=[xmc1,ymc1,zmc1]
XC1P=[-xmc1,ymc1,-zmc1]';
XC2P=[-xmc2,ymc2,-zmc2]';
RZ=[cos(thetaz),sin(thetaz),0;-sin(thetaz),cos(thetaz),0;0,0,1];
RY=[cos(thetay),0,-sin(thetay);0,1,0;sin(thetay),0,cos(thetay)];
RX=[1,0,0;0,cos(thetax),sin(thetax);0,-sin(thetax),cos(thetax)];
R3X3=RX*RY*RZ;
R=[R3X3,zeros(3,1);zeros(1,3),1];
IP=[1,0,0;0,-1,0;0,0,1];
T1=[IP,XC1P;zeros(1,3),1];
T2=[IP,XC2P;zeros(1,3),1];
%K1=[alfa,0,0;0,beta,0;0,0,1]*[-1,0,uc;0,1,vc;0,0,1]*[-F,0,0,0;0,0,-
F,0;0,1,0,0];
KA=1.0e+03
*[1.519361175274338,1.042003032128384,0,0;0,0.691412513947172,-
1.520130654958184,0;0,0.001000000000000,0,0];%MATRIZ INTIRINSECOS ZHANG
KB=1.0e+03
*[1.825677144927177,1.255703571230467,0,0;0,0.625928001208021,-
1.826271057684180,0;0,0.001261165617011,0,0];%MATRIZ INTRINSECOS ZHANG
157
CA=KA*R*T1;%MATRIZ CALIBRACION ZHANG
CB=KB*R*T2;%MATRIZ CALIBRACION ZHANG
% XH1=KA*R*T1*XM1;
%
% XH2=KB*R*T2*XM1;
%CA=[-0.638331249671722,0.391461800108568,-0.032255826777659,-
0.034159414260843;0.011869144753209,0.202651922090391,0.628811943020495,-
0.021685855602661;0.000016413093913,0.000392494914295,-
0.000036083294110,-0.000032223582720];%CALIBRACION HOMOGENEA
%CB=[0.628530822673497,-0.373164172713265,0.028446800460990,-
0.233726587897077;0.001244109778124,-0.227904172277804,-
0.598588126159087,0.003224962086787;0.000013988913322, -
0.000400443946672,0.000038329533194,0.000008720522385];%CALIBRACION
HOMOGENEA
% CA=[-1614.129034, 992.3171971, -79.28266168, -84.98335252; 29.78068426,
514.1651679, 1591.393878, -53.85726869; 0.04113811554, 0.9952048578, -
0.08874089463, -0.07993063524];%FAUGERAS CAMARA 1
% CB=[-1556.310457, 926.7248634, -70.36447196, 580.8589685; -3.93183499,
566.2798916, 1481.016398, -6.150748341; -0.0355875172, 0.9947978916, -
0.09544989937, -0.01871632962];%FAUGERAS CAMARA 2
%
% XH1=CA*XM1;
% XH2=CB*XM1;
%
158
%
%
% up1=round(XH1(1,1)/XH1(3,1))
% vp1=round(XH1(2,1)/XH1(3,1))
%
% up2=round(XH2(1,1)/XH2(3,1))
% vp2=round(XH2(2,1)/XH2(3,1))
upA(1)=1067;
vpA(1)=511;
upB(1)=544;
vpB(1)=553;
upA(2)=1130;
vpA(2)=513;
upB(2)=609;
vpB(2)=553;
upA(3)=1064;
vpA(3)=576;
159
upB(3)=544;
vpB(3)=618;
upA(4)=1128;
vpA(4)=577;
upB(4)=609;
vpB(4)=617;
for i=1:4
L=[CA(3,1)*upA(i)-CA(1,1),CA(3,2)*upA(i)-CA(1,2), CA(3,3)*upA(i)-
CA(1,3);CA(3,1)*vpA(i)-CA(2,1),CA(3,2)*vpA(i)-CA(2,2),CA(3,3)*vpA(i)-
CA(2,3);CB(3,1)*upB(i)-CB(1,1),CB(3,2)*upB(i)-CB(1,2),CB(3,3)*upB(i)-
CB(1,3);CB(3,1)*vpB(i)-CB(2,1),CB(3,2)*vpB(i)-CB(2,2),CB(3,3)*vpB(i)-
CB(2,3)];
b=[-(-CA(1,4)+CA(3,4)*upA(i));-(-CA(2,4)+CA(3,4)*vpA(i));-(-
CB(1,4)+CB(3,4)*upB(i));-(-CB(2,4)+CB(3,4)*vpB(i))];
XW=inv((L'*L))*L'*b
xw(i)=XW(1);
yw(i)=XW(2);
zw(i)=XW(3);
end
-Método de LEVENBERG – MARQUART para el cálculo de la Matriz B de la cámara 1
160
1) Función: Función
function f=funcion(B11,B13,B22,B23,B33)
f=0.3308350528*B11^2 - 1.403946988*10^(-31)*B11*(1.195767620*10^27*B13 +
1.05927209*10^8*(1.116865755*10^22*B22 -
2.696335*10^6*(8.302988517*10^12*B23 - 2.987212129*10^9*B33))) +
2.208252920*10^(-7)*B13^2 + B13*(0.0003472350424*B22 - 4.431373368*10^(-
7)*B23 - 2.354065570*10^(-11)*B33) + 0.2959688678*B22^2 -
4.647828601*10^(-17)*B22*(7.733041830*10^12*B23 + 2.86035336*10^9*B33) +
6.756162310*10^(-7)*B23^2 + 8.618607212*10^(-11)*B23*B33 +
4.505274300*10^(-14)*B33^2;
2) Función: Jacobiano
function J=jacobiano(B11,B13,B22,B23,B33)
J = [0.2526536166, 0.0002632593509, 0.01569635682, - 3.82635436*10^(-6),
- 1.026874304*10^(-8); 0.507300575, -0.0002713951881, -0.1359206561,
0.00026134444, - 1.207753195*10^(-7); -0.0001496419863, 6.573928045*10^(-
5), 0.3108274977, 0.0001818392582, - 1.073010263*10^(-7); 0.06710151165,
-0.0002195779197, -0.2828780892, 0.0007310479076, 1.16185008*10^(-7); -
0.05885245614, 6.707813868*10^(-5), 0.170094493, 0.0001779985025,
1.545584153*10^(-8); -0.04100100816, -0.0001443220903, -0.2677352882,
9.011464022*10^(-5), 7.14791495*10^(-8)];
3) Función: Error
function E=error(B11,B13,B22,B23,B33)
161
E = [0.2526536166*B11 + 0.0002632593509*B13 + 0.01569635681*B22 -
3.826354359*10^(-6)*B23 - 1.026874304*10^(-8)*B33; 0.5073005750*B11 -
0.0002713951880*B13 - 0.1359206560*B22 + 0.0002613444399*B23 -
1.207753195*10^(-7)*B33; - 0.0001496419862*B11 + 6.573928044*10^(-5)*B13
+ 0.3108274976*B22 + 0.0001818392582*B23 - 1.073010262*10^(-7)*B33;
0.06710151164*B11 - 0.0002195779197*B13 - 0.2828780891*B22 +
0.0007310479076*B23 + 1.161850080*10^(-7)*B33; - 0.05885245614*B11 +
6.707813868*10^(-5)*B13 + 0.1700944930*B22 + 0.0001779985025*B23 +
1.545584153*10^(-8)*B33; - 0.04100100816*B11 - 0.0001443220902*B13 -
0.2677352882*B22 + 9.011464021*10^(-5)*B23 + 7.147914949*10^(-8)*B33];
4) Función: Principal
clear all
clc
format long
beta=10;
B11=2.406865491*10^(-5);
B13=0.9728344426;
B22=-0.0004233530652;
B23=0.2315013813;
162
B33=0.0002788276816;
E=sqrt(funcion(B11,B13,B22,B23,B33));
while E>1e-50
FA=funcion(B11,B13,B22,B23,B33);
%LA MATRIZ J ES LA MATRIZ L ORIGINAL DEL SISTEMA LX=b
J=jacobiano(B11,B13,B22,B23,B33)
ERROR=error(B11,B13,B22,B23,B33);
A=(J'*J+beta*eye(5,5));
B=(-J'*ERROR);
d=inv(A)*B;
B11v=B11;
B13v=B13;
163
B22v=B22;
B23v=B23;
B33v=B33;
B11=B11+(d(1));
B13=B13+(d(2));
B22=B22+(d(3));
B23=B23+(d(4));
B33=B33+(d(5));
FB=funcion(B11,B13,B22,B23,B33);
if FB<FA
B11=B11;
B13=B13;
B22=B22;
B23=B23;
B33=B33;
ERROR=error(B11,B13,B22,B23,B33);
E=sqrt(funcion(B11,B13,B22,B23,B33));
beta=beta/2;
else
beta=1.1*beta;
164
B11=B11v;
B13=B13v;
B22=B22v;
B23=B23v;
B33=B33v;
if beta==inf
beta=realmax;
end
end
end
B=[B11;B13;B22;B23;B33];
M=norm(B);
Bsol=(1/M)*B
E
B11SOL=Bsol(1)
B13SOL=Bsol(2)
B22SOL=Bsol(3)
B23SOL=Bsol(4)
B33SOL=Bsol(5)
165
Para el cálculo por el método de LEVENBERG MARQUARDT requerido en diversas
operaciones del proyecto de grado, es aplicado el mismo código fuente con el cambio de
los parámetros en las funciones principales como: Función, Error, Jacobiano y la semilla
producida por el método de mínimos cuadrados en la función Principal.
Las operaciones matriciales y el cálculo de soluciones por mínimos cuadrados se
realizaron en el software DERIVE.
166
13. BIBLIOGRAFÍA
Abdel-Aziz , Y., & Karara, H. (1971). Direct linear transformation from coordinates in close
range photogrammetry.
Harris, C., & Stephens, M. (1988). A Combined Corner and Edge Detector.
Acosta Amaya, G. A. (2010). Ambiente Multi-Agente Robótico para la navegación
colaborativa en escenarios estructurados. Medellín.
Aguilar, G. (2013). Curso de óptica física y geométrica.
Aristizabal, H. I., & Restrepo, J. (2013). Prototipo para la Medición Automática de la
Velocidad de un Automóvil con Cámara de Video Mediante Procesamiento de
Imágenes. Medellín .
Brown, D. (1966). Decentering Distortion of Lenses.
Carabias, M., Requero García, D., Rodriguez , R., & Andrés, J. (2010). Sistema de visión
estereoscópica para navegación autónoma de vehículos no tripulados. Madrid.
Colciencias. (2013). Obtenido de www.colciencias.gov.co/programa_estrategia/electr-nica-
telecomunicaciones-e-inform-tica.
Cornejo Rodríguez, A., & Urcid Serrano , G. (2005). ÓPTICA GEOMÉTRICA.
Tonantzintla.
Correa Niño, D. A., & Sanabria Cárdenas, R. (2010). Robots de Servicio Cooperativos.
Revista Colombiana de Tecnologías de Avanzada, 119-127.
Díaz Celiz, C. A., & Romero Molano, C. A. (2011). Navegación de robot móvil usando
Kinect, OpenCV y Arduino. Villavicencio.
Digital Camera World. (s.f.). Obtenido de
http://www.digitalcameraworld.com/2012/08/31/cheat-sheet-friday-how-your-digital-
camera-turns-light-into-an-image/
Faugeras, O. (1992). A theory of self-calibration of a moving camera. Springer, 123-151.
Gómez Sánchez, A. E., & Zamorano Acosta, D. I. (2008). visión estereoscópica y
estimación de pose para el posicionamiento de un brazo robótico. Cuernavaca.
Hall, E.L. Measuring curved surfaces for robot visión. Comput. J. No. 15, pp. 42 – 54.
Harris, Chris; Stephens, Mike (1988). A combined corner and edge detection. AVC. United
Kingdom: The Plessey Company plc.
167
Isern González , J. (s.f.). Estudio Experimental de métodos de calibración y
autocalibración de cámaras.
Jaramillo Ortíz, A., Jiménez, R., & Ramos, O. L. (2013). Inspección de calidad para un
sistema de producción industrial. Tecnura.
Jerry , D., & J. Buffa, A. (2014). Física . Prentice Hall .
Jímenez Alonso, F., & Hernández, J. E. (2012). Equipo para controlar automáticamente la
direcció de un vehículo. Madrid.
MIT. (2012). Obtenido de newsoffice.mit.edu/2012/mechanical-engineers-develop-
intelligent-car-co-pilot-0713
Molleda Meré, J. (2008). Técnicas de Visión por Computador para la reconstrucción en
Tiempo Real de la forma 3D de productos laminados. Oviedo.
Nope, S., & Loaiza, H. (2008). Estudio Comparativo de Técnicas para el Reconocimiento
de gestos por Visión Artificial. Cali.
Ordoñez Santiago, C. A. (2005). Formatos de Imagen Digital. Revista Digital Univeristaria,
10.
Ordoñez Santiago, C. A. (2005). Formatos de Imagen Dígital . Revista Dígital Universitaria
, 2-10.
Ricolfe Viala, C. (2006). Caracterización y Optimización del proceso de calibrado de
cámaras basado en plantilla bidimensional. Valencia.
Rodríguez Martín, J. (2008). Curso de Fotografía Dígital. Madrid.
Rojas Gualdrón, J. C. (2007). Desarrollo de Estrategias para el control de móviles
autónomos basados en Redes Neuronales. Bucaramanga.
Sánchez Martínez, N., Arias Pérez, B., Gónzalez Aguilera, D., & Gómez Lahoz, J. (2004).
Análisis Aplicado de métodos de calibración de cámaras para usos
fotogramétricos. Madrid.
Suárez Sanchéz , A. F. (2009). Navegación de un Robot Móvil por Estereovisión . Entre
Ciencia e Ingeniería, 9-23.
Tsai, R. (1987). A versatile camera calibration technique for High-Accuracy 3D machine
vision metrology using off-the-shelf tv cameras and lenses. IEEE, 323-344.
Vilá Ubieto, K. (2009). Reconstrucción 3D de modelos utilizando Técnicas de Visión
Artificial. Madrid.
168
Wang, A. (2009). A simple Method of Radial Distortion Correction with Centre of Distortion
Estimation. Springer.
Zhang , Z. (2000). A Flexible New Technique for Camera Calibration. IEEE, 1330 - 1334.