Cómo funciona el enfoque automático en las cámaras

El sistema de enfoque automático de una cámara es actualmente una de las funciones más importantes y más valoradas.

En esta entrada veremos de una forma sencilla cómo funcionan los diferentes sistemas, la tecnología que utilizan y sus puntos fuertes y débiles.

Foto: Nathan O’Nions (CC BY 2.0)

¿En qué consiste enfocar en una cámara?
¿Qué es el enfoque automático (o autoenfoque)?
Enfoque por detección de fase puro (cámaras réflex) | PDAF
Enfoque por detección de contraste | CDAF
Enfoque híbrido en el sensor de imagen: fase + contraste
Enfoque Dual Pixel de Canon
Enfoque DFD de Panasonic

¿En qué consiste enfocar en una cámara?

En la entrada sobre la profundidad de campo vimos que en fotografía se considera que un elemento de la escena está enfocado cuando los puntos de la imagen que corresponden a ese elemento son muy pequeños (forman un círculo de confusión tan pequeño que el ojo humano lo ve como un punto)

En la práctica, cuando vemos una imagen, los elementos enfocados aparecen con mucho contraste, se aprecian muy bien sus bordes, sus líneas, las separaciones entre sus partes son nítidas y diferenciadas.

Los elementos que no están enfocados aparecen más borrosos, hasta el punto que pueden llegar a ser irreconocibles.

El proceso de enfoque implica el movimiento de la lente con respecto al plano del sensor:

En el caso de una lente simple, cuando alejamos la lente del sensor enfocamos objetos más cercanos.

Si acercamos la lente al sensor enfocamos objetos más lejanos.

Llegará un momento en que el foco de la lente coincide prácticamente con el plano del sensor, en ese caso estaremos enfocando a infinito: todos los objetos lejanos (a partir de una cierta distancia) estarán enfocados.

En el otro extremo, para enfocar objetos muy cercanos a la cámara, la lente se tiene que separar del plano del sensor.

En fotografía macro (fotografía de objetos muy pequeños) se utilizan objetivos específicos que permiten enfocar desde muy cerca (distancia pequeña entre la cámara y el objeto) o se usan tubos de extensión con objetivos normales para ‘alejar’ el centro óptico y permitir que podamos enfocar con la cámara muy próxima al objeto para conseguir una magnificación mayor.

Los objetivos de las cámaras están formados por un sistema de lentes, pero el principio de enfoque es el mismo.

Lo que suele ocurrir es que dentro del objetivo no se mueven todas las lentes sino un grupo de lentes especializado cuyo ajuste equivale a desplazar el centro óptico del sistema.

En las cámaras de objetivos intercambiables (cámaras réflex y cámaras sin espejo), la mayoría de los objetivos incluyen un anillo de enfoque manual.

El enfoque automático

Las primeras cámaras con enfoque automático surgieron alrededor de 1980.

En la actualidad todas las cámaras incluyen sistemas de enfoque automático, algunas de ellas incluso sin posibilidad de enfoque manual.

En las cámaras de objetivos intercambiables y las compactas avanzadas existe la opción de trabajar con enfoque automático (es lo habitual en la mayoría de las situaciones) o con enfoque manual utilizando el anillo de enfoque del objetivo.

El sistema de enfoque automático funciona de la siguiente forma:

La cámara incorpora un detector que analiza normalmente una parte pequeña de la imagen (la zona de la escena que se desea enfocar)

El sistema electrónico decide si ese trozo de imagen tiene contraste o si está borroso.

Habitualmente el contraste se detecta a partir de transiciones bruscas entre elementos de la escena: bordes, líneas, texturas..

Si el sistema determina que la imagen está borrosa envía la orden de mover ligeramente la lente de enfoque. Y vuelve a evaluar.

Llega un momento en que el sistema determina que ha conseguido el máximo contraste, el máximo enfoque, para la zona que deseamos enfocar.

¿Cómo es el sistema de enfoque ideal?

Sería un sistema que…

Consigue el enfoque muy rápido, cuanto más rápido mejor, idealmente instantáneo
Consigue un enfoque preciso en el punto de la escena que deseamos enfocar
Consigue enfocar en cualquier circunstancia

Ese sistema ideal no existe, aunque los sistemas de enfoque son cada vez más rápidos, más precisos y más polivalentes.

También hay que saber que la velocidad de enfoque depende de todo el sistema en su conjunto: precisión del detector, algoritmo de ajuste de la posición de las lentes (cómo y cuánto se tiene que mover la lente), velocidad y precisión del motor de enfoque…

Y también depende de las condiciones externas: cantidad de luz en la escena, textura del objeto que enfocamos…

Vamos a ver cuáles son las técnicas que se utilizan actualmente en los sistemas de enfoque, con sus pros y contras.

Enfoque por detección de fase (réflex)

Es el sistema que utilizan la mayoría de cámaras réflex.

El espejo de las cámaras réflex está formado en realidad por dos espejos.

El espejo principal envía la imagen al visor óptico, pero es un espejo que deja pasar cierta cantidad de luz a un segundo espejo, llamado espejo secundario o sub-espejo, que refleja la imagen hacia el detector de fase.

El detector de fase es un sensor de luz, que funciona de forma parecida al sensor de imagen.

Este sensor sin embargo sólo recibe una parte muy pequeña de la escena, por ejemplo una zona del centro de la imagen (o la zona indicada por el punto de enfoque seleccionado en la cámara).

El sensor de enfoque está especializado en detectar transiciones de luz de la escena, por ejemplo un borde de un objeto, una línea, una textura.. algo que genere un contraste significativo entre dos puntos de luz. Esta transición se convierte en una señal eléctrica, que podríamos imaginar como un pico.

Por cada punto de enfoque hay dos sensores separados que hacen una triangulación.

Cada uno de ellos recibe la misma imagen de la zona que queremos enfocar. Cuando la imagen está enfocada los picos de las dos señales eléctricas coinciden. Cuando la imagen está desenfocada, los picos no coinciden y el sistema electrónico puede calcular exactamente hacia dónde tiene que mover la lente y lo lejos que estamos del punto de enfoque.

Algunos puntos de enfoque sólo detectan transiciones verticales (líneas o bordes verticales de la escena), otros sólo transiciones horizontales y algunos puntos de enfoque detectan ambas, son los llamados puntos de enfoque en cruz (cross type AF point).

El sistema de enfoque por detección de fase es muy rápido y bastante preciso.

Como se conoce en todo momento hacia dónde se tiene que mover la lente es un sistema que funciona muy bien tanto para enfoque rápido como para seguimiento de objetos en movimiento, ya que la parte electrónica puede introducir incluso cierto margen de predicción.

Para que la detección de fase funcione correctamente se necesita cierta cantidad de luz en la escena. También es necesario que la escena contenga esas líneas horizontales o verticales, bordes.. en definitiva que la escena (al menos en el punto de enfoque) tenga cierta textura.

Una de las desventajas del sistema es su complejidad de construcción.

El problema viene porque los sensores de detección de fase están situados en un plano diferente del sensor de imagen.

No detectan exactamente lo que llega al sensor principal, son elementos independientes, y por lo tanto todo el sistema tiene que estar perfectamente construido (parte mecánica) y sincronizado (parte mecánica y electrónica). Cada cámara, una por una, tiene que ser calibrada con una gran precisión, de lo contrario presentará problemas de back focus o front focus, es decir, todas las imágenes aparecerán desenfocadas.

Otro problema del enfoque por detección de fase tradicional en las réflex es que cuando el espejo está levantado este sistema deja de estar operativo.

Por ese motivo, cuando usamos la pantalla (live view) para fotografía en lugar del visor óptico el enfoque suele ser más lento, y a veces mucho más lento dependiendo de la cámara.

Y lo mismo ocurre cuando se usa la cámara réflex para vídeo, ya que el espejo permanece levantado todo el tiempo. Es decir, el sistema de enfoque por detección de fase puro (usando sensores independientes) no sirve para vídeo.

El enfoque por detección de fase se conoce en inglés con las siglas PDAF (Phase Detection Auto Focus). Esta nomenclatura se utiliza también para referirse a sistemas que utilizan enfoque híbrido: fase + contraste, tanto en cámaras como en móviles.

Aquí tienes más información sobre cómo funciona el enfoque por detección de fase / PDAF.

Enfoque por detección de contraste

Es el sistema que utilizan la mayoría de las cámaras compactas y muchas réflex cuando trabajan en modo live view (a través de la pantalla). Desde el punto de vista técnico es un sistema muy sencillo, no necesita elementos externos, ni sensores adicionales, ni electrónica compleja, ni calibración..

Una vez seleccionamos la zona que queremos enfocar en la escena, el procesador la analiza directamente a partir de la imagen generada por el sensor.

El sistema hace un barrido, moviendo la lente de enfoque, y en cada posición calcula el nivel de contraste de la imagen. El barrido se detiene cuando se determina dónde está situado el máximo nivel de contraste y el procesador mueve la lente hasta esa posición.

En principio es un proceso de prueba y error, porque el sistema no sabe hacia dónde debe mover la lente, ni cuánto tiene que moverla, y por lo tanto es un proceso relativamente lento comparado con la detección de fase.

El movimiento de enfoque por detección de contraste tradicional es típico: recorrido hacia adelante de la lente, recorrido hacia atrás, un poco hacia adelante.. una especie de vaivén hasta que consigue el enfoque. En inglés se conoce como autofocus hunting o focus hunting.

Cuando está activado el enfoque continuo, ese vaivén es constante porque la cámara tiene que asegurar en tiempo real que no ha cambiado la distancia entre la cámara y el objeto que estamos enfocando.

En fotografía ese efecto (con enfoque continuo) puede llegar a ser un poco molesto en el momento de visualizar la escena a través del visor electrónico o la pantalla trasera. La fotografía en sí, la imagen final, aparece perfectamente enfocada porque la cámara disparará justo en el momento de alcanzar el máximo contraste.

En vídeo (con enfoque continuo) es más problemático porque los algoritmos tienen que hacer el seguimiento de contraste de la zona de interés y la única forma de saber si la zona sigue enfocada es por prueba y error: moviendo ligeramente el enfoque, comprobando, volviendo atrás… para ver si ha cambiado la distancia donde se maximiza el contraste.

Ese proceso es visible en la secuencia final de vídeo, se nota como la imagen ‘pulsa’ ligeramente, sobre todo los elementos del fondo, pero a veces incluso la imagen que corresponde al sujeto principal.

Es un efecto bastante molesto.

Por lo tanto los sistemas de las cámaras tratan de minimizar en vídeo ese efecto de focus hunting o imagen pulsante.

Se tiene que encontrar un equilibrio entre la respuesta del sistema ante los cambios en la escena y la precisión del enfoque.

Por eso los sistemas basados en detección por contraste en vídeo suelen tener reacciones más lentas y las transiciones (pasar de enfocar un objeto a otro situados en planos diferentes) no son tan suaves si se produce ese efecto de rebote.

Sin embargo la detección por contraste también tiene ventajas:

El plano de enfoque es el plano del sensor, no hay problemas de back focus / front focus.
Es un proceso que se realimenta a sí mismo, por lo tanto cuando se consigue el enfoque suele ser muy preciso (máximo contraste)
No hay necesidad de puntos de enfoque específicos, se puede enfocar usando cualquier zona de la imagen
Se puede conseguir enfoque con menos luz en la escena
Puede encontrar el enfoque en escenas donde no hay bordes verticales / horizontales muy definidos
Se pueden aplicar algoritmos predictivos y de reconocimiento muy complejos, por ejemplo reconocimiento de caras para enfoque más rápido y para seguimiento

La rapidez del sistema por detección de contraste viene también determinada por la potencia de cálculo del procesador de la cámara.

En las cámaras un poco más antiguas sí se nota una diferencia abismal entre el enfoque por detección de contraste y el enfoque por detección de fase. En las cámaras actuales las diferencias son mínimas.

El enfoque por detección de contraste se conoce en inglés con las siglas CDAF (Contrast Detection Auto Focus). Esta nomenclatura se utiliza también para referirse a sistemas que no utilizan enfoque híbrido. Por ejemplo en cámaras o en móviles que sólo se basan en la detección por contraste.

Enfoque híbrido integrado en el sensor de imagen

Éste es probablemente el sistema del futuro, que ya se utiliza en prácticamente todas las cámaras actuales con diferentes variantes.

La idea es muy sencilla: en lugar de usar un sensor independiente para hacer detección de fase, ¿por qué no utilizar el propio sensor de imagen?

Los sensores de imagen que utilizan tecnología híbrida incluyen zonas (píxeles, celdas) dedicadas exclusivamente a la detección de fase.

Estos píxeles especiales se distribuyen a lo largo del área del sensor.

Puede haber muchas zonas de detección de fase en el sensor. Por ejemplo la cámara EVIL (mirrorless) Sony a6000 incluye 179 puntos de detección de fase a lo largo de toda el área de su sensor APS-C.

En general, estos detectores de fase integrados en el sensor de imagen no son tan efectivos como los detectores de fase independientes de las réflex.

Hay que pensar que los detectores independientes son sensores especializados, con una electrónica muy específica y muy rápida, una óptica interna también optimizada para la detección de fase y una separación entre pares que permite una triangulación más precisa.

Pero la ventaja del sistema híbrido es que los detectores de fase se encuentran exactamente en el plano del sensor (forman parte del mismo). No hay problemas de errores de calibración.

Otra gran ventaja es que las dos técnicas de enfoque se pueden combinar. La detección de fase indica al procesador hacia dónde tiene que mover la lente de forma muy rápida y la detección de contraste se encarga de afinar el enfoque y conseguir el mayor contraste posible.

Además se pueden implementar algoritmos de predicción muy potentes, que utilizan por ejemplo muchos puntos de detección de fase a la vez y muchas zonas de detección de contraste.

Todos los fabricantes están desarrollando nuevas tecnologías y algoritmos basados en detección híbrida de fase / contraste.

La velocidad y precisión de enfoque basada en esta tecnología es cada vez mayor.

Uno de los inconvenientes de los sistemas de enfoque híbridos es que las celdas dedicadas al sistema de enfoque no contribuyen a la detección de luz para generar la imagen final.

Es decir, podemos imaginar una imagen con ‘huecos’ que corresponden a la posición de esos puntos de enfoque.

La cámara internamente tiene que hacer algún tipo de interpolación para reconstruir una imagen completa. Y este proceso puede dar lugar a un efecto de banding que es apreciable sobre todo cuando se usa un ISO muy alto o se recuperan sombras en el proceso de revelado / edición. En esas situaciones extremas se puede llegar a apreciar en la imagen un patrón, normalmente en forma de bandas de distinto tono o color.

En condiciones normales esos efectos o patrones en la imagen son totalmente invisibles.

En vídeo, la ventaja del sistema de enfoque híbrido es que la parte de detección de fase sabe en todo momento si ha cambiado la distancia entre la cámara y el objeto de la escena, no tiene que estar analizando constantemente el contraste (prueba y error). Se minimiza mucho el efecto de focus hunting.

Con los algoritmos de detección de cara (y ojos) el sistema por detección de fase ayuda a determinar a qué distancia se encuentra el sujeto principal y luego el sistema basado en la detección por contraste se encarga de analizar y detectar los patrones (cara, ojos, etc.). En un sistema basado únicamente en detección por contraste a veces es muy difícil identificar una cara en una imagen que está totalmente desenfocada, sin rasgos ni patrones distintivos.

Más información sobre los sistemas de enfoque por detección de fase PDAF integrados en el sensor.

Enfoque Dual Pixel CMOS

Esta tecnología de Canon es básicamente un sistema de enfoque híbrido.

Utiliza la detección de fase integrada en el sensor de imagen, pero en este sistema todos los píxeles del sensor se utilizan para enfoque por detección de fase.

Cada píxel del sensor está en realidad formado por dos celdas (dos fotodiodos, A y B) independientes, cada uno de ellos con su propia micro-lente.

En el momento de enfocar, cada par de celdas (de la zona que estamos enfocando) funciona como un detector de fase y permite triangular la distancia al objeto y enfocar.

Otra forma de verlo sería pensar que la cámara dispone de dos imágenes: una formada a partir de las celdas A y otra formada a partir de las celdas B. Superponiendo esas dos imágenes y viendo sus diferencias la cámara puede determinar hacia dónde tiene que mover la lente de enfoque.

Luego el sistema de detección por contraste y los algoritmos que están por encima se pueden encargar de hacer el ajuste fino o la detección y seguimiento de patrones (p.e. caras, ojos, etc.)

Cuando se pulsa el botón de disparo, cada par de píxeles se combina para generar la información de ese punto de la imagen, como si se tratara de un único fotodiodo.

Este tipo de enfoque funciona muy bien por ejemplo para vídeo, para seguimiento de objetos.

Una vez está ‘enganchado’ el objeto que queremos enfocar permite hacer un seguimiento bastante preciso y rápido a lo largo de toda la escena ya que los ‘puntos de enfoque’ están distribuidos de forma uniforme por todo el sensor.

El sistema Dual Pixel no es tan rápido como el enfoque por detección de fase tradicional para fotografía (el de las cámaras réflex especializadas), aunque este tipo de sistemas evolucionan en cada generación de cámaras.

Por las mismas razones que comentamos en el enfoque híbrido: el detector de fase independiente está optimizado para esta tarea y la separación física de cada par de sensores hace más sencilla la triangulación.

Un inconveniente del sistema es el precio. Construir un sensor Dual Pixel es más caro que construir un sensor tradicional o un sensor híbrido (Hybrid CMOS).

En vídeo, el sistema Dual Pixel se comporta de forma similar al sistema híbrido genérico.

La parte de detección de fase da el empujón inicial para estimar dónde se encuentra el objeto principal de la escena y los algoritmos de detección de cara, ojo o seguimiento de objetos son los que se encargan del ajuste fino. Los dos sistemas: fase + contraste, están constantemente aportando información a la cámara.

Más información sobre el sistema de enfoque Dual Pixel.

Enfoque DFD de Panasonic

Las cámaras de Panasonic (a partir de la Panasonic GH4) utilizan un sistema conocido como DFD (Depth from Defocus) basado en la detección por contraste.

Como vimos en el apartado correspondiente, la detección por contraste tiene el problema de que el sistema no sabe hacia dónde tiene que mover la lente de enfoque, ni cuánto tiene que moverla.

El algoritmo de detección por contraste básico va analizando la imagen a medida que se mueve el enfoque hasta que el nivel de contraste (en la zona que estamos enfocando) alcanza un máximo. Vamos a suponer que se analizan 10-15 imágenes de la escena hasta encontrar el punto exacto de enfoque.

El algoritmo DFD se basa en lo siguiente:

La cámara analiza una primera imagen y la compara con la siguiente (con la lente de enfoque en otra posición).

La cámara busca en su base de datos la caracterización del objetivo que está usando y a partir de esa información, y el análisis de las imágenes, puede calcular de forma bastante precisa hacia dónde y cuánto tiene que mover la lente de enfoque.

Una vez situada la lente de enfoque en esa posición se realiza un ajuste fino por prueba y error (como en la detección por contraste básica)

La ventaja del sistema Depth from Defocus es que la cámara sólo tiene que analizar 4-5 imágenes y el recorrido de la lente de enfoque es mucho menor en la mayoría de los casos. La lente hace dos movimientos iniciales, un movimiento directo hacia la zona estimada y luego un par de movimientos de corrección (con respecto a los 10-15 movimientos que haría en la detección por contraste pura).

Eso se traduce en unos tiempos de respuesta menores.

El inconveniente de DFD es que sólo funciona cuando la cámara usa determinados objetivos: los que Panasonic tiene caracterizados, que son precisamente sus objetivos.

DFD no funciona con objetivos que no son de Panasonic. Y cuando sale un nuevo objetivo es necesario actualizar el firmware de la cámara para que lo reconozca el sistema DFD.

Con otros objetivos la cámara utiliza el sistema de enfoque por detección de contraste base.

En vídeo, el sistema DFD es más rápido a la hora de hacer transiciones entre planos. Por ejemplo al pasar el enfoque de un objeto cercano a uno lejano.

Pero una vez que el objeto está enfocado (si utilizamos enfoque continuo) el sistema tiene que comprobar periódicamente que no se ha modificado la distancia entre el objeto y la cámara. Y tiene que minimizar en la medida de lo posible el efecto de focus hunting (micro variaciones de enfoque).

De nuevo, ese equilibrio hace que los sistemas DFD tengan una respuesta más lenta ante los cambios en la escena, con respecto a cámaras con sistemas de enfoque híbridos.

Más información de interés

Qué es la profundidad de campo en fotografía

Qué es la distancia focal

Distancia focal, ángulo de visión y encuadre

Qué es el factor de recorte (quecamaradefotos.com)

Qué son los pasos de luz en fotografía

¿Cómo funcionan los estabilizadores de imagen?

Criterios de elección de cámaras y equipo

Cámaras réflex: modelos, características y precios

Cámaras de fotos recomendadas: guías y criterios de elección

Cámaras réflex recomendadas por gama / tipo de usuario

Cámara para fotografiar a bebés y niños pequeños

Cámaras recomendadas para vlogging