Perspectiva, percepción visual humana y fotografía

¿Cómo percibimos los humanos un entorno tridimensional? ¿Por qué las fotos y los vídeos los percibimos como representaciones fieles de la realidad? ¿Qué tiene que ver la perspectiva con todo esto?

 

Percepción visual humana - profundidad

 

Este artículo forma parte de la serie sobre la Perspectiva en Fotografía.

Ya vimos en un capítulo anterior qué entendemos por perspectiva (geométrica), qué es la perspectiva central o rectilínea, y también vimos que este tipo de perspectiva está muy asociada a la visión humana (por el principio de funcionamiento de los ojos).

En este capítulo voy a hablar de la percepción visual humana.

La visión humana está en el cerebro, los ojos son unos ‘simples’ sensores que envían información al cerebro (no sólo imágenes, ya veremos) y éste se encarga de generar la sensación que percibimos como visión.

La percepción visual humana es muy muy compleja, porque intervienen muchos mecanismos y procesos que interoperan  (y a veces compiten) entre sí.

Una gran parte de los procesos relacionados con la visión tienen que ver con el reconocimiento de objetos (formas).

Otra parte muy importante está relacionada con la estimación de distancias, la percepción de la profundidad, que no es otra cosa que la capacidad de recrear en el cerebro las posiciones relativas de los objetos del entorno en el que estamos.

Damos por hecho que vemos ‘en tres dimensiones’ y que lo que vemos es la realidad física tal cual.

Sigue leyendo y seguro que te llevas alguna sorpresa.

Todo este campo de la percepción visual sigue estudiándose y probablemente tardaremos bastante en tener un conocimiento profundo de muchos detalles.

Pero creo que en líneas generales sí se tiene una idea global bastante precisa de los mecanismos que intervienen.

Voy a intentar ser muy cuidadoso con la información. Aunque es un tema que me interesa mucho, no es mi campo de conocimiento. Abajo encontrarás algunas referencias a publicaciones o libros sobre estos temas para que puedas contrastar, aprender mucho más y tener tu propio criterio.

 

 

La percepción de la profundidad

En este contexto, percepción de la profundidad significa percepción de la tridimensionalidad del entorno que nos rodea.

La percepción visual humana es bastante compleja, pero podríamos resumirla como:

  • Los ojos proyectan la escena 3D sobre la retina para generar una imagen 2D (una imagen en cada ojo)
  • La proyección, a efectos prácticos, es una proyección rectilínea
  • En cada ojo se genera una perspectiva rectilínea de la escena
  • El punto de vista de cada ojo izquierdo-derecho es ligeramente diferente (posición y dirección)
  • El cerebro utiliza diferentes mecanismos para reconstruir en su interior una escena 3D (virtual, que sólo existe en nuestra cabeza) a partir de la información 2D proporcionada por los ojos

 

Mucha gente piensa que la visión binocular es la responsable de la sensación de profundidad (el hecho de reconstruir una escena 3D en nuestra mente).

Lo cierto es que la visión binocular es sólo uno más, de los muchos mecanismos que utiliza el cerebro, y sólo es efectiva a distancias muy cortas.

A lo largo de la evolución de los diferentes sistemas de visión de los animales se han potenciado sobre todo dos aspectos básicos para la supervivencia: reconocimiento de formas y percepción de las distancias (profundidad).

La percepción de la profundidad es tan importante que por ejemplo el cerebro humano dispone de muchísimos mecanismos redundantes para estimar distancias.

Vamos a intentar clasificarlos (al menos los más importantes)

 

Mecanismos relacionados con la fisiología del ojo

  • Enfoque (acomodación)
    El enfoque se realiza en el ojo cambiando el grosor del cristalino (su distancia focal) mediante unos músculos especializados.
    El enfoque funciona tanto en visión binocular como en visión ocular.
    Es un mecanismo secundario. Es efectivo sólo en distancias pequeñas, por debajo de 10 metros. Y es relativamente lento.
    Pero tiene la ventaja de que es uno de los pocos que permite estimar distancias absolutas (de forma cuantitativa).
  • Triangulación / convergencia
    Cuando centramos la atención en un objeto los dos ojos se mueven para apuntar a ese objeto (convergen). El ángulo relativo que forman los ojos aporta información sobre la distancia del objeto.
    Sólo funciona con visión binocular. Aunque si tenemos visión en los dos ojos y tapamos uno de ellos, la convergencia sigue ocurriendo.
    Está íntimamente relacionado con el enfoque, es muy difícil separarlos.
    Es un mecanismo secundario, muy similar al del enfoque, ya que también permite estimar distancias de una forma cuantitativa. Es efectivo sólo en distancias pequeñas, por debajo de 10 metros.
  • Visión estereoscópica
    También se la suele llamar disparidad binocular o estereopsis.
    El cerebro utiliza las pequeñas diferencias entre la imagen proporcionada por el ojo derecho y el izquierdo (puntos de vista ligeramente diferentes debido a la separación de los ojos) para estimar las distancias de los objetos cercanos (los que enfocamos directamente) y su relación con otros objetos del entorno.
    Es un mecanismo muy efectivo, pero sólo a distancias cortas. La eficiencia baja mucho con la distancia.
    Para distancias inferiores a 1 metro podríamos decir que es el mecanismo que aporta más información en cuanto a precisión.
    Hasta 2 metros es un mecanismo muy efectivo, pero normalmente en combinación con otros mecanismos.
    A partir de 10 metros prácticamente deja de ser útil y aporta poca información de profundidad.

 

Como vemos, los ojos no sólo aportan información ‘visual’ (la imagen proyectada en la retina), sino que también aportan información sobre el enfoque (a través de los nervios que controlan los músculos del cristalino) y sobre el ángulo de giro del ojo (convergencia, a través de los nervios que controlan los músculos de giro de los ojos).

 

 

Mecanismos de interpretación de la perspectiva

Son mecanismos relacionados con la interpretación de la imagen estática.

Todos estos mecanismos dependen a su vez de los mecanismos de reconocimiento de objetos a partir de las formas.

El cerebro funciona de forma similar a los sistemas de visión artificial basados en redes neuronales. Las figuras (objetos de interés) se reconocen a partir de su forma por ‘comparación’ con la enorme base de datos de figuras aprendidas a lo largo de nuestra infancia.

A partir de una escena, el cerebro genera un catálogo de figuras (la figura es el objeto de interés en un momento determinado) y un fondo (entorno). El análisis de las relaciones entre esas figuras (objetos) y también las relaciones de esos elementos con el fondo permite extraer información sobre la profundidad (tridimensionalidad)

Algunos de los mecanismos son:

  • Interposición / oclusión
    Cuando un objeto tapa una parte de otro objeto situado detrás, según nuestro punto de vista.
    Es un mecanismo muy efectivo y muy rápido, que funciona prácticamente en cualquier distancia, pero sólo nos aporta información cualitativa: está delante de o está detrás de.
  • Relaciones de tamaños de objetos conocidos
    Es lo que podríamos llamar realmente interpretación de la perspectiva.
    Nuestro cerebro está entrenado para decodificar imágenes que corresponden con una perspectiva lineal cónica (perspectiva central, proyección rectilínea)
    En esa proyección, los objetos situados más alejados del punto de vista aparecen proporcionalmente más pequeños.
    Igualmente, para un único objeto, la parte situada a mayor distancia del punto de vista aparece más pequeña (en dibujo se conoce como escorzo)
    La proyección lineal cónica también afecta a cómo se comporta la interposición / oclusión de unos objetos con respecto a otros, qué zonas de la escena son visibles (no quedan tapadas), etc.
    Es un mecanismo muy efectivo.
    La comparación directa de tamaños (por ejemplo, ver un objeto conocido y estimar por su altura relativa a qué distancia está de nosotros) es muy efectiva entre 1 y 10 metros y bastante efectiva hasta unos 100 metros.
    Y la comparación relativa (por ejemplo el tamaño relativo de un objeto con respecto a otro conocido) es bastante efectiva en prácticamente cualquier distancia.
  • Interpretación de sombras
    La visión ha evolucionado en un entorno en el que la luz normalmente viene de arriba (Sol, Luna)
    El cerebro es capaz de extraer información de las sombras proyectadas por los objetos, tanto para estimar las posiciones relativas, como para estimar si un objeto es cóncavo o convexo.
    Es un mecanismo secundario, que normalmente complementa la información proporcionada por otros mecanismos.
  • Perspectiva atmosférica (o aérea)
    La atmósfera, el aire que nos rodea, no es perfectamente transparente.
    Es bastante transparente a distancias cortas, pero a distancias un poco mayores afecta a la nitidez de la imagen (partículas en suspensión, efectos de refracción por cambios de temperatura, etc.)
    Cuando vemos una escena en la que hay elementos muy lejanos, por ejemplo un paisaje con montañas al fondo, percibimos con mucha mayor nitidez los objetos cercanos que los objetos más alejados (esto dependerá mucho de las condiciones atmosféricas locales).
    Es un mecanismo secundario y sólo es efectivo a grandes distancias (por encima de 1 kilómetro por decir una cifra orientativa, aunque depende de las condiciones concretas de ese entorno)

 

En algunos libros y artículos se incluye la ‘perspectiva lineal‘ como un mecanismo independiente, que se ‘activa’ con las líneas rectas (vías del tren, etc.) y su representación inclinada hacia los puntos de fuga.

Aparte de tener un nombre muy poco afortunado, realmente ese mecanismo de ‘perspectiva lineal’ forma parte del mecanismo de interpretación de la perspectiva (relaciones de tamaños). Para interpretar la perspectiva no hace falta que en la escena aparezcan líneas rectas, ni puntos de fuga llamativos, ni horizonte…

Las líneas rectas son un atractor muy potente para la visión humana (mecanismos de atención) porque en la naturaleza no hay muchas líneas rectas. Podríamos decir que son referencias muy claras y muy efectivas.

Pero como digo, no hace falta que la escena tenga líneas rectas. La interpretación de la perspectiva funciona en prácticamente todas las escenas y situaciones. Y es efectiva en prácticamente todas las distancias.

También se incluye a veces como mecanismo independiente la interpretación de texturas.

Una textura va perdiendo detalle a medida que se aleja de nosotros. Pero esto está relacionado con que cada elemento individual de la textura se proyecta con un tamaño más pequeño cuando está lejos (tamaños inversamente proporcionales a la distancia)

Y se han descrito muchos otros mecanismos secundarios: la posición de los elementos con respecto al horizonte, los elementos más alejados suelen estar más arriba en nuestro ‘encuadre’, los cambios en el brillo de los objetos dependiendo de la iluminación y la distancia…

Es decir, hay muchísimos mecanismos especializados, que tienen su base digamos en la interpretación de la perspectiva.

Como la interpretación de la perspectiva es un mecanismo que necesita aprendizaje (entrenamiento) muchos de esos mecanismos específicos tienen que ver con nuestra experiencia cotidiana y el tipo de entrenamiento que recibe el cerebro.

Para un Homo sapiens de hace 100.000 años, en su experiencia cotidiana no creo que hubiera muchas líneas rectas por poner un ejemplo. La percepción visual era la misma que tenemos en la actualidad, pero el entrenamiento visual es un poco diferente: nosotros por ejemplo solemos vivir en un entorno artificial, con muchísimas líneas rectas.

 

Mecanismos relacionados con el movimiento

Nosotros podemos analizar perfectamente una escena estática, pero en realidad nuestros ojos están normalmente en movimiento, movimientos periódicos que tienen que ver con los mecanismos de atención.

Este tipo de movimientos automáticos, más el movimiento voluntario de los ojos, más el movimiento de la cabeza, aportan información de profundidad de los elementos de entorno.

 

  • Paralaje por movimiento de los ojos, la cabeza o el cuerpo
    Cuando movemos el punto de vista (desplazamiento o giro), los objetos situados más lejos tendrán un movimiento relativo más pequeño en la imagen.
    Los objetos situados más cerca del punto de vista tendrán un movimiento relativo mayor.
    Nosotros estamos constantemente moviendo los ojos, en algunos casos movemos la cabeza para observar el entorno. Y cuando nos desplazamos (andando, en vehículo, etc.) se une este movimiento relativo al de los ojos y la cabeza.
    Todos esos movimientos nos van dando información sobre las distancias relativas de los objetos del entorno.
    Es un mecanismo muy efectivo a distancias cortas, hasta unos 10 metros (teniendo en cuenta los movimientos de ojos y cabeza)
  • Velocidad relativa de objetos conocidos
    Cuando se trata de objetos que tienen movimiento propio y conocemos aproximadamente su velocidad normal, podemos estimar si están más o menos lejos por la velocidad relativa.
    Es un mecanismo secundario y estaría más bien relacionado con los mecanismos de interpretación de la perspectiva (tamaños relativos, más que velocidad relativa).

 

 

Resumen de la percepción de profundidad

Los mecanismos más importantes o eficaces son la visión estereoscópica, la interpretación de la perspectiva (sobre todo basada en tamaños y oclusión) y el desplazamiento relativo de los objetos por el movimiento de ojos y cabeza (paralaje por movimiento).

En la siguiente figura vemos un resumen orientativo del rango de funcionamiento de los diferentes mecanismos.

Mecanismos de percepción de la profundidad

 

El eje horizontal representa la distancia entre los ojos y los objetos de la escena real.

En el eje vertical está representada (de forma orientativa) la efectividad, que incluye de alguna forma la precisión para estimar distancias o posiciones relativas y su velocidad de respuesta (si es un mecanismo rápido o lento)

Por ejemplo, la interposición (saber que un objeto que oculta a otro está más cerca de nuestro punto de vista) es un mecanismo muy rápido, pero sólo nos da información parcial.

Y en todo caso, la interposición depende del reconocimiento de formas, así que lo podríamos incluir en el saco del mecanismo de interpretación de la perspectiva.

En esa banda de interpretación de la perspectiva (representada en color naranja en la figura) estarían incluidos muchos mecanismos que a veces se desglosan como mecanismos especializados:

  • Estimación de distancias por comparación directa de tamaños de objetos conocidos, que funciona muy bien a distancias relativamente cortas, a partir de 1 metro y hasta unos 10 metros.
  • Estimación de distancias por comparación indirecta con respecto a objetos conocidos (p.e. a qué distancia está un árbol sabiendo que hay una persona cerca). A partir de unos 10 metros es un mecanismo más efectivo, y mantiene su efectividad prácticamente para cualquier distancia mientras seamos capaces de distinguir un mínimo detalle.
  • A partir de texturas o patrones que se repiten (el patrón será más pequeño a medida que aumenta la distancia)
  • A partir de líneas rectas y puntos de fuga si son muy evidentes.
  • Posición de los elementos con respecto a la vertical.
    Cuando miramos al frente (la línea de horizonte está a metro y medio del suelo aproximadamente) los objetos más cercanos, o su base al menos, suelen estar más abajo en el encuadre. Imagina por ejemplo cuando contemplas un paisaje: piedras cercanas abajo, línea de bosque en la mitad, montañas lejanas más arriba… Esto tiene que ver también con la interposición / oclusión de elementos.
  • Interpretación de sombras
  • Pérdida de detalle a medida que el objeto está más lejos (por la resolución angular del ojo humano)

 

A los mecanismos de interpretación de la perspectiva también se les suele llamar mecanismos o claves pictóricas (en mi opinión es otro de esos nombres desafortunados que generan sobre todo confusión)

 

La visión estereoscópica y los mecanismos relacionados con la visión binocular sólo son efectivos a muy corta distancia.

La visión binocular es probablemente el mecanismo más efectivo a corta distancia y es de gran ayuda para las tareas cotidianas que implican manipular objetos pequeños: agarrar cosas, coger objetos al vuelo, manipular con precisión…

Entre 1 y 5 metros, la combinación de visión binocular y desplazamiento relativo por el movimiento de los ojos (paralaje por movimiento) son mecanismos muy útiles para movernos en el entorno sin chocarnos con nada y teniendo una referencia bastante precisa y rápida de profundidad y posición relativa de los objetos.

A partir de unos 2 metros, la interpretación de la perspectiva, con sus diferentes variantes, comienza a ser muy efectiva y suele ser la que aporta una gran parte de la información de profundidad.

Una persona con visión ocular (visión en un único ojo) puede hacer una vida perfectamente normal y tiene una percepción tridimensional del entorno que la rodea.

A distancias muy cortas y para ciertas tareas muy concretas no tendrá la misma precisión que una persona con visión binocular (por ejemplo coger cosas al vuelo), pero una vez que su cerebro se acostumbra (entrenamiento) potenciará los demás mecanismos.

Es decir, una persona con visión ocular no llegará al nivel de precisión de una persona con visión binocular en distancias muy cortas, pero sí tendrá una efectividad mucho mayor que una persona con visión binocular con un ojo tapado temporalmente.

 

En cualquier caso fíjate que para distancias muy cortas, del orden del metro, solapan la mayor parte de los mecanismos.

El cerebro no decide si utiliza un mecanismo u otro de forma arbitraria. Los utiliza todos a la vez y extrae toda la información que puede en cada situación para intentar eliminar la ambigüedad.

Lógicamente, dependiendo de la situación, unos serán más útiles que otros.

Por ejemplo, cuando estás en el salón de tu casa, el efecto de la ‘perspectiva atmosférica‘ será nulo, no aporta ninguna información.

Si estás viendo una escena a 20 metros, la visión binocular te aporta poco, el cerebro dará más peso a otros mecanismos, normalmente los basados en la interpretación de la perspectiva.

A veces los mecanismos compiten entre sí: ofrecen información contradictoria.

En caso de que haya información incoherente entre mecanismos, el cerebro decide cuál de ellos es el más apropiado según el contexto de la situación.

Por ejemplo, busca información sobre la Habitación de Ames (Ames Room), una ‘ilusión óptica’ debida a que el cerebro decide usar un mecanismo concreto, la interpretación de una ‘falsa’ perspectiva.

 

Con toda esa información, el cerebro genera un mundo tridimensional virtual, que sólo existe en nuestra cabeza, y que corresponde (más o menos) con la realidad de la escena que estamos viendo.

Es decir, si a estas alturas de la película pensabas todavía que percibes la realidad física tal cual es: te estarás llevando una gran decepción.

Percibimos una realidad que se genera a partir de la interpretación que hace el cerebro de las imágenes (información en dos dimensiones) que captan los ojos.

Y ahora veremos que esa interpretación hay que cogerla con pinzas.

 

La capa de interpretación del cerebro

Hay que tener en cuenta algo muy importante:  el cerebro inventa (sí, inventa) una gran parte de la información que entendemos como realidad.

Si imaginamos el cerebro como un procesador (la CPU de un ordenador), ningún ordenador puede procesar la ingente cantidad de información del entorno físico y además en tiempo real (de forma instantánea, que sea útil para tomar decisiones como salir corriendo si ves un tigre).

Esa realidad física hay que simplificarla de alguna forma.

Por ejemplo en el cerebro actúan los mecanismos de atención, reconocimiento y abstracción.

El cerebro reconoce objetos a partir de su forma y esos objetos emergen (somos conscientes de ellos) como un todo, sin necesidad de sus detalles concretos.

Si en una escena vemos un perro (algo que tiene la forma ‘perro’), en nuestra mente lo reconstruimos como un objeto ‘perro’, no tenemos necesidad de fijarnos en cada pelo, cada uña, el tamaño de las orejas, el color…

Nos puede llamar la atención una oreja del perro, entonces pasamos la atención a ese elemento y reconstruimos el objeto ‘oreja’.

En todo momento tenemos una especie de catálogo con los objetos que están en nuestro entorno o en la escena que estamos observando.

Ni están todos, ni tenemos los detalles de todos.

Para los objetos que han llamado nuestra atención posiblemente tendremos una reconstrucción más detallada. Si nos llama la atención un detalle, una parte, tendremos esa información también incluida en nuestra versión de la realidad en ese momento.

Esa jerarquía de objetos y sus partes (detalles) nos permite manejar muchísimos elementos del entorno con un ‘procesador’ limitado.

Realmente es un sistema muy efectivo.

Los mecanismos de atención funcionan de forma automática todo el tiempo, no tenemos que elegir de forma consciente qué objetos guardamos en ese ‘catálogo’.

Si nos llama la atención un elemento concreto se activa un mecanismo de atención consciente (que tiene que ver con la concentración), y podemos ir añadiendo todos los detalles que despierten nuestro interés.

Pero por lo general, los objetos cotidianos los vamos catalogando como elementos (abstracciones) de alto nivel, sin entrar en sus detalles: perro, coche, persona, niña, Pepe, María…

 

Gestión de la ambigüedad

Hasta aquí hemos dado por hecho que los objetos aparecen en la escena perfectos: nítidos, girando sobre sí mismos para que veamos todas sus partes, sin que los tapen otros objetos…

Pero no es así.

De un objeto sólo vemos la forma que corresponde a su proyección (proyección rectilínea), incluyendo su escorzo, que a su vez depende del punto de vista (distancia y posición del objeto con respecto a nuestros ojos).

Por ejemplo, si estamos en el campo y vemos a cierta distancia una casa, en realidad estamos viendo la fachada o un par de paredes y una parte del techo. Interpretamos que es un objeto casa (una especie de caja con al menos 4 paredes y techo).

De la mayoría de los objetos sólo vemos una parte, bien por la proyección (perspectiva), bien porque están tapados parcialmente por otros objetos.

Cuando vemos pasar un coche con una persona conduciendo, sólo vemos la cabeza de la persona. Pero en nuestro cerebro emerge el objeto ‘persona’, que tiene normalmente cuerpo, brazos, piernas… ¿Podría ser una cabeza conduciendo por su cuenta? Podría, pero no forma parte de nuestra experiencia cotidiana. Lo normal es que sea un objeto ‘persona’ completo.

Los objetos los vemos con su escorzo correspondiente. Los vemos deformados por la perspectiva.

Esa deformación la descuenta el cerebro de forma automática. Nos parece algo natural.

Además, el cerebro tiene que reaccionar muy muy rápido.

No podemos dedicar media hora a analizar si eso que percibimos a 20 metros es realmente un león junto a un árbol o sólo se le parece… Como tengo dudas, voy a acercarme un poco más y lo voy a analizar con detalle para tener la certeza…

No, el cerebro tiene que tomar decisiones rápidas porque la supervivencia depende de ello. Es más importante la rapidez que la precisión absoluta.

El cerebro está constantemente gestionando esa ambigüedad inherente (inherente al hecho de tener que interpretar la realidad 3D a través de imágenes 2D)

A modo de resumen:

  • La realidad física forma un mundo tridimensional complejo, con infinitos detalles
  • Los ojos ‘proyectan’ esa realidad tridimensional en una imagen en dos dimensiones
  • El hecho de pasar de 3 dimensiones a 2 dimensiones implica pérdida de información
  • El cerebro utiliza diferentes mecanismos para extraer (a partir de la imagen 2D) la mayor parte posible de información tridimensional (percepción de la profundidad)
  • Este proceso implica tratar de recuperar información que se ha perdido: ambigüedad (una imagen 2D puede ser generada por infinitas escenas 3D diferentes)
  • La capa de interpretación del cerebro tiene que decidir en tiempo real cuál de esas posibles interpretaciones es la más plausible o la más coherente dependiendo del contexto
  • Además, normalmente sólo vemos una parte de los objetos de la escena (por la perspectiva proyectada o porque los tapa parcialmente otro elemento), el cerebro reconstruye el objeto completo según su experiencia previa, el contexto, etc.

 

Esto puede parecer anecdótico, que eso de ‘inventar’ sólo ocurre con las ilusiones ópticas y poco más.

No, no… Es algo constante.

En nuestro día a día el cerebro inventa todo el tiempo una parte muy importante de lo que percibimos a través de los ojos.

Lo que ocurre es que esa interpretación suele ser bastante coherente con nuestra realidad cercana.

Por ejemplo, si vemos pasar un coche con ‘María’ conduciendo, a pesar de que sólo le vemos la cabeza nuestro cerebro interpreta que es María (con su cuerpo, brazos, piernas…) y malo será que al abrir el coche salga sólo la cabeza de María.

Fíjate en esta imagen:

Percepción de la profundidad - Gestión de la ambigüedad

Tenemos varios objetos y podemos hacernos una idea mental aproximada de su posición relativa (distancia relativa a nuestro punto de vista).

Por ejemplo, percibimos que el trípode está por delante de la persona de la izquierda, porque resolvemos la ambigüedad por oclusión (el trípode y la cámara tapan el pie y la mano de la persona, tienen que estar por delante).

El trípode y la cámara suelen ir unidos, así que asumimos que están a la misma distancia (podría ser que la persona estuviera sujetando la cámara con la mano, aunque parece menos probable).

Y vemos que hay una persona al fondo, más alejada. Esto lo resolvemos por comparación de tamaños: asumimos que las dos personas tienen tamaño similar, si se ve más pequeña es que está más lejos.

Pero un momento después se mueven las personas de la escena y…

Percepción de la profundidad - Gestión de la ambigüedad

Resulta que la persona de la derecha no estaba lejos, era más pequeña, y vemos que está por delante (resolvemos la ambigüedad por oclusión, porque tapa a la persona de la izquierda).

Ese ejemplo sería una situación poco probable y en una escena real tendríamos seguramente más contexto para resolver las ambigüedades.

Los objetos que tenemos alrededor son objetos sólidos, que siguen unas leyes físicas y que normalmente no cambian de forma por capricho.

Si desde aquí veo la mitad de la puerta porque hay otro objeto interponiéndose en mi línea de visión, entiendo (mi cerebro asume) que la puerta está completa y que está donde siempre.

La realidad física tiene sus reglas, y la experiencia acumulada ayuda al cerebro a decidir qué cosas son probables y qué cosas son improbables o imposibles.

Sin embargo, hay muchísimas ambigüedades que el cerebro malinterpreta a lo largo del día y no nos llegamos a enterar nunca. Normalmente son cosas que no nos afectan directamente.

Esta capa de interpretación (de la percepción visual) está en un nivel bastante alto, en el que interviene la parte cognitiva y podríamos decir la parte psicológica.

Por ejemplo, he comentado que el cerebro busca la interpretación más plausible según el contexto.

Aquí, el término ‘contexto’ es un cajón de sastre (a veces cajón desastre) en el que está la experiencia acumulada, la situación concreta, la línea de tiempo (qué ha ocurrido justo hasta ese momento), las expectativas, prejuicios, condicionamientos previos, etc.

 

Lo positivo…

La percepción visual humana es un sistema increíblemente efectivo.

Es muy rápido y a pesar de ello bastante preciso. Nos permite tomar decisiones en tiempo real.

Y nos permite tener una percepción bastante acertada del entorno que nos rodea.

En los humanos, la visión es normalmente el sentido más importante, el que nos da más información del mundo exterior.

 

Lo menos positivo…

Precisamente por ser el sentido que nos aporta más información: damos por hecho que lo que vemos (percibimos) es la pura realidad, cuando no es así.

En nuestro entorno habitual los ‘errores’ y discrepancias suelen ser muy pequeños y no tienen ningún efecto significativo (no nos afectan, no nos enteramos o no les prestamos atención)

Pero hay que tener en cuenta que somos muy fácilmente manipulables a través de la percepción visual.

No hablo de efectos especiales del cine o de la magia del ‘photoshop’ (que también, lógicamente), hablo de situaciones normales en las que nuestra percepción visual hace una interpretación ‘falsa’ o sesgada de la realidad porque encaja mejor con el contexto de la situación.

Confundir a una persona con otra, ver una araña donde sólo hay una pelusa, chocarnos con algo porque no calculamos bien la distancia…

Y si nos vamos a situaciones un poco más elaboradas se puede jugar con esas ambigüedades para ‘forzar’ ciertas interpretaciones: las ilusiones ópticas, los espectáculos de magia, el cine, la televisión, la publicidad, la fotografía

 

Imágenes y percepción visual

Nuestro cerebro está entrenado para interpretar imágenes: es como funciona la percepción visual.

Ten en cuenta que al visualizar el contenido de una foto (pintura, etc.) sólo pueden funcionar los mecanismos de interpretación de la perspectiva. Los mecanismos relacionados con la fisiología del ojo (estereopsis, enfoque, triangulación) no pueden funcionar porque la información, el contenido de la foto, está en un plano. Y los mecanismos relacionados con paralaje por movimiento tampoco, por el mismo motivo.

Por otro lado, los mecanismos de interpretación de la perspectiva son muy muy flexibles.

Para nosotros es muy natural contemplar una imagen (una foto por ejemplo, pero también una pintura, un dibujo, un boceto…) y reconstruir una cierta ‘realidad‘ a partir de la información que contiene.

Por ejemplo, a partir del dibujo de un coche que hace un niño pequeño (sin proporciones, con cuatro trazos…) podemos recuperar fácilmente el objeto ‘coche’ y podemos incluso imaginar una escena.

Cuando no se tenían claros los conceptos geométricos de la perspectiva, los pintores sí sabían que había algunos mecanismos que funcionaban para dar cierta sensación de profundidad: por ejemplo representar objetos más pequeños para dar la sensación de que estaban lejos (aunque muchas veces fallaba la relación de tamaños), la idea de perspectiva atmosférica, etc.

Una perspectiva es una representación en la que hay cierta información útil que nos permite reconstruir cómo sería la escena tridimensional.

Cada foto que hacemos equivale a una perspectiva, al menos siempre que contenga cierta información tridimensional de la escena.

Por ejemplo, si hacemos una foto de una pared blanca sin nada de detalle, esa imagen no nos va a permitir reconstruir mentalmente la escena tridimensional. No contiene información con la que puedan trabajar los mecanismos de interpretación.

Nuestro cerebro es tan flexible que puede interpretar muchísimos tipos de perspectiva.

Cuando hacemos un dibujo rápido de lo que entendemos que sería una casita en 3D, eso es una perspectiva, que probablemente tiene muy poco que ver con lo que veríamos en realidad (mirando una casa similar), pero que interpretamos perfectamente como una casa y estimamos su estructura, dimensiones relativas, etc.

La perspectiva isométrica por ejemplo está muy alejada de lo que vemos con nuestros propios ojos. Sin embargo la podemos interpretar de alguna forma y reconstruir esa ‘realidad’ tridimensional.

El dibujo y la pintura realista están basados normalmente en perspectivas simplificadas: proyección cónica con un punto de fuga, dos puntos de fuga, tres…  del andamiaje básico, de la estructura, y luego muchos elementos van colocados a ‘ojo’ en ese andamiaje. Y nos parecen representaciones fieles de la realidad.

 

¿Ilusión óptica? ¿Magia?

A veces se dice que las fotografías son una especie de ilusión óptica que nos ‘engaña’ para hacernos ver una escena tridimensional donde sólo hay algo en dos dimensiones.

Claro, pero es que esa afirmación está describiendo precisamente una parte importante de los mecanismos que están detrás de la percepción visual humana: todos los mecanismos de interpretación de la perspectiva.

Creo que no hay ninguna magia ahí.

El contenido de una foto lo interpretamos y percibimos en tres dimensiones porque es lo que hace el cerebro todo el tiempo con la información que proporcionan los ojos.

La mayoría de las fotos son perspectivas, son imágenes que contienen información de la tridimensionalidad de la escena.

Además, en la inmensa mayoría de las fotos, la imagen corresponde a una perspectiva rectilínea (proyección rectilínea)

No hace falta que la escena y la imagen tengan líneas rectas ni nada por el estilo.

El cerebro está entrenado para interpretar fácilmente las perspectivas: cualquier representación 2D que contiene información 3D.

Si vemos un montón de fotos de un huevo frito, desde diferentes puntos de vista, percibimos claramente que se trata de un huevo frito en cada una de esas perspectivas. Percibimos claramente qué parte del huevo está más cerca del punto de vista, vemos su escorzo, intuimos dónde estaba la cámara (posición del espacio), etc.

Si vemos la foto de un huevo frito hecha con un objetivo no rectilíneo (p.e. con un ojo de pez) seguimos percibiendo un huevo frito, aunque es posible que notemos cierta deformación con respecto a como lo veríamos con nuestros propios ojos.

Cuando observamos una perspectiva rectilínea, el cerebro la interpreta mucho mejor, ya que es la misma información que le proporcionan los ojos, y con la que ha sido entrenado desde la infancia.

 

¿Ver una foto es equivalente a ver la escena con nuestros propios ojos?

No, en general no.

El hecho de observar una escena normal implica ya una pérdida de información (con respecto a la realidad física)

Pero ahí actúan todos los mecanismos de la percepción visual, incluyendo por ejemplo la visión estereoscópica y la paralaje por movimiento.

Tenemos además un contexto mucho mayor de la escena: dónde está ese lugar, cómo hemos llegado hasta allí, cómo es el entorno (en todas direcciones), la influencia del resto de los sentidos (sonidos, olores…), y todo lo que meteríamos en eso que llamábamos ‘contexto‘ al hablar de la capa de interpretación del cerebro.

Una foto nos muestra sólo una parte de la escena: un encuadre desde un determinado punto de vista.

Es como estar sentados en el centro de una habitación y mirar la realidad a través de una ventana.

No sabemos qué hay detrás, o a los lados, no sabemos por qué el fotógrafo eligió precisamente ese encuadre.

Al ver una foto sólo pueden actuar algunos mecanismos de la percepción visual.

Por ejemplo no funciona la visión estereoscópica (para ayudar a interpretar el contenido de la foto), ni la parte de enfoque, triangulación o paralaje por movimiento.

Actuarían exclusivamente los mecanismos ‘estáticos’ de interpretación de la perspectiva.

Y muy importante: nos falta mucha información del contexto.

Pero…

Para ese trozo de la escena que cabe en el encuadre, los mecanismos de interpretación de la perspectiva nos proporcionan mucha información.

En general, podemos reconstruir la realidad tridimensional de esa escena con bastante ‘fidelidad’.

Y para la mayoría de las escenas, si estuviéramos en una posición estática, sin mover la cabeza (ni los ojos, aunque esto es mucho más difícil), la percepción de esa escena in situ y la percepción que tendríamos viendo una foto sería bastante similar.

 

¿Y ver un vídeo?

En un vídeo podemos tener más información.

Por ejemplo, los movimientos de cámara nos pueden dar información adicional de paralaje por movimiento.

Y esos mismos movimientos nos pueden dar más información del entorno (ángulo de visión más amplio, no por cada fotograma sino por el barrido de la cámara).

También tenemos normalmente más contexto, más información sobre lo que está ocurriendo realmente en la escena (el relato o la historia asociada).

Si visualizamos un vídeo en las condiciones adecuadas (p.e. una película en una sala de cine) puede llegar a ser muy inmersivo. Lo mismo ocurre con muchos videojuegos.

Aunque sabemos conscientemente que estamos ‘aquí’ en esta realidad, viendo una película o jugando a un videojuego, y que el contenido es ficción, nuestro cerebro genera esa otra realidad paralela que recrea un mundo tridimensional en el que viven los personajes.

Si viene una piedra hacia nosotros en la pantalla, apartamos instintivamente la cabeza…

Además en una película tenemos un contexto mucho más elaborado: una historia, un condicionamiento, unas expectativas sobre lo que vamos a ver, el sonido, etc.

Digamos que un vídeo (película, videojuego, documental, etc.) ofrece una experiencia más cercana a la percepción que tendríamos a la realidad, pero lógicamente no comparable a lo que sería la experiencia real.

 

Manipular la realidad

El término manipular tiene una connotación negativa, pero lo voy a usar para dar más fuerza a esa idea de que nuestro sentido de la visión no es perfecto.

Nuestra percepción de la realidad física está manipulada por la capa de interpretación del cerebro. Percibimos una realidad muy simplificada y en la que el cerebro ha ‘inventado’ parte de la información (en base a experiencias previas y al contexto por ejemplo).

En general nos proporciona la información necesaria para relacionarnos con nuestro entorno de una forma efectiva, y funciona muy bien, pero no es un sistema perfecto.

Igualmente, cuando vemos una foto, tendemos a asumir que se trata de una representación ‘fiel’ de la realidad: «una imagen vale más que mil palabras»

Pero si lo piensas bien, es relativamente sencillo ‘manipular’ la percepción o la interpretación a través de una foto (y de un vídeo).

No hablo de manipular las imágenes con efectos especiales en el caso del vídeo o con programas de retoque fotográfico en el caso de las fotos, que también.

Me refiero a que el simple hecho de elegir un determinado punto de vista y un encuadre implica cierta manipulación de la realidad, supone eliminar cierta información de la escena para dar prioridad a otra.

No se trata de hacer algo con mala intención (esa connotación negativa de manipular), sino que cualquier foto que hacemos todos los días implica que hemos tomado una decisión sobre lo que mostramos (y cómo lo mostramos) y lo que ‘ocultamos’ fuera del encuadre.

 

Resumen sobre la percepción de la profundidad

La percepción visual es muy compleja.

Los ojos hacen una proyección rectilínea (2D) del mundo real tridimensional (3D).

La proyección, el hecho de pasar de tres dimensiones a dos dimensiones, implica pérdida de información.

El cerebro tiene que recuperar la información útil a partir de esas imágenes 2D.

Dentro de la percepción hay dos bloques o sistemas muy importantes: la percepción de las formas (objetos) y la percepción de la profundidad (distancias a las que están esos objetos).

Para extraer información sobre la profundidad, el cerebro utiliza muchos mecanismos diferentes, que actúan en paralelo.

Cada mecanismo es más eficiente en determinadas situaciones y dentro de un rango de distancias.

En distancias cortas son muy eficientes los mecanismos basados en la visión estereoscópica y en la paralaje por movimiento (movimiento de ojos y cabeza)

El mecanismo de oclusión es útil en prácticamente todas las situaciones y distancias, pero sólo nos da información parcial.

A partir de una cierta distancia son más eficientes los mecanismos basados en la interpretación de la perspectiva.

Por cuestiones de eficiencia (y velocidad de respuesta) la capa de interpretación del cerebro se encarga de simplificar la realidad e intenta resolver constantemente la ambigüedad inherente al hecho de usar información incompleta (información en dos dimensiones)

Una fotografía es una perspectiva generada por una proyección (normalmente rectilínea)

Podemos percibir muy bien la tridimensionalidad de una escena a partir de una foto porque actúan los mismos mecanismos de interpretación de la perspectiva (los mismos que usamos para interpretar la realidad).

Vemos los objetos reales con su deformación por perspectiva correspondiente (escorzo, etc.), pero el cerebro descuenta esa deformación, o la percibimos como normal, dentro de los parámetros habituales: puntos de vista cotidianos y ángulo de visión del ojo.

Una cámara puede ofrecer ángulos de visión mucho más abiertos (objetivos angulares) y mucho más cerrados (teleobjetivos) que el ojo.

En algunos casos los efectos de la perspectiva en la imagen generada por la cámara pueden salir de la experiencia habitual de la visión humana, y los entendemos como ‘deformación por perspectiva’ o los notamos como poco naturales.

Hay objetivos que realizan proyecciones no rectilíneas (por ejemplo los ojo de pez)

Para escenas que caben en el ángulo de visión del ojo (por ejemplo sólo con el movimiento de ojos, sin mover la cabeza) tenemos una percepción similar a una perspectiva rectilínea, como podría generar una cámara con un objetivo rectilíneo.

Cuando necesitamos observar un campo de visión muy amplio, la percepción de esa escena está basada en la integración de muchas perspectivas diferentes, debidas al movimiento de los ojos y la cabeza.

Para esas escenas, la percepción como observadores (de la escena como un todo) se desvía un poco de la proyección rectilínea pura.  Podríamos decir que el cerebro construye una especie de proyección no rectilínea.

Todo esto lo vemos con más detalle aquí: Deformación por perspectiva. Los ojos no tienen zoom, y lo iremos desarrollando un poco más en diferentes capítulos.

En algunas imágenes generadas por objetivos angulares (rectilíneos) podemos notar esa discrepancia con respecto a lo que sería nuestra percepción de la misma escena.

Lo que entendemos como deformación por perspectiva es una cuestión cuantitativa: cuando el grado de deformación excede al que estamos acostumbrados con nuestros propios ojos.

En el caso de imágenes generadas por teleobjetivos las podemos notar ‘extrañas’ porque esa combinación de punto de vista y detalle es imposible de conseguir por el ojo (es una experiencia que sólo fue posible a partir de la invención de los catalejos y telescopios)

Una fotografía de una escena nos puede dar mucha información sobre profundidad o muy poca. Esto depende de muchos factores: punto de vista, ángulo de visión, elementos que aparecen, etc.

En otro artículo veremos técnicas o trucos para potenciar la sensación de profundidad, que no es otra cosa que aprovechar el funcionamiento de los diferentes mecanismos de interpretación de la perspectiva que usa el cerebro.

 

Más información y referencias

  • Depth Perception, Cueing, and Control, Barbara T. Sweet and Mary K. Kaiser 
    AIAA Modeling and Simulation Technologies Conference
  • Comparing artistic and geometrical perspective depictions of space in the visual field, Joseph Baldwin, Alistair Burleigh, and Robert Pepperell
  • Relevant Cues for the Visual Perception of Depth, R. Troy Surdick, Elizabeth T. Davis, Robert A. King, Gregory M. Corso, Alexander Shapiro, Larry Hodges, Kelly Elliot
  • Percepción de la profundidad, María Cinta Puell Marín (apuntes Grado Óptica y Optometría, Universidad Complutense de Madrid)
  • Percepción visual, Dolores Luna y Pío Tudela (Ed. Trotta)
  • Sobre la deformación en Perspectiva Lineal, Claudi Alsina Cátala, José Antonio Franco Taboada – CSIC Consejo Superior de Investigaciones Científicas

 

Siguiente capítulo de la serie:

 

Capítulo inicial sobre la Perspectiva en fotografía.

Todos los artículos de la serie sobre perspectiva en fotografía