Entender los niveles de audio de una forma sencilla

Diferencia entre nivel de audio y volumen de sonido. Y los niveles óptimos para podcast, streaming, vídeo…

 

Niveles de audio - transmisión a través de internet

 

 

 

Sonido vs señal de audio

Esto es probablemente lo más importante que vamos a ver en este artículo. En realidad es una tontería, pero entenderlo te va a hacer comprender mejor el flujo de trabajo con el sonido.

 

Sonido

El sonido tiene que ver con las ondas de presión en el aire.

Nuestro oído es capaz de percibir esas ondas y nuestro cerebro las interpreta: voz, música, etc.

El volumen tiene que ver con la intensidad del sonido y cómo nuestro oído percibe esa intensidad.

En un sistema de sonido, cuando hablamos de volumen (control de volumen) nos estamos refiriendo siempre al sonido, por ejemplo el que va a salir por unos altavoces o unos auriculares.

 

Señal

Cuando captamos el sonido con un micrófono obtenemos una señal eléctrica (voltaje que varía según la intensidad del sonido en cada instante).

Esa señal eléctrica es una representación del sonido y recibe el nombre de audio o señal de audio (aunque coloquialmente hablamos de señal de sonido, sonido, etc. para referirnos también a la señal de audio).

La señal de audio la podemos manipular.

Por ejemplo, la podemos amplificar o atenuar. Esto lo controlamos con la ganancia. 

La amplitud de la señal es variable, ya que responde a las variaciones del sonido original, pero normalmente sólo nos interesan parámetros más globales como la amplitud máxima (picos) o la amplitud media (RMS por ejemplo).

Cuando trabajamos con la señal de audio hablamos normalmente de niveles de audio.

La señal de audio puede ser analógica o digital.

Aunque hay diferencias entre una señal analógica y una digital, lo importante es entender que son representaciones de un sonido.

En la parte digital se sigue hablando de ganancia y niveles.

 

Resumen:

  • Sonido
    Onda de presión
    La intensidad sonora tiene que ver con la amplitud de las ondas
    El volumen tiene que ver con la percepción en nuestro oído
    El volumen lo gestionamos en un dispositivo con el control de volumen
  • Señal de audio
    Es una representación analógica (voltajes) o digital (números) de un sonido
    Podemos amplificar o atenuar la señal de audio
    Los niveles de la señal los gestionamos mediante el control de ganancia

 

Seguro que estás pensando que todo eso parece un poco pedante y que no deja de ser nomenclatura. Pero ahora veremos por qué es útil disociar el sonido de su representación.

 

 

La cadena de sonido

El término ‘cadena de sonido’ hace referencia al camino que sigue el sonido desde que lo captamos con un micrófono hasta que lo reproducimos en unos altavoces o auriculares.

La mejor forma de visualizarlo es con un ejemplo sencillo, pero este ejemplo es la base del 99% de las situaciones que nos vamos a encontrar en la producción y difusión de audio.

Imagina que queremos emitir en directo, a modo de podcast en vivo o haciendo streaming de vídeo, o una videoconferencia… nos da igual porque en este caso nos vamos a quedar sólo con la parte de audio.

 

Niveles de audio - grabación micrófono

Nuestra voz (sonido) es captada por el micrófono y se convierte en una señal eléctrica.

Esa señal es muy muy débil y la llevamos a un preamplificador para aumentar su nivel. Por ejemplo vamos a suponer que estamos usando una interfaz de audio externa.

Ajustamos el nivel de la señal mediante el control de ganancia de la interfaz.

La interfaz está conectada al ordenador. Ahí tendremos nuestros programas para emisión o para grabación de sonido, que utilizarán la señal de audio digital que recibimos de la interfaz.

Esa señal tiene un determinado nivel.

Vamos a suponer que para oírnos a nosotros mismos, para comprobar qué tal se oye, tenemos conectados unos cascos o un altavoz al ordenador.

 

Niveles de audio vs volumen de sonido

 

En la imagen lo he representado con un altavoz para que se vea un poco mejor esa transformación de la señal de audio en sonido, en la práctica sería mejor utilizar unos auriculares cuando estamos usando un micrófono.

El volumen del sonido que sale por el altavoz (o auriculares) lo regulamos con el control de volumen del ordenador o con el control de volumen de los altavoces / auriculares.

Fíjate que en ese escenario tan sencillo podemos tener muchísimas combinaciones de ganancia y volumen para las que tendríamos una percepción del sonido muy similar.

Por ejemplo, podríamos tener la ganancia de la interfaz cerca del mínimo. El nivel de la señal sería bajo. Pero luego podemos compensar con el volumen de los altavoces.

O podríamos tener la ganancia de la interfaz más alta, por ejemplo en la zona media de su rango. Y luego podemos compensar bajando el volumen de nuestros altavoces.

 

Imagina ahora qué puede ocurrir con la señal de audio que estamos transmitiendo a través de internet.

Cada persona que nos esté escuchando tendrá un equipo diferente, con diferentes altavoces, amplificadores, etc.

 

Niveles de audio - transmisión a través de internet

 

Además cada persona tendrá diferentes preferencias en cuanto al volumen al que quiere escuchar nuestra voz. Y cada persona tendrá una capacidad auditiva diferente… Y estará en un ambiente diferente: en casa, en mitad de la calle, conduciendo en el coche…

Ninguna de esas personas va a percibir el sonido con la misma intensidad (volumen) al que lo estamos escuchando nosotros cuando monitorizamos con los cascos o los altavoces.

La conclusión es que el sonido no nos sirve como referencia absoluta.

 

Por otra parte tenemos que la señal que se transmite es digital: son números.

No hay atenuación debida a la transmisión. Todos ellos van a recibir la misma señal, con los mismos niveles que estamos emitiendo.

Los niveles de la señal sí son una referencia absoluta.

Niveles de audio vs volumen de sonido - Escenario

Luego, cada uno de los oyentes hará lo que quiera con esa señal: elegirá el volumen más apropiado para escucharla. Eso ya no depende de nosotros. Pero podemos ofrecerles una señal con los niveles óptimos.

 

Cuando transmitimos audio en directo o cuando publicamos un vídeo o un podcast… Lo importante son los niveles de la señal de audio. No es importante cómo oímos nosotros mismos ese sonido en nuestro equipo.

 

Por ejemplo, imagina que transmites tu audio con un nivel muy bajo.

Es posible que tú oigas perfectamente el sonido de tu voz en tus auriculares porque tienes un buen equipo y has subido mucho el volumen. Pero quizás otra persona no pueda reproducir ese sonido porque está utilizando un móvil, sin auriculares, en un entorno de ruido ambiental, etc.

Y en todo caso es muy incómodo para el usuario tener que estar cambiando constantemente el volumen porque cada podcast, cada streaming o cada vídeo envía el sonido con un nivel totalmente diferente.

 

 

Gestionar el nivel de audio

Para todo lo que hagamos que tenga que ver con emisión o publicación de sonido: siempre, siempre, siempre hay que tener una referencia objetiva del nivel de la señal de audio final.

Nuestros cascos o altavoces no son una referencia objetiva.

Utiliza siempre una referencia visual, un medidor de los niveles de la señal.

Vamos a trabajar en un entorno digital, por lo tanto hay que acostumbrarse a la escala digital y a los decibelios.

No vamos a entrar en detalles, pero para que tengas una idea orientativa sobre los decibelios y la escala dBFS:

 

Los decibelios: dB

Son un truco matemático.

Nos facilitan el cálculo cuando trabajamos con amplificación / atenuación, porque en lugar de multiplicar y dividir sólo tenemos que sumar (ganancia) y restar (atenuación o ganancia negativa)

Y por otra parte representan mejor las escalas que tienen que ver con la percepción del sonido (logarítmica en lugar de lineal, ya que el oído tiene una respuesta logarítmica)

 

La escala digital: dBFS

dBFS viene de: decibels relative to Full Scale.

Es una escala de niveles (de señal) acotada a un valor máximo: 0dB.

Ese valor máximo de 0dB se corresponde con el valor máximo que puede representar la señal digital.

Por ejemplo, si usáramos valores (números) de 8 bits, el valor máximo que se puede representar sería 255 (0dB en la escala dBFS)

Cuando trabajamos con audio digital no hay nada por encima de 0dB en la escala dBFS.

Todos los niveles de nuestra señal tienen que estar por debajo de ese techo. Los valores válidos son siempre negativos.

El límite inferior estaría acotado por el número de bits que estemos usando en la codificación, pero en un entorno real el límite inferior está acotado por el nivel de ruido electrónico (noise floor)

Lo importante aquí es que si por algún motivo entra un sonido cuyo nivel de audio supera los 0dB, la señal resultante quedará recortada (no hay nada por encima de 0dB).

Se produciría lo que se conoce como hard clipping, clipeo, recorte… que se traduce en una distorsión profunda de la señal de audio y daría como resultado un sonido desagradable.

 

 

Medir los niveles de la señal de audio

Históricamente, cuando la señal de audio era totalmente analógica, se utilizaba un vúmetro, un dispositivo físico (en inglés es VU meter, donde VU significa Volume Unit)

En la actualidad toda la gestión es digital (salvo entornos muy concretos) y lo que vamos a usar normalmente son medidores digitales, que nos representan de forma visual los niveles de la señal (en decibelios) sobre una escala dBFS.

Para grabación y monitorización en general nos interesa sobre todo el medidor de pico (peek meter) con el que podemos ver en tiempo real cómo cambian los niveles de la señal.

 

Niveles de audio - Escala dBFS

 

Nuestro objetivo será ajustar la ganancia a lo largo de la cadena de audio para que los niveles estén en una zona alta en la escala dBFS pero sin que en ningún momento lleguemos a 0dB (en ninguno de los elemento de la cadena).

El 99.9% de las veces vas a usar un medidor de pico. Si por el motivo que sea tu software de grabación te muestra un medidor RMS: mira en las opciones para cambiar la configuración o intenta usar otro medidor que te ofrezca los niveles de amplitud .

Un medidor RMS puede ser útil en la fase de edición, porque da una idea más precisa de cómo se va a percibir ese audio cuando alguien lo reproduzca en sus altavoces (percepción del volumen o intensidad sonora), pero para grabación y emisión en directo es mejor tener la variación instantánea.

 

¿Cómo usamos el medidor de niveles de audio?

Más abajo veremos diferentes escenarios.

Pero en general nos centraremos sobre todo en dejar un margen suficiente en la parte de arriba (headroom o techo dinámico de la señal) para evitar que cualquier pico de sonido inesperado nos genere distorsión por clipeo.

El recorte o clipeo es el enemigo número 1 de la calidad de sonido en el mundo digital.

La mayoría de los medidores nos dan información sobre el pico máximo que se ha producido durante un cierto período.

En algunos casos aparece como una barrita solitaria que se queda flotando durante unos segundos en ese nivel máximo.

En otros medidores también se nos muestra el nivel máximo absoluto que ha alcanzado la señal durante la grabación de esa toma.

Si se ha producido recorte de la señal (clipeo) la mayoría de los medidores nos dan algún tipo de aviso visual, por ejemplo se enciende algún aviso en rojo.

Algunos medidores nos pueden mostrar cuánto nos hemos pasado. Nos mostrarán un valor positivo, por ejemplo +2.1dB. Recuerda que ese valor no existe en la escala dBFS, pero nos sirve de referencia para saber que tendremos que reducir la ganancia al menos en esa cantidad para evitar que vuelva a distorsionar.

Como regla genérica, esos picos máximos poco frecuentes los podríamos tener controlados en el entorno de -6dB en grabación.

Para la señal de audio que corresponde con el sonido normal que vamos a grabar, por ejemplo nuestra voz,  nos podríamos quedar en la zona de -12dB a -20dB, que sería el rango en el que podemos conseguir una buena relación señal a ruido del micrófono.

No hay una regla fija o unos valores exactos, porque al final depende del tipo de sonido y su rango dinámico (la diferencia entre los sonidos más débiles y los más fuertes).

 

 

Niveles de referencia de audio (señal analógica)

Esto sólo es importante a la hora de conectar cables… Lo vamos a comentar de forma muy resumida simplemente para que te suene.

Aquí tienes un poco más de información sobre los niveles de entrada: Mic, Line, Inst…

Los equipos de audio trabajan con diferentes tipos de señales. Cada entrada de un equipo ‘espera’ o está preparada para un determinado nivel de señal. Hablamos de señales analógicas y los niveles a los que nos referimos normalmente son para valores RMS (valores eficaces).

 

  • Entrada MIC
    Nivel de señal muy muy pequeño. Sólo para conectar micrófonos
  • Entrada de línea (LINE)
    Es digamos un nivel estándar con el que pueden trabajar e interactuar todos los equipos de audio que trabajan con señal analógica.
    En el mundo profesional el nivel de línea es de +4 dBu (aprox. 1.23 V RMS)
    Para los equipos de electrónica de consumo es de -10 dBV (aprox. 0.33 V RMS)
  • Entrada de instrumento (Inst / Hi Z)
    No tiene que ver con niveles exactamente, sino con un tipo de señal específica de ciertos instrumentos (guitarras eléctricas, bajos, etc.) que no corresponde con las características de MIC ni de LINE.

 

Como digo, no te tienes que preocupar de estos niveles, sólo hay que tenerlo en cuenta para conectar cada elemento a la entrada que le corresponde en un equipo de audio (p.e. en una interfaz o una mesa de mezclas).

Una vez que la señal se ha pasado a digital los valores y niveles son absolutos, referenciados a la escala dBFS. Da igual si se han generado en un micrófono, una guitarra eléctrica o vienen de un archivo MP3.

 

 

Niveles óptimos de audio

Siempre se trata de intentar alcanzar un equilibrio entre mantener la señal de audio en un nivel razonable y jugar con el riesgo de que un pico de sonido nos pueda producir distorsión por clipeo.

Entonces vamos a plantear diferentes escenarios.

 

1. Grabamos voz para vídeo o podcast

No emitimos en directo, tenemos la opción de editar y ajustar un poco el sonido antes de publicar.

En este caso yo intentaría trabajar en una zona segura, alrededor de la zona de -15dB a -20dB para el audio que corresponde a la voz normal podría ser una buena referencia.

 

Niveles de audio recomendados para grabación

 

Así tenemos un techo dinámico de seguridad por encima, que pueda recoger cualquier sonido más fuerte no previsto.

Si el sonido que grabas tiene pocas variaciones de intensidad (poco rango dinámico) se puede apurar un poco más, pero te arriesgas a estropear una grabación por no haber dejado margen suficiente.

Luego en edición podemos normalizar y aplicar un poco de ganancia, sabiendo ya a posteriori cuáles son los picos máximos de sonido.

Incluso podríamos incluir algún limitador y/o compresor para reducir un poco esos picos y conseguir bajar un poco el rango dinámico, y subir así los niveles medios de nuestra señal.

Si no te quieres complicar la vida, con normalizar para mantener los picos por ejemplo a -1dB o -2dB debería darte un nivel de audio aceptable.

 

Para ir un poco más allá, lo ideal sería utilizar un medidor LUFS (Loudness Unit Full Scale) para ajustar los niveles de tal forma que:

  • Cumpla con los requisitos de la plataforma en la que voy a publicar
    Por ejemplo en youtube la señal de audio debería estar  como máximo en  -14 LUFS con picos siempre por debajo de -1 dB
    Las plataformas de podcast suelen trabajar con -16 LUFS con picos hasta -1 o -2 dB como máximo
  • Mantener una consistencia en los niveles de audio de cada episodio, vídeo, etc.
    Una consistencia entre nuestros propios episodios / vídeos para que el usuario final tenga la mejor experiencia posible.

 

Si tu software de edición de audio no tiene un medidor de LUFS o no te quieres complicar la vida: más o menos los niveles RMS te podrían servir como referencia para mantenerte en esos márgenes.

La mayoría de los programas de edición de audio incluyen medidor RMS o algún módulo que permite calcular este parámetro para el audio final.

Algunos programas ya incluyen medidor LUFS o se puede añadir mediante algún plugin.

La idea es que nuestro audio final, el que vamos a publicar, esté por debajo del límite que impone la plataforma pero que no estemos muy alejados.

Por ejemplo, si vamos a publicar en youtube (-14 LUFS máx.) nuestro audio se va a escuchar perfectamente bien en cuanto a volumen si estamos en el rango de -14 LUFS a -20 LUFS (o -14dB / -20dB RMS nos podría servir de referencia si no tenemos medidor LUFS).

Tampoco hay que obsesionarse con esto.

Pero si quieres ajustar tu audio lo más posible al límite habría dos formas relativamente sencillas:

  • Utilizar un compresor
    El compresor reduce la amplitud de los picos.
    Como los picos bajan podemos subir la ganancia global del audio.
    Estamos comprimiendo el rango dinámico, con lo que los niveles medios (LUFS / RMS) suben.
    Jugando con los parámetros del compresor podemos dejar el audio a nuestro gusto manteniendo hasta donde sea posible las características del sonido original.
  • Utilizar un módulo específico para ajustar la sonoridad (LUFS)
    Muchos programas incluyen ya módulos de este tipo, que son muy fáciles de usar.
    Simplemente tenemos que elegir el objetivo, por ejemplo -14 LUFS para youtube o -16 LUFS  para podcast, y el módulo se encarga de aplicar un compresor ‘inteligente’ que da como resultado exactamente esos valores medios que buscamos, o con un margen de diferencia muy pequeño.
    Para voz puede ser la opción más rápida y sencilla: con un par de clics ya tienes el audio perfecto en cuanto a niveles.

 

 

2. Emitimos voz en directo

Por ejemplo si hacemos streaming de vídeo o podcast en vivo.

En este escenario no tenemos posibilidad de editar el sonido a posteriori. Tenemos que buscar una configuración en tiempo real que se acerque a la que tendríamos al publicar.

Nuestro principal enemigo sigue siendo la distorsión por recorte digital (clipping).

Pero por otro lado, si nos quedamos en la zona más segura, como hacíamos en grabación, vamos a emitir posiblemente con un nivel un poco bajo y vamos a obligar a los usuarios a subir el volumen en sus equipos.

Lo que se suele hacer en estos casos es subir la ganancia para alcanzar un nivel de audio un poco más agresivo para el tono de voz normal, hacia la zona de los -10dB / -6dB podría ser una buena referencia, vigilando que los picos no lleguen a los 0dB.

 

Niveles de audio recomendados para streaming / directo. Voz

 

Y si el software que estemos utilizando para la gestión del audio lo permite, sería interesante añadir algún filtro o plugin de seguridad: un compresor para equilibrar un poco los niveles de la señal (comprime el rango dinámico) y un limitador (un compresor más agresivo) para evitar que los picos de sonido más fuertes nos lleven a la zona de clipeo y distorsionen el audio.

Tanto los compresores como los limitadores manipulan la señal y por tanto cambian las características del sonido final. Hay que buscar un equilibrio entre los niveles originales y los parámetros de funcionamiento de estos filtros.

 

 

3. Streaming con voz + música + sonidos de un juego + …

Seguiríamos la misma estrategia que comentamos en el apartado anterior.

Pero en este caso hay que tener en cuenta también la relación entre los niveles de las distintas fuentes de audio.

Normalmente la voz tiene el protagonismo, y ajustaríamos los niveles para la zona más alta, añadiendo compresor / limitador si fuera necesario.

La música de fondo tendría que ir en un nivel mucho más bajo para que la voz se perciba correctamente y destaque sobre ese fondo.

Una separación de 10 / 15dB podría ser un buen punto de partida, pero depende de la música el tipo de voz, etc.

 

Niveles de audio para streaming / directos - Voz y música

 

Por ejemplo, si tenemos la señal de voz en una media de -10dB, la música de fondo intentaríamos llevarla a unos -20dB o -25dB de media.

Para los sonidos de un juego es mucho más subjetivo porque depende de la importancia que le quieras dar al juego con respecto a la voz, del tipo de juego (por ejemplo si hay explosiones, o sonidos muy fuertes, etc.)

Es cuestión de encontrar el equilibrio más adecuado en cada caso.

Puedes mirar también la opción de ‘ducking‘ si tu software de emisión incluye esta posibilidad.

Ducking es una automatización que consiste en que cuando hay un cierto nivel de una fuente de audio (p.e. nuestra voz) todas las demás fuentes de audio o alguna en concreto (p.e. la música de fondo) son atenuadas para dar protagonismo a la fuente principal.

Ten en cuenta también que si usamos varias fuentes de sonido, todas ellas contribuyen al nivel de la mezcla final (master) que es la que vamos a emitir.

 

 

Más información sobre sonido:

Todos los artículos sobre grabación y tratamiento de sonido

Cómo mejorar la calidad de sonido para vídeo / streaming

Estudio básico de grabación de vídeo para YouTube / streaming

Cámaras recomendadas para vídeo (para youtubers, vlogs, etc.)

Cámaras recomendadas para streaming / emisión en directo

Sobre niveles, cables, y conceptos de audio profesional

Micrófonos de estudio recomendados (+Interfaz de sonido)

Micrófonos USB de estudio recomendados

Micrófonos externos para cámara (tipo shotgun / de cañón)

Micrófonos inalámbricos recomendados