Introducción al Almacenamiento en AWS

Amazon S3 es el servicio principal de AWS para el almacenamiento y recuperación de archivos mediante un API. Utilizando este API, los programadores pueden desarrollar aplicaciones para almacenar y recuperar archivos de manera ágil y segura.

Amazon se encarga de almacenar nuestros archivos de manera redundante. Es totalmente escalable, solo se paga por el espacio de almacenamiento que se ocupa. Se utiliza cifrado de seguridad, tanto en almacenamiento como en tránsito (transferencia de datos desde o hacia S3).

Una de las principales ventajas de este servicio es su muy bajo costo y por supuesto su integración con el resto de servicios de AWS.

Características de S3

Además de distribuir de manera inteligente los datos en distintas regiones físicas, cuentan con integraciones como PCI-DSS, HIPAA/HITECH, FedRAMP nuestro datos nunca serán comprometidos.

AWS S3 también cuenta con alta disponibilidad (High Availability) por lo que acceder a tu información con una latencia casi nula del 99,9999999% es lo que se conoce como Eficacia Operacional.

Dato Importante:
La cantidad de archivos que se pueden almacenar en Amazon, como objectos, es virtualmente ilimitada, pero el tamaño de archivo tiene un límite, que, hoy, es de 5 Terabytes.

Dónde se ha utilizado S3? Casos prácticos

Georgia-Pacific

Georcia-Pacific creo un lago de datos central basado en Amazon S3, lo que le permitió incorporar y analizar datos estructurados y no estructurados a escala.

Nasdaq

Nasdaq almacena hasta siete años de datos en Amazon S3 Glacier para cumplir con los requisitos de conformidad y regulación de la industria. Gracias a AWS, la empresa puede restaurar sus datos y optimizar sus costos de almacenamiento a largo plazo.

Sysco

Sysco consolida sus datos en un único lago de datos creado en Amazon S3 y Amazon S3 Glacier para ejecutar análisis de datos y obtener información empresarial.

Nielsen

Nielsen creó una nueva plataforma nativa en la nube de indice de audiencia televisiva local capaz de almacenar 30 petabytes de datos en Amazon S3 y de usar Amazon Redshift, AWS Lambda y Amazon EMR.

S3- Rendimiento, SLA y alcance

Debemos dejar algo muy importante en claro: S3 es un Servicio GLOBAL de Amazon Web Services. Esto quiere decir que no depende de regiones o Zonas, puede ser accedido desde todo el mundo (con salvedad de naciones que censuren sus redes).

Amazon S3 proporciona características de administración fáciles de utilizar, que le permiten organizar los datos y configurar sofisticados controles de acceso con objeto de satisfacer sus requisitos empresariales, organizativos y de conformidad. S3 está diseñado para ofrecer una durabilidad del 99,999999% (11 nueves) y almacena datos de millones de aplicaciones para empresas de todo el mundo.

Los once “9” son la garantía de SLA (Service Level Agreement) O Calidad de Servicio. Esto quiere decir que Amazon asegura a sus clientes que sus archivos en S3 estarán disponibles e íntegros (Accesibles y sin corrupción) un 99,999999999%, por lo que deja un porcentaje mínimo librado al azar.

S3 es un servicio de excelencia sin historiales de pérdida de datos.

S3- Disponibilidad

Una zona de disponibilidad de AWS es una ubicación aislada físicamente dentro de una región de AWS. Dentro de cada región de AWS, S3 funciona en al menos tres zonas de disponibilidad, con kilómetros de distancia entre sí, a fin de ofrecer protección contra eventos como incendios, inundaciones, etc.

Los tipos de almacenamiento Amazon S3 Estándar, S3 Estándar - Acceso poco frecuente y S3 Glacier replican datos en un mínimo de tres zonas de disponibilidad para brindar protección contra la pérdida de una zona entera.

Esto se aplica también en regiones en las que se encuentran disponibles públicamente menos de tres zonas de disponibilidad.

Es posible acceder a los objetos que se almacenan en estos tipos de almacenamiento desde todas las zonas de disponibilidad de una región de AWS.

El tipo de almacenamiento Amazon S3 Única zona - Acceso poco frecuente replica los datos en una única zona de disponibilidad. Los datos almacenados en este tipo son vulnerables a pérdidas si se destruye la zona de disponibilidad debido a algún evento.

S3 - Cómo se estructura el servicio

Para comenzar la compresión teórica, debemos comprender que Amazon S3 es un servicio de almacenamiento en cubos. Esto, en el lenguaje de Amazon, se llama ”Bucker”.

Cuando creamos una “carpeta” dentro de S3, si esta carpeta es la primera, dejará de ser carpeta y pasará a ser un “Bucket”, ice ”Bucket” será la raíz de almacenamiento, los archivos que se carguen dentro de él y las carpetas que se creen dentro de él se llamarán “Objectos”.

Aquí podemos observar que “Storage”, “assets”, “config” y “undefined”, asi como “app.css”, son Objetos del Bucket “Nombres”.

Aquí, profundizaremos el concepto de Almacenamiento basado en Objetos.

Luego, estudiaremos con EBS almacenamiento basado en bloques.

Como se almacenan los datos? S3 Buckets

Los datos en S3 se almacenan como objetos dentro de los llamados Buckets.

Un objeto es la unidad básica de almacenamiento, consiste en un fichero con un identificador y metadatos asociados.

Un Bucket en Amazon S3 no es más que un directorio lógico de alto nivel en el que se encuentran los objetos, cada uno de ellos identificado con una clave.

Un ejemplo de identificación de objeto puede ser el siguiente:

s3://bucket-a/2020/log.csv

El nombre del Bucket en este caso sería “bucket-a” y la clave del fichero dentro de ese Bucket “2020/logs.csv”.

Además, se pueden subir archivos a Amazon S3 con clientes FTP.

Al usar S3, es importante tener en cuenta las políticas de acceso y evitar, en lo posible, dejar los buckets públicos. Es posible crear reglas y ACLs (Listas de Control de Acceso) para definir quién tiene acceso a los buckets y los objetos almacenados. También hacer uso de la transferencia de ficheros con el protocolo SSL.

Costes de Amazon S3 y opciones

Los costos específicos pueden variar según la región y las solicitudes específicas realizadas. Como regla general, sólo pagará por las transferencias que cruzan los límites de su región, es decir que no paga las transferencias a las ubicaciones de borde de Amazon CloudFront dentro de esa región.

Para almacenar datos en S3, Amazon proporciona la opción de Amazon S3 Starndard. Sin embargo, hay otra opción en S3 llamada Amazon S3 estándar Amazon IA, de las siglas en inglés Acceso infrecuente.

Amazon S3 Standard - IA ofrece todos los beneficios de Amazon S3, incluida su durabilidad, disponibilidad y seguridad; pero simplemente se ejecuta en un modelo de costos diferentes para proporcionar soluciones para almacenar datos a los que se accede con poca frecuencia, como las imágenes digitales más antiguas de un usuario o archivos de registro antiguos.

Amazon S3 Glacier

AWS también proporciona otro servicio basado en S3, llamado Amazon S3 Glacier.

Este servicio está orientado a proporcionar almacenamiento de objetos duradero para archivos de datos a un precio muy reducido.

El precio de este servicio es de aproximadamente 1 euro por terabyte al mes. Ofrece varias opciones de acceso, desde minutos a horas,

También existe un servicio aún más frío y con accesos desde 12 a 48 horas para tener los datos disponibles llamado Amazon S3 Glacier Deep Archive.

El uso más común de estos servicios de Amazon S3 Glacier es para almacenar copias de seguridad. Estos ficheros no tienen la necesidad de ser accedidos al instante y, generalmente, se puede sacrificar el tiempo de acceso para ahorrar costes, ya que a su vez suelen ser ficheros de gran tamaño.

Donde puede encontrar Casos de Uso de los Servicios Estudiados?

Compañías de entrega de servicios, streaming de contenido audiovisual, streaming de música, almacenamiento como backup, entre otros, utilizan Amazon S3 como plataforma de almacenamiento de millones de documentos.

Es importante remarcar que dado su disponibilidad global, su Hish Availability y su cifrado, plataformas como Spotify, tomando como ejemplo ese servicio, pueden almacenar música con derechos de autor, permitir a sus usuarios descargarla o escucharla en streaming, sin que sea posible acceder a ella y apropiarse del dato.