AWS Glue: jak zjednodušit integraci dat v cloudu

Aws Glue

Obsah článku:

Co je AWS Glue a k čemu slouží
Hlavní funkce služby AWS Glue

Co je AWS Glue a k čemu slouží

AWS Glue je plně spravovaná služba pro integraci dat, kterou Amazon Web Services uvedl jako součást svého rozsáhlého ekosystému cloudových nástrojů. Název této služby není náhodný — slovo „glue v angličtině znamená lepidlo, a právě tato metafora velmi přesně vystihuje, co AWS Glue ve skutečnosti dělá. Stejně jako lepidlo spojuje různé materiály dohromady, tato služba spojuje různé datové zdroje, formáty a systémy do jednoho funkčního celku, který umožňuje organizacím pracovat s daty efektivně a bez zbytečných komplikací.

V praxi se AWS Glue používá především jako nástroj pro takzvaný ETL proces, tedy pro extrakci, transformaci a načítání dat. To jsou tři základní kroky, které musí každá organizace provést, pokud chce přesunout data z jednoho místa na druhé a přitom je upravit do požadované podoby. Extrakce znamená vytažení dat z původního zdroje, ať už jde o relační databázi, datový sklad, soubory uložené v Amazon S3 nebo jiné systémy. Transformace pak zahrnuje veškeré úpravy těchto dat — čištění, filtrování, přejmenování sloupců, změnu datových typů nebo třeba agregaci hodnot. A načítání je finální krok, kdy jsou upravená data uložena do cílového systému, kde budou dále využívána pro analytické nebo reportingové účely.

Co dělá AWS Glue skutečně zajímavým, je skutečnost, že výrazně zjednodušuje celý tento proces, který byl dříve velmi náročný na manuální práci a programátorské znalosti. Služba dokáže automaticky procházet datové zdroje a vytvářet takzvaný datový katalog, který funguje jako centrální registr veškerých dostupných dat v organizaci. Tento katalog obsahuje metadata o datových sadách — tedy informace o struktuře dat, jejich umístění, datových typech jednotlivých sloupců a dalších vlastnostech. Díky tomu mohou analytici a datový inženýři snadno zjistit, jaká data jsou k dispozici a jak s nimi pracovat, aniž by museli zdlouhavě procházet různé systémy a dokumentaci.

Dalším klíčovým prvkem AWS Glue jsou ETL joby, což jsou v podstatě skripty napsané v Pythonu nebo Scale, které provádějí samotnou transformaci dat. AWS Glue tyto skripty dokáže v mnoha případech vygenerovat automaticky na základě analýzy zdrojových a cílových dat, což výrazně urychluje vývoj datových pipeline. Samozřejmě je možné tyto automaticky generované skripty upravovat a přizpůsobovat specifickým potřebám projektu, takže vývojáři mají plnou kontrolu nad tím, co se s daty děje.

Služba je postavena na frameworku Apache Spark, což je open-source systém pro distribuované zpracování velkých objemů dat. Díky tomu je AWS Glue schopen zpracovávat obrovské množství dat paralelně a velmi rychle, aniž by bylo nutné spravovat vlastní serverovou infrastrukturu. Veškerá výpočetní kapacita je zajišťována automaticky, škáluje se podle aktuálních potřeb a platí se pouze za skutečně spotřebované výpočetní zdroje.

AWS Glue Studio je vizuální rozhraní, které umožňuje vytvářet, spouštět a monitorovat ETL joby bez nutnosti psát kód. Uživatelé mohou pomocí jednoduchého drag-and-drop rozhraní sestavovat datové toky, propojovat různé komponenty a nastavovat transformační kroky. Toto rozhraní výrazně snižuje technickou bariéru pro práci s daty a umožňuje i méně technicky zdatným uživatelům vytvářet funkční datové pipeline.

V kontextu moderní datové architektury hraje AWS Glue roli centrálního lepidla, které drží pohromadě různorodé části datového ekosystému organizace. Propojuje datová jezera, datové sklady, operační databáze a analytické nástroje do jednoho koherentního celku, kde data mohou volně proudit tam, kde jsou potřeba, ve správné podobě a ve správný čas. Právě tato schopnost propojovat a integrovat různé systémy dělá z AWS Glue nepostradatelný nástroj pro každou organizaci, která to s datovou analytiku myslí vážně.

Hlavní funkce služby AWS Glue

AWS Glue je plně spravovaná služba pro extrakci, transformaci a načítání dat, kterou Amazon Web Services nabízí jako součást svého rozsáhlého ekosystému cloudových nástrojů. Název této služby není náhodný – slovo „glue v překladu znamená lepidlo, a právě tato metafora dokonale vystihuje podstatu toho, co AWS Glue dělá. Slouží jako pojivo mezi různými datovými zdroji, úložišti a analytickými nástroji, které by jinak fungovaly odděleně a bez vzájemné komunikace. Stejně jako lepidlo spojuje materiály dohromady, AWS Glue spojuje datové světy, které by bez něj zůstaly fragmentované a obtížně zpracovatelné.

Porovnání ETL nástrojů: AWS Glue vs. konkurence
Funkce / Vlastnost	AWS Glue	Azure Data Factory	Google Dataflow	Apache Spark (vlastní)
Typ služby	Plně spravovaná ETL služba	Plně spravovaná ETL služba	Plně spravovaná streamovací/dávková služba	Open-source framework (vlastní správa)
Programovací jazyk	Python, Scala	JSON, Python, .NET	Java, Python	Java, Scala, Python, R
Serverless	✅ Ano	✅ Ano	✅ Ano	❌ Ne (nutná vlastní infrastruktura)
Datový katalog	✅ Integrovaný AWS Glue Data Catalog	✅ Azure Purview (samostatná služba)	⚠️ Omezený (Google Data Catalog)	❌ Není nativní
Cena za DPU hodinu	0,44 USD / DPU-hodina	0,25 USD / DIU-hodina	0,056 USD / vCPU-hodina	Závisí na infrastruktuře (EC2, on-premise)
Minimální fakturační jednotka	1 minuta	1 minuta	1 sekunda	Dle poskytovatele infrastruktury
Vizuální editor (no-code)	✅ AWS Glue Studio	✅ Grafické rozhraní ADF	⚠️ Omezený vizuální editor	❌ Není nativní
Podpora streamování	✅ Glue Streaming (Apache Kafka, Kinesis)	✅ Azure Event Hubs, IoT Hub	✅ Apache Beam (Pub/Sub)	✅ Spark Streaming
Integrace s cloudovým ekosystémem	Nativní integrace s AWS (S3, Redshift, RDS, Athena)	Nativní integrace s Azure (Blob, Synapse, SQL DB)	Nativní integrace s GCP (BigQuery, GCS, Pub/Sub)	Multi-cloud, on-premise, hybridní
Automatické škálování	✅ Automatické (Glue Auto Scaling)	✅ Automatické	✅ Automatické	⚠️ Manuální konfigurace
Podpora formátů souborů	CSV, JSON, Parquet, ORC, Avro, XML	CSV, JSON, Parquet, ORC, Avro, XML	CSV, JSON, Avro, Parquet, TFRecord	CSV, JSON, Parquet, ORC, Avro, XML a další
Podpora JDBC konektorů	✅ Ano (MySQL, PostgreSQL, Oracle, SQL Server)	✅ Ano (přes Integration Runtime)	✅ Ano (přes Apache Beam konektory)	✅ Ano (nativní JDBC podpora)
Bezpečnost a šifrování	AWS IAM, KMS, VPC, SSL/TLS	Azure AD, Key Vault, VNet, SSL/TLS	Google IAM, Cloud KMS, VPC, SSL/TLS	Závisí na konfiguraci (Kerberos, SSL)
SLA dostupnost	99,9 %	99,9 %	99,9 %	Závisí na vlastní infrastruktuře
Podpora ML transformací	✅ FindMatches ML Transform	✅ Azure Machine Learning integrace	✅ TensorFlow Extended (TFX) integrace	✅ MLlib (nativní ML knihovna)
Verze Apache Spark	Apache Spark 3.3	Apache Spark 3.2 (přes Synapse)	Apache Beam (vlastní runtime)	Nejnovější (3.5 k roku 2024)

Našli jste v článku chybu?

Publikováno: 12. 06. 2026

Kategorie: Cloudové služby

AWS Glue: jak zjednodušit integraci dat v cloudu

Co je AWS Glue a k čemu slouží

Hlavní funkce služby AWS Glue

AWS Glue: jak zjednodušit integraci dat v cloudu

Co je Azure a proč by vás měl zajímat cloudový gigant Microsoftu

Modrá značka Azure: Proč Microsoft vsadil na tuto barvu