Gondoltál már arra, mennyi információ bújik meg minden egyes kattintásodban, minden filmnézésedben a Netflixen? Az adatok valójában mindenütt jelen vannak – és ha tudjuk, hogyan nézzünk rájuk, rengeteg izgalmas történetet mesélhetnek el.
A feltáró adatelemzés (Exploratory Data Analysis – EDA) pontosan erről szól: a nyers adatokat vizsgáljuk meg először, hogy felfedezzük a mintázatokat, kapcsolatokat, vagy épp az esetleges hibákat és anomáliákat. Ez az a lépés, ami nélkül a bonyolult modellek csak találgatnának, mi meg vakon mozognánk az adatok között.
Ebben a blogposztban Tony Ojeda, vezető adattudós és AI szakértő által kidolgozott keretrendszert követem. Nem ipari szabvány, de sok elemző számára nagyon hasznos, mert segít rendet teremteni a káoszból, és struktúrát ad az EDA folyamatához.
Hogyan épül fel a keretrendszer?
Az egész folyamat két nagy részre oszlik:
1. Előkészület (Prep Phase)
Ez a fázis arról szól, hogy felkészüljünk az adatokra. Három lépésből áll:
- Azonosítás (Identify): Első lépésként megismerjük a problémát és a céljainkat.
- Áttekintés (Review): Belekukkantunk az adatokba, hogy lássuk, mit rejt a táblázat.
- Létrehozás (Create): Kitaláljuk, milyen új kategóriákkal, nézőpontokkal gazdagíthatjuk az adatainkat.
2. Adatfeltárás (Explore Phase)
Itt lép életbe a vizuális és statisztikai varázslat:
- Szűrés, aggregálás, pivotálás – mindezzel a táblázatokból nyerünk új perspektívákat.
- Grafikonok, hálózat-alapú vizualizációk segítségével felfedezzük az adatkapcsolatokat.
Az adatokhoz való hozzáállás
Az adatokat legegyszerűbben kódolt információként képzelhetjük el. De a trükk az, hogy minden, amivel találkozunk a világban, potenciálisan rögzíthető és elemezhető. Minden egyes adatállomány egy-egy szelet a világ bonyolultságából – egy történet, amit egy gép vagy egy ember elmesél nekünk.
Emberként szerencsénkre rendet tudunk teremteni a káoszból: kategóriákat hozunk létre, rendszereket alkotunk, és így értelmezzük a világot. Az EDA keretrendszer ezt a képességet használja ki: tudatosan épít a kategóriák, hierarchiák és címkék alkalmazására, hogy a munkánk reprodukálható és megbízható legyen.
Példa: Netflix felhasználói adatok
A példánkhoz a Netflix szintetikus (azaz nem valós) nézői véleményeit használjuk a Kaggle-ről: Netflix Dataset
A cél: három tábla összekapcsolása, hogy a filmek, felhasználók és értékelések adatait együtt vizsgálhassuk.

Kiválasztjuk a releváns oszlopokat majd gyors adattisztítást végzünk.

És máris készen állunk a következő lépésre.
Azonosítási szakasz (Identify)
Most, hogy tisztán látjuk az adatainkat, az első feladat az információk típusainak és az entitások azonosítása.
Információtípusok
- Film címe, megjelenés éve, értékelés
- Milyen eszközön nézték meg
- Nézők neme, kora, városa, érzése a filmhez
És persze az időbeli változások és a kapcsolatok is érdekesek – például hogyan változik a filmnézői élmény a hónapok során.
Entitások
Az entitás egy adathalmazban található egyedi, elemezhető egység. Fontos, hogy felismerjük a köztük lévő kapcsolatokat, mert ez határozza meg, milyen elemzéseket végezhetünk.
Fő entitások és kapcsolataik
Entitás | Attribútumok | Kapcsolatok | Megjegyzés |
Movie (Film) | title, genre_primary, release_year | Review (1:N), Genre (N:M) | Egy film több értékelést és műfajt kaphat |
User (Felhasználó) | full_name, gender, age, state_province | Review (1:N), Device (N:M), Location (N:1) | Egy felhasználó több értékelést és eszközt is használhat |
Review (Értékelés) | total_votes, review_date, added_to_platform, sentiment | Movie (1:N), User (1:N) | Kapcsolótábla a filmek és felhasználók között |
Device (Eszköz) | device_type | User (N:M) | Egy felhasználó több eszközt is használhat |
Genre (Műfaj) | genre_name | Movie (N:M) | Egy film több műfajhoz tartozhat |
Location (Hely) | state_province | User (1:N) | Egy helyről több felhasználó is jöhet |
Kapcsolattípusok: 1:N – egy a sokhoz, N:M – sok a sokhoz
Ez a lépés gyakran kimarad a kezdő adatkutatóknál – pedig itt derül ki, milyen sokféleképpen lehet majd az adatokat vizsgálni.
Áttekintési szakasz (Review)
Következő lépés: áttekintjük az adatok átalakításának és vizualizálásának lehetőségeit.
Átalakítási módszerek
- Szűrés (Filtering): Csak a releváns sorokat/oszlopokat nézzük
- Aggregálás / deaggregálás: Részleteket vagy összesítéseket hozunk létre
- Pivotálás: Különböző változók mentén összesítjük az adatokat
- Gráftranszformáció: Az entitásokat kapcsoljuk össze, és nézzük, hogyan viszonyulnak egymáshoz
Vizualizációs módszerek
- Oszlopdiagramok: Egyszerű és intuitív, az összesítések szemléltetésére
- Többvonalas grafikonok: Időbeli változások összehasonlítása
- Szórásdiagramok / szórásmátrixok: Kapcsolatok vizsgálata több numerikus változó között
- Hőtérképek: Entitások koncentrációjának vizualizálása
- Hálózati vizualizációk: Kapcsolatok feltérképezése gráf formában
Erről már írtam részletesebben itt.
Összegzés
Ebben a részben felvázoltuk, hogyan közelíthetünk az adatokhoz strukturáltan, mégis kreatívan. Megismerkedtünk a prep phase lépéseivel, az entitások és attribútumaik szerepével, valamint néhány alapvető vizualizációs és transzformációs módszerrel.
A következő részben az adatok további előkészítésére koncentrálunk, új kategóriákat hozunk létre, és többféle nézőpontból elemezhetjük majd az adatainkat.
Tarts velem továbbra is – garantálom, hogy az adatok világa izgalmasabb lesz, mint gondolnád!
A post-sorozat többi tagja