Adatkutatás Pythonnal I.

Adatkutatás Pythonnal I.

Gondoltál már arra, mennyi információ bújik meg minden egyes kattintásodban, minden filmnézésedben a Netflixen? Az adatok valójában mindenütt jelen vannak – és ha tudjuk, hogyan nézzünk rájuk, rengeteg izgalmas történetet mesélhetnek el.

A feltáró adatelemzés (Exploratory Data Analysis – EDA) pontosan erről szól: a nyers adatokat vizsgáljuk meg először, hogy felfedezzük a mintázatokat, kapcsolatokat, vagy épp az esetleges hibákat és anomáliákat. Ez az a lépés, ami nélkül a bonyolult modellek csak találgatnának, mi meg vakon mozognánk az adatok között.

Ebben a blogposztban Tony Ojeda, vezető adattudós és AI szakértő által kidolgozott keretrendszert követem. Nem ipari szabvány, de sok elemző számára nagyon hasznos, mert segít rendet teremteni a káoszból, és struktúrát ad az EDA folyamatához.

Hogyan épül fel a keretrendszer?

Az egész folyamat két nagy részre oszlik:

1. Előkészület (Prep Phase)

Ez a fázis arról szól, hogy felkészüljünk az adatokra. Három lépésből áll:

  • Azonosítás (Identify): Első lépésként megismerjük a problémát és a céljainkat.
  • Áttekintés (Review): Belekukkantunk az adatokba, hogy lássuk, mit rejt a táblázat.
  • Létrehozás (Create): Kitaláljuk, milyen új kategóriákkal, nézőpontokkal gazdagíthatjuk az adatainkat.

2. Adatfeltárás (Explore Phase)

Itt lép életbe a vizuális és statisztikai varázslat:

  • Szűrés, aggregálás, pivotálás – mindezzel a táblázatokból nyerünk új perspektívákat.
  • Grafikonok, hálózat-alapú vizualizációk segítségével felfedezzük az adatkapcsolatokat.

Az adatokhoz való hozzáállás

Az adatokat legegyszerűbben kódolt információként képzelhetjük el. De a trükk az, hogy minden, amivel találkozunk a világban, potenciálisan rögzíthető és elemezhető. Minden egyes adatállomány egy-egy szelet a világ bonyolultságából – egy történet, amit egy gép vagy egy ember elmesél nekünk.

Emberként szerencsénkre rendet tudunk teremteni a káoszból: kategóriákat hozunk létre, rendszereket alkotunk, és így értelmezzük a világot. Az EDA keretrendszer ezt a képességet használja ki: tudatosan épít a kategóriák, hierarchiák és címkék alkalmazására, hogy a munkánk reprodukálható és megbízható legyen.

Példa: Netflix felhasználói adatok

A példánkhoz a Netflix szintetikus (azaz nem valós) nézői véleményeit használjuk a Kaggle-ről: Netflix Dataset

A cél: három tábla összekapcsolása, hogy a filmek, felhasználók és értékelések adatait együtt vizsgálhassuk.

Kiválasztjuk a releváns oszlopokat majd gyors adattisztítást végzünk.

És máris készen állunk a következő lépésre.

Azonosítási szakasz (Identify)

Most, hogy tisztán látjuk az adatainkat, az első feladat az információk típusainak és az entitások azonosítása.

Információtípusok

  • Film címe, megjelenés éve, értékelés
  • Milyen eszközön nézték meg
  • Nézők neme, kora, városa, érzése a filmhez

És persze az időbeli változások és a kapcsolatok is érdekesek – például hogyan változik a filmnézői élmény a hónapok során.

Entitások

Az entitás egy adathalmazban található egyedi, elemezhető egység. Fontos, hogy felismerjük a köztük lévő kapcsolatokat, mert ez határozza meg, milyen elemzéseket végezhetünk.

Fő entitások és kapcsolataik

EntitásAttribútumokKapcsolatokMegjegyzés
Movie (Film)title, genre_primary, release_yearReview (1:N), Genre (N:M)Egy film több értékelést és műfajt kaphat
User (Felhasználó)full_name, gender, age, state_provinceReview (1:N), Device (N:M), Location (N:1)Egy felhasználó több értékelést és eszközt is használhat
Review (Értékelés)total_votes, review_date, added_to_platform, sentimentMovie (1:N), User (1:N)Kapcsolótábla a filmek és felhasználók között
Device (Eszköz)device_typeUser (N:M)Egy felhasználó több eszközt is használhat
Genre (Műfaj)genre_nameMovie (N:M)Egy film több műfajhoz tartozhat
Location (Hely)state_provinceUser (1:N)Egy helyről több felhasználó is jöhet

Kapcsolattípusok: 1:N – egy a sokhoz, N:M – sok a sokhoz

Ez a lépés gyakran kimarad a kezdő adatkutatóknál – pedig itt derül ki, milyen sokféleképpen lehet majd az adatokat vizsgálni.

Áttekintési szakasz (Review)

Következő lépés: áttekintjük az adatok átalakításának és vizualizálásának lehetőségeit.

Átalakítási módszerek

  • Szűrés (Filtering): Csak a releváns sorokat/oszlopokat nézzük
  • Aggregálás / deaggregálás: Részleteket vagy összesítéseket hozunk létre
  • Pivotálás: Különböző változók mentén összesítjük az adatokat
  • Gráftranszformáció: Az entitásokat kapcsoljuk össze, és nézzük, hogyan viszonyulnak egymáshoz

Vizualizációs módszerek

  • Oszlopdiagramok: Egyszerű és intuitív, az összesítések szemléltetésére
  • Többvonalas grafikonok: Időbeli változások összehasonlítása
  • Szórásdiagramok / szórásmátrixok: Kapcsolatok vizsgálata több numerikus változó között
  • Hőtérképek: Entitások koncentrációjának vizualizálása
  • Hálózati vizualizációk: Kapcsolatok feltérképezése gráf formában

Erről már írtam részletesebben itt.

Összegzés

Ebben a részben felvázoltuk, hogyan közelíthetünk az adatokhoz strukturáltan, mégis kreatívan. Megismerkedtünk a prep phase lépéseivel, az entitások és attribútumaik szerepével, valamint néhány alapvető vizualizációs és transzformációs módszerrel.

A következő részben az adatok további előkészítésére koncentrálunk, új kategóriákat hozunk létre, és többféle nézőpontból elemezhetjük majd az adatainkat.

Tarts velem továbbra is – garantálom, hogy az adatok világa izgalmasabb lesz, mint gondolnád!

A post-sorozat többi tagja

Scroll to Top