Analýza digitální identity na základě reálných uživatelských dat

 

Podle výkonného ředitele Erica Shmidta jsou osobní data uživatelů důležitým prvkem, jež umožnil společnosti Google stát se jednou z nejvýznamnějších technologických firem současnosti a jejich sběr je tedy logickým pokračováním ve snaze o organizaci veškerých dostupných informací světa. Cílem společnosti je podle jeho slov: „umožnit uživatelům Googlu, aby se mohli ptát na otázky jako ‘Co budu dělat zítra?’ a ‘Jakou práci bych měl přijmout?’.“[1]

Obsahem této části je případová studie, ve které jsou analyzována data spojená s účtem reálného uživatele služeb společnosti Google. Cílem analýzy je zjistit, jaké množství dat osobní i neosobní povahy poskytují běžní uživatelé při využívání vybraných služeb společnosti Google a jaký obraz jejich identity může tato společnost ze získaných dat sestavit. V první části jsou data analyzována v rámci jednotlivých služeb, rozdělených pro lepší orientaci do čtyř kategorií – osobní údaje, polohové služby, údaje o zájmech uživatele a komunikace.[2] V závěru jsou následně vyhodnocena jako celek s ohledem na význam pro digitální identitu.

Všechna data pochází výhradně z účtu uživatele a navázaných služeb a jejich zpracování probíhalo s uživatelovým souhlasem. Obecná charakteristika uživatele a informace týkající se typu, četnosti a účelu využívání služeb společnosti Google byly získány na základě osobního rozhovoru.

Charakteristika uživatele

Zkoumaným uživatelem je muž ve věku 26 let s vysokoškolským vzděláním. Znalosti uživatele týkající se fungování, správy a provozu informačních a komunikačních technologií jsou celkově nadprůměrné, nástroje a služby Google však využívá na běžné uživatelské úrovni, nikoliv jako tzv. power user.[3] I když je rozsah digitální identity u společnosti Google velmi individuální a do značné míry závisí na počtu služeb, frekvenci a způsobu jejich využití či uživatelském nastavení, výsledky této analýzy budou moci posloužit jako obecný přehled pro většinu běžných uživatelů.

Uživatelský účet byl založen 15. 5. 2007 společně s vytvořením e-mailové schránky Gmail. Profil na videoserveru YouTube, který je nyní spojen s uživatelským účtem, byl založen samostatně již 14. 7. 2006. V současnosti je k účtu připojeno celkem 26 služeb. Ty jsou využívány pro osobní účely, ke studiu a částečně také pro pracovní záležitosti. Četnost užívání se u jednotlivých služeb liší, většina je však využívána na denní bázi či alespoň několikrát týdně. Pouze část, spíše okrajových služeb, je využívána s menší četností, viz Tabulka 1.

Tabulka 1

Tabulka 1 – Četnost využívání jednotlivých služeb

K účtu a dalším službám Google přistupuje uživatel převážně z osobního počítače s operačním systémem Windows a mobilního telefonu s operačním systémem Android. Kromě nich jsou k účtu připojeny ještě dvě další zařízení – druhý mobilní telefon a tablet, obě též s operačním systémem Android. Tato zařízení jsou ovšem k práci se službami Google využívána pouze výjimečně. Jako výchozí prohlížeč je v osobním počítači i mobilních zařízení nastavený Google Chrome.

Na závěr je potřeba zmínit, že ze strany uživatele nedošlo v průběhu využívání služeb k žádným změnám nastavení týkajícího se ochrany soukromí nebo sběru a ukládání dat. Všechny služby jsou tak po celou dobu ve výchozím nastavení. Uživatel zároveň ve svých zařízeních nevyužívá žádné hardwarové ani softwarové prostředky, které by mohly ovlivňovat či zabraňovat sběru dat.

Data

Z časového hlediska data pokrývají celou dobu existence uživatelského účtu, tedy rozmezí let 2007 –2015. Jelikož však byly jednotlivé služby k účtu přidružovány postupně, může se toto rozmezí v některých případech lišit. Konkrétní časové období tak bude v případě potřeby upřesněno v příslušných pasážích.

Data pochází z několika zdrojů. Hlavní část byla získána prostřednictvím služby Google Takeout. Archiv má velikost 8,1 GB a obsahuje data z celkem 23 služeb – Blogger, Disk, Fotky Google, Hangouts, Helpouts, Historie polohy, Kalendář, Keep, Knihy Google Play, Kontakty, Gmail, Mapy (Moje místa), uživatelem vytvořené Mapy, Úkoly, YouTube, záložky, hodnocení +1, Kruhy Google+, Moderátor, Pokec, Profil, Stránky Google+ a Stream služby Google+. Některé služby obsažené v archívu ovšem nejsou využívány a jejich složky jsou tudíž prázdné. Patří mezi ně služby Blogger, záložky, Úkoly, Stránky Google+, hodnocení +1, Moderátor, Helpouts, Knihy Google Play a Mapy (Moje místa).[4]

I přesto, že je archiv poměrně obsáhlý, nepokrývá všechny využívané služby. Uživatelem byly identifikovány celkem tři služby, které aktivně využívá a které nástroj Google Takeout neobsahuje. Jedná se o historii vyhledávání, překladač Google Translate a obchod Google Play. Tato data tedy budou analyzována přímo v rozhraní jednotlivých služeb. V některých případech mohou být jako doplňující zdroj informací využity také ostatní služby (např. Hlavní panel) a informace získané od uživatele.

Aby byl výsledný obraz identity co nejkomplexnější a pokrýval jak oblast aktivně, tak pasivně utvářené identity, budou výše zmíněná data doplněna také o reklamní profil uživatele sestavený společností Google na základě historie využívání jejích služeb. Z technických důvodů není možné získat informace obsažené v protokolech serverů, jednoznačné identifikátory aplikací a obsah místního úložiště. Tato data tedy nebudou předmětem analýzy.

Analýza dat

Osobní údaje

Google+

Data ze sociální sítě Google+ lze rozdělit na několik částí – údaje obsažené v profilu, Stream služby Google+, Kruhy a hodnocení +1. Všechny části pak pokrývají období od 21. 9. 2011, kdy byla služba oficiálně uvolněna pro širokou veřejnost, do 11. 7. 2015.

Profil obsahuje stejně jako u ostatních sociálních sítí uživatelem zadané informace umožňující jeho identifikaci. V našem případě se jedná o jméno a příjmení uživatele, e-mailovou adresu, údaje o dosaženém vzdělání (škola, fakulta, zaměření) včetně doby trvání, pracovní pozici (organizace, kontaktní údaje, pozice a náplň práce a datum nástupu), preferovaný jazyk a datum narození. Profil je navíc doplněn o fotografii uživatele. Tyto informace tak představují základ uživatelovy identity.

Stream služby Google+ představuje veškeré příspěvky, které uživatel sdílel na svém profilu. Jelikož uživatel sociální síť Google+ příliš nevyužívá, obsahuje pouze deset odkazů na články z online magazínů a zájmových portálů. I z takto malého množství příspěvků je však patrný uživatelův zájem o technologie a vzdělávání.

Hodnocením +1 lze vyjádřit sympatie s příspěvky jiných uživatelů či s obsahem na webových stránkách, které umožňují propojení se sociální sítí prostřednictvím widgetu „+1“. Uživatel však této možnosti doposud nevyužil a na rozsah digitální identity tak nemá žádný vliv.

Kruhy znázorňují sociální vazby uživatele. Obsahují celkem 48 kontaktů, rozdělených do devíti skupin – přátelé, škola, univerzita, volnočasové aktivity, práce, podřízení a sledované.[5] Skupina sledované pak představuje tři zájmové skupiny, korespondující s již zmíněným zaměřením. Rozdělení kontaktů do jednotlivých kruhů slouží nejen k organizaci, ale zejména porozumění sociálním vazbám uživatele. Spojitost některých skupin s konkrétní oblastí života (zejména práce a škola) napomáhá k ucelenějšímu obrazu identity v těchto oblastech.

Uživatelský účet

Jak již bylo zmíněno, vytvoření uživatelského účtu pro využívání některých služeb Google vyžaduje zadání jména, příjmení, země a data narození. Tyto údaje se shodují s údaji uvedenými v profilu Google+, navíc však obsahují také telefonní číslo a druhou e-mailovou adresu pro případnou ztrátu přihlašovacích údajů. Tyto údaje zůstávají uložené v uživatelském účtu i v případě, že by se uživatel rozhodl pro smazání služby Google+.

Polohové služby

Data související s polohou či místy zájmu uživatele mohou být ukládána v rámci několika služeb. Polohovými službami jsou zde myšleny údaje o poloze odesílané mobilními zařízeními. Pro úplnost budou uvedeny také záznamy poloh získané z IP adres a implicitní data o poloze vycházející z dotazů zadaných do vyhledávače. Do této kategorie by spadala také data pocházející ze služby Mapy Google, tedy uživatelem vytvořené mapy a uložené body zájmu. Uživatel však dosud prostřednictvím této služby žádné vlastní mapy nevytvořil, ani nezanesl žádná oblíbená místa.

Historie polohy

Historie polohy je svázána s mobilními zařízeními, autorizovanými v uživatelském účtu. V tomto případě se tedy jedná o kombinaci dat ze dvou mobilních telefonů a tabletu. První poloha byla zaznamenána 4. 10. 2013, několik dní po autorizaci prvního zařízení. Data tak pokrývají období 4. 10. 2013 – 11. 7. 2015. Samotná analýza byla kvůli úplnosti prováděna jak v rámci prostředí uživatelského účtu, tak v datovém souboru ze služby Takeout. Uživatelské rozhraní umožňuje přehled základních dat a jejich grafické zobrazení v mapové aplikaci, datový soubor pak poskytuje další doplňující data a metadata.

Vybrané období čítá celkem 646 dní. V 276 případech však nedošlo k zaznamenání žádné polohy. Důvodem mohlo být například vypnutí datového přenosu, ztráta signálu, deaktivace zařízení či jiné technické komplikace. V rámci zbývajících 370 dní, kdy byly polohové služby funkční, došlo k zaznamenání polohy uživatele celkem v 307 612 případech. Mobilní zařízení tedy odesílala informace o poloze na servery Google průměrně 831krát denně (přibližně 36krát za hodinu). V některých časových úsecích však docházelo k zaznamenávání polohy každou minutu, někdy dokonce i častěji, viz Obrázek 1. Hlavním důvodem pro takto vysoký počet záznamů je fakt, že aplikace společnosti Google mohou odesílat data o poloze i v případě, že nejsou aktivně využívány.

I přesto, že společnost Google poskytuje svým uživatelům nástroj pro kontrolu ukládaných polohových dat, neuvádí ve výchozím nastavení data kompletní. Uživatelé mohou zobrazit výpis uložených poloh pro vybrané období, část dat však zůstává skryta. K jejich zobrazení dojde až po kliknutí na malý hypertextový odkaz v dolní části stránky. Jak je možné vidět na Obrázku 1, rozdíl mezi primárně zobrazovaným a rozšířeným seznamem je výrazný. V původním seznamu bylo uvedeno pouze 33 poloh (poloha ohlašovaná přibližně 1,4krát za hodinu), v kompletním seznamu je to již 978 poloh (poloha ohlašovaná přibližně 42krát za hodinu).

Obrázek 1

Obrázek 1

Záznamy v uživatelském rozhraní obsahují datum, čas a polohu (město, země). Záznamy obsažené v datovém souboru jsou navíc doplněny o číselné ohodnocení přesnosti jednotlivých poloh a odhad aktivity, kterou uživatel v daném okamžiku vykonával. K polohám může být přiřazeno šest různých aktivit – „still“ (bez pohybu), „onFoot“ (chůze), „onBicycle“ (jízda na kole), „inVehicle“ (jízda dopravním prostředkem), „tilting“ (plná rychlost) a „unknown“ (neznámá). Údaje o aktivitách jsou také doplněny o procentuální vyjádření jistoty odhadu, viz Obrázek 2.

Obrázek 2

Obrázek 2 – Záznam polohy uživatele

Obsah záznamu:

  • timestampMs – časové razítko udávající datum a čas s přesností na milisekundy
  • latitudeE7 – zeměpisná šířka
  • longtitudeE7 – zeměpisná délka
  • accuracy – přesnost polohy
  • type – druh aktivity
  • confidence – procentuální vyjádření jistoty odhadu

Velké množství ukládaných dat umožňuje odvodit mnoho informací o uživateli a jeho návycích. Díky četnosti hlášení polohy získává společnost Google přehled nejen o navštívených místech, ale také délce pobytu, obvyklých dobách příchodů a odchodů či způsobu dopravy. Z frekvence jednotlivých poloh pak lze i při běžném prohlížení odhadnout adresu bydliště, pracoviště, školy a dalších často navštěvovaných míst. Ve spojení s mapovými podklady je poté možné všechna místa přesně identifikovat. Na základě těchto dat je tak společnost Google schopná zrekonstruovat celý den uživatele a zjistit, jakým činnostem, na jakých místech a jakou dobu se věnuje. Ukládání polohy tak představuje opravdu velký zásah do soukromí uživatelů, který lze jen stěží obhajovat zlepšováním služeb.

Údaje získané z IP adresy

Údaje o poloze na základě IP adres zařízení, ze kterých se uživatel přihlásil ke svému účtu, byly získány ze služby Hlavní panel. Tato služba však obsahuje údaje pouze za posledních 28 dní, tedy za období 15. 6. – 11. 7. 2015. IP adresy jsou přidělovány poskytovateli připojení a slouží pouze k přibližnému určení polohy (zde na úrovni měst). Za daný časový úsek jsou tak zaznamenány pouze dvě polohy, jedna v České republice a druhá v jedné ze zemí Evropské Unie. V porovnání s výše zmíněnou historií polohy tak tyto údaje nemají na rozsah digitální identity prakticky žádný vliv.

Implicitní údaje o poloze

Historie vyhledávání, jejíž součástí jsou i implicitní údaje o poloze, je ukládána od založení účtu dne 15. 5. 2007. Sběr dat pro potřeby analýzy byl ukončen 11. 7. 2015. Za toto období obsahuje celkem 1482 dotazů týkajících se geografické polohy, které tak tvoří 7 % všech hledaných výrazů zadaných prostřednictvím vyhledávače, mobilní aplikace či služby Mapy.[6] Z výsledků byly před analýzou odstraněny dotazy na názvy knih, filmů a dalších dokumentů obsahující geografické označení.

Dotazy lze rozdělit do čtyř skupin – přesné lokace, města, země a trasy. Nejčastěji byla vyhledávána konkrétní místa, a to v 836 případech. Ve většině případů se jednalo pouze o jednotlivé dotazy, 18 lokací se však opakovalo po celou dobu zaznamenávání historie a dalších 32 v určitém období. Z těchto dat tak lze například zjistit, kde uživatel studuje, kde pracuje, jaké jsou jeho oblíbené podniky či jaké navštěvuje lékaře. Z lokací, které se objevují v určitých časových obdobích, je pak možné odvodit, jakých akcí se uživatel pravidelně účastní či kdy si například pořídil nové vozidlo.

V záznamech měst, kterých je dohromady 341, jednoznačně dominuje Praha. Objevuje v mnoha různých formách, například „mhd Praha“ či „koncerty Praha“. Další města se pak objevují prakticky pouze v rámci určitých časových úseků, nebo jako jednotlivá vyhledávání stejně jako v případě konkrétních míst, lze i zde z četnosti jednotlivých dotazů odvodit přibližné období a místo uživatelova pobytu. Vzhledem k počtu záznamů je bez automatizovaného zpracování obtížné spojit vyhledávání s historií polohy, pro společnost Google by však toto spojení nemělo představovat problém. V případě tří zahraničních měst je navíc možné spojit dotazy s polohami uloženými v metadatech fotografií.

Dotazy na zemi či stát byly zadány celkem 232krát. Pouze 7 zemí však bylo vyhledáváno více než pětkrát. Ostatní země byly vyhledávány pouze jednou, či s velkými časovými rozestupy, ze kterých není patrný výraznější zájem o konkrétní zemi. Ve třech případech pak bylo možné spojit vyhledávání s následnou návštěvou dané země prostřednictvím historie polohy a údajů z metadat fotografií.

Trasy byly uživatelem vyhledány 73krát. Do 4. 10. 2013, kdy započalo zaznamenávání polohy prostřednictvím mobilního telefonu, však není možné zjistit, zda se uživatel po vyhledaných trasách opravdu pohyboval. Od tohoto data bylo vyhledáno 56 tras, u kterých je ve 42 případech možné jejich absolvování ověřit pomocí historie polohy.

Implicitní údaje o poloze sice nenabízí tak přesné polohové údaje, jako historie polohy, přesto je jejich prostřednictvím, zejména při větším množství či s použitím dalších služeb, možné odvodit mnoho nových informací o uživateli.

Údaje o zájmech uživatele

Historie vyhledávání

Jak již bylo zmíněno, historie vyhledávání je ukládána pouze v případě, že je uživatel přihlášen ke svému účtu. Data tedy pochází z období 15. 5. 2007 – 11. 7. 2015. Historie vyhledávání není v současné době dostupná prostřednictvím služby Takeout, lze ji však zobrazit či stáhnout v rámci uživatelského účtu. Stažený soubor obsahoval celkem 21 127 zadaných dotazů. Webové rozhraní je navíc doplněno o historii aplikací spuštěných na zařízeních s OS Android a záznamy navštívených stránek v prohlížeči Chrome. Dohromady tak obsahuje 23 083 záznamů. Dostupné formáty dat však neumožňují uživatelům automatizovanou analýzu, záznamy tedy byly procházeny ručně. Vzhledem k rozsahu tato část neobsahuje detailnější rozbor, jako je tomu v ostatních případech, ale spíše celkový náhled na obsah vyhledávání.

Z takto velkého množství dat je i při běžném prohlížení velmi snadné identifikovat zájmy uživatele prakticky ve všech oblastech jeho života. Tyto zájmy pak lze rozdělit na zájmy dlouhodobé, které se objevují v průběhu celé historie vyhledávání a zájmy krátkodobé, jež se vyskytují pouze v určitém období. Dlouhodobě se uživatel zajímá o informační technologie, zejména pak jejich pokročilejší správu, využití pro kolaborativní práci, programování či tvorbu webových stránek. Dalším často se opakujícím prvkem je hra na kytaru a zájem o hudbu obecně. Stejně jako v případě níže zmíněné služby YouTube lze z dotazů odvodit uživatelovy oblíbené hudební žánry i konkrétní interprety. Do této skupiny pak můžeme zařadit také studované obory na střední i vysoké škole, celkové profesní zaměření, oblíbené filmy a seriály, autory či ovládané jazyky.

Z dotazů, které se často opakují v určitém časovém období, je pak možné získat detailnější informace o určitých životních událostech či aktuálních zájmech. Jedná se například o témata různých kvalifikačních prací, změnu bydliště, oblíbené kulturní akce, ale také konkrétnější informace jako je aktuální typ automobilu či poskytovatelé a dodavatelé různých služeb (elektřina, internet, mobilní sítě atd.). Jak je možné vidět v části o implicitní poloze, z vyhledávání lze odvodit také oblíbené podniky, adresu pracoviště nebo destinace zahraničních cest.

Historie vyhledávání obsahuje velké množství informací, které podávají velmi přesný obraz uživatelovy identity ať už v oblasti volnočasových zájmů, odborného zaměření nebo životních událostí. Při využití automatizovaného zpracování dat pak bude zajisté možné tento obraz ještě více zpřesnit.

Reklamní profil uživatele

Profil uživatele sloužící pro lepší cílení reklam je sestavován společností Google na základě využívání jejích služeb. Skládá se ze tří částí – pohlaví, věkové skupiny a zájmů. Informace o pohlaví a věku uživatele byly převzaty z profilu sociální sítě Google+ a odpovídají tak skutečnosti. Seznam zájmů obsahuje celkem čtrnáct kategorií – bankovnictví, optimalizace vyhledávače a marketing, knihy a literatura, kosmetika a makeup, nakupování, východoasijská hudba, televizní realityshow, značky automobilů, adventury, jídlo a pití, hygiena a toaletní potřeby, péče o vlasy, vysoké školy a univerzity a online video. Z uvedených kategorií jsou ovšem relevantní pouze dvě – vysoké školy a univerzity a online video. Tento odhad je tedy velmi nepřesný, a to i přesto, že uživatelský účet zahrnuje velmi obsáhlou historii vyhledávání, která svým pokrytím koresponduje s uživatelovými zájmy i odborným zaměřením. Sestavený reklamní profil tedy obraz uživatelovy identity nijak nezpřesňuje a naopak může být zavádějící.

Google Play

Obchod s digitálním obsahem Google Play vznikl jako platforma pro distribuci aplikací do zařízení s operačním systémem Android. Jeho využívání je tedy opět spojeno se třemi zařízeními a data pochází stejně jako v případě polohy z období 4. 10. 2013 – 11. 7. 2015.

V současnosti je možné prostřednictvím služby Google Play získávat kromě aplikací také filmy, knihy a hudbu. Uživatel však pro přístup k digitálnímu obsahu využívá jiné kanály a ve službě Google Play tedy nemá zakoupen žádný další obsah. I z instalovaných aplikací je však možné určit zájmy a zaměření uživatele.

Na zařízení spojená s uživatelským účtem bylo nainstalováno celkem 337 aplikací. Ty byly pro potřeby analýzy rozděleny do deseti kategorií s ohledem na jejich účel:

  • produktivita – dokumenty, kalendáře a další pracovní nástroje; komunikace – komunikační klienty, sociální sítě, sdílení a kolaborace; zábava a hry – hry a aplikace pro volnočasové aktivity;
  • foto, média, video – aplikace pro zaznamenávání a úpravy videa, fotek, čtečky;
  • vzdělání – e-learningové aplikace, učební pomůcky;
  • hudba a zvuk – nástroje pro zaznamenávání, úpravu, zápis a poslech hudby;
  • doprava a cestování – cestovní průvodce, navigace, mapy, jízdní řády;
  • životní styl – zájmové a kulturní aplikace;
  • nakupování – aplikace pro nakupování, platby;
  • nástroje – nástroje pro správu a údržbu zařízení a dat.[7]

Graf 1

Graf 1 – Rozdělení aplikací v jednotlivých skupinách

Z rozdělení je patrný uživatelův zájem o nové technologie a jejich pokročilou správu (nástroje), o hudbu a její produkci (hudba a zvuk) či osobní rozvoj (vzdělání). Počet aplikací v kategoriích produktivita a komunikace pak indikuje, že mobilní zařízení jsou využívána také k práci. Detailnějším rozborem instalovaných aplikací lze získat ještě přesnější obraz o uživatelových zájmech, zde však s ohledem na zachování soukromí toto rozdělení postačí.

Všechny stažené aplikace jsou dostupné zdarma, účet tedy neobsahuje informace o platební kartě, jejichž zadání je nezbytné pro jakýkoliv nákup ve službě Google Play.

Google Translate

Služba Google Translate na rozdíl od ostatních běžně neukládá historii překladů v rámci uživatelského účtu.[8] Překlady jsou ukládány pouze v rámci mobilní aplikace, a to jen v případě, že je uživatel připojený k internetu. Tato stručná historie má uživatelům pomoci při dalším využívání aplikace v off-line režimu. Přihlášení uživatelé mohou také vytvářet vlastní seznamy slov a slovních spojení, které budou následně dostupné na jakémkoliv zařízení, kde se uživatel přihlásí.

Náš uživatel nemá vytvořený žádný takový seznam a data tedy pocházejí pouze z historie uložené v mobilní aplikaci. Ta je instalována pouze na jednom zařízení a obsahuje celkem 31 překladů ze tří jazyků – angličtiny, francouzštiny a španělštiny. Rozložení jazyků je prakticky rovnoměrné. Uložené výrazy jsou pouze obvyklá slova či fráze a nelze z nich odvodit žádné další informace o zájmech uživatele. Jedinou informací rozšiřující obraz identity uživatele tak představují využívané jazyky.

Keep

Služba Keep pro tvorbu poznámek a seznamů neukládá kompletní historii. Dostupné jsou tak vždy pouze aktuálně vytvořené položky. V rámci uživatelova účtu jich bylo uloženo celkem 15, z období 13. 1. 2015 – 7. 6. 2015. Ve všech případech se jedná o krátké poznámky, které bez doplňujících informací postrádají význam. Na identitu uživatele tak tato služba nemá prakticky žádný vliv.

Kalendář

Služba kalendář je spojena s účtem uživatele již od jeho založení, tedy od 15. 5. 2007. Do 11. 7. 2015 bylo uživatelem vytvořeno celkem 108 událostí pokrývajících 149 dní. Přibližně dvě třetiny záznamů tvoří události spojené s aktivitou uživatele, zbylé záznamy pak slouží pouze jako upomínky (např. na narozeniny či svátky).

Události typu upomínka mají ovšem bez dalšího kontextu pouze malou vypovídající hodnotu. Záznamy aktivit naopak mohu poskytnout informace týkající se uživatelových zájmů či posloužit k doplnění dalších polohových údajů. Ve většině případů se sice jedná pouze o události jednorázové, i přesto lze z jejich obsahu odvodit studijní i profesní zaměření uživatele a dvě volnočasové aktivity. Ty zapadají do obrazu získaného z ostatních služeb.

Ve třiatřiceti případech události obsahovaly informace o místě konání. U šestnácti dalších pak bylo možné za pomoci historie polohy spojit aktivitu s konkrétní polohou a časovým rozpětím.[9] U některých vícedenních akcí navíc doba trvání přesně koresponduje s chybějícími záznamy v historii polohy, a je tedy velmi pravděpodobné, že uživatel právě díky těmto aktivitám nevyužíval mobilní připojení. Čtyři ze šesti těchto událostí navíc obsahují informace o poloze a umožňují tak alespoň částečně doplnit prázdná místa v historii polohy uživatele.

Služba Kalendář tedy sama o sobě neobsahuje tolik informací jako některé další služby. V případě jejich propojení však může napomoci k získání ucelenějšího obrazu uživatele.

Fotky Google

Služba Fotky Google je nově spuštěná služba, shromažďující na jednom místě všechny fotografie a videa nahraná uživatelem do služeb Google, zejména pak sociální sítě Google+ a webového alba Picassa, jehož je nástupcem. Fotky Google spojené s účtem našeho uživatele obsahují celkem 741 fotografií ve 40 albech. Alba zde nejsou vytvářena uživatelem podle obsahu fotek, ale společností Google na základě data pořízení.

Záznamy fotografií obsahují několik základních údajů jako je datum a čas pořízení. Uživatelé pak mohou tyto záznamy doplňovat přidáváním štítků, popisů či označováním dalších osob a lokací[10] , viz Obrázek 3. Náš uživatel však žádné doplňující informace k fotografiím nepřidal.

Obrázek 3

Obrázek 3 – Obsah metadatového záznamu fotografie ve službě Fotky Google

Kromě samotných fotografií, které zachycují významné životní události uživatele, tak mají výpovědní hodnotu zejména geografické údaje obsažené v metadatovém souboru Exif. Údaje o poloze má přiřazeno celkem 148 fotografií v jedenácti albech. Devět z těchto alb (118 fotografií) pak obsahuje metadata zobrazují jednu konkrétní oblast. Společně s časovými údaji tak umožňují velmi přesně určit délku i destinaci zahraniční cesty. Tato cesta navíc pokrývá další chybějící úsek v historii polohy, který je možné těmito informacemi doplnit.

Disk

Služba Disk slouží jako cloudové úložiště nejen pro dokumenty vytvořené prostřednictvím navazující služby Dokumenty, ale také pro jakékoliv další soubory. Zkoumaný uživatel využívá toto úložiště od 10. 12. 2013. Do 11. 7. 2015 jím bylo nahráno 531 dokumentů a dalších 33 s ním bylo sdíleno ostatními uživateli. Dokumenty je možné na základě obsahu rozdělit do čtyř skupin – studium, práce, zájmy a ostatní. Ostatní dokumenty obsahují zejména krátké či prázdné dokumenty, připomínky, seznamy a zálohy operačního systému Android. Tyto dokumenty však bez doplňujícího kontextu neposkytují žádné další informace o zájmech či činnostech uživatele, které by byly pro digitální identity významné.

Graf 2

Graf 2 – Rozdělení dokumentů podle zaměření

U všech kategorií s výjimkou skupiny ostatní dochází velmi často ke sdílení dokumentů s ostatními uživateli. Kategorie studium zahrnuje celkem 43 unikátních osob, práce 14 osob a zájmy 11 osob. Tímto způsobem je tedy možné přiřadit konkrétní osoby do určitých oblastí uživatelova života.

Z pohledu uživatele je z názvů a obsahu dokumentů snadné získat velmi detailní přehled o jeho zájmech (zde zejména hudební tvorba), odborném zaměření, studovaných oborech, náplni práce, ale také například o pracovní době. Vzhledem k časovým údajům je navíc některé životní události (státní zkoušky, odevzdání prací) možné přiřadit ke konkrétnímu období. Je ovšem velmi těžké odhadnout, do jaké míry je společnost Google schopná pomocí automatizované analýzy nahraných dokumentů získat potřebné informace k odvození tak komplexního obrazu uživatelových aktivit, jakého je možné dosáhnout při uživatelské analýze.

Hlavním přínosem pro digitální identitu je tedy zejména rozšíření oblasti sociálních vazeb uživatele a jejich zařazení do konkrétních oblastí uživatelova života.

YouTube

Jak již bylo řečeno, uživatelský profil ve službě YouTube byl založen dříve než hlavní účet Google. Analyzovaná data tedy pochází z období od 14. 7. 2006 do 11. 7. 2015. Data ze služby YouTube se dělí do čtyř skupin – nahraná videa, odběry, seznamy videí a historie. Historie zahrnuje jak vyhledávání, tak přehraná videa.

Odběry na serveru YouTube fungují na stejném principu jako klasické RSS čtečky a umožňují uživateli odebírat nově nahraná videa z vybraných kanálů. Zkoumaný uživatel však této možnosti příliš nevyužívá. Sleduje pouze 6 kanálů, dva z nich jsou zaměřené na vzdělávání, jeden na tutoriály pro práci s grafickými programy, jeden na výuku cizího jazyka a dva patří konkrétním kapelám. I přesto, že je množství odebíraných kanálů velmi malé, jejich sledování značí uživatelův zájem o dané téma či interprety.

Vlastních seznamů oblíbených videí uživatel vytvořil 5 a dohromady obsahují 118 položek. Ve všech případech se jedná o hudební videa. Pouze jeden seznam je zaměřen na konkrétní hudební skupinu, ostatní obsahují jednotlivá videa různých interpretů, které není možné spojit ani v rámci žánrů. Samostatný seznam je pak věnován kapele, která je zařazena i v odběrech uživatele.

Zkoumaný uživatel využívá službu YouTube spíše pro konzumaci obsahu, než pro sdílení vlastní tvorby. Jeho profil obsahuje pouze tři krátká videa, ze kterých je ovšem patrný uživatelův zájem o hru na kytaru.

Historie vyhledávání obsahuje celkem 2938 hledaných výrazů, které lze rozdělit do pěti skupin – hudební videa, tutoriály a vzdělávací videa, filmy a seriály, zábava a obecné výrazy. Jak je patrné z Grafu 3, uživatel využívá službu YouTube převážně pro vyhledávání hudebních videí, ostatní typy videí se pak zajímá spíše výjimečně.[11]

Graf 3

Graf 3 – Podíl jednotlivých druhů dotazů ve vyhledávání YouTube

Pro získání přesnějšího přehledu o uživatelových zájmech byly následně analyzovány pouze výrazy, které se v historii vyhledávání objevily více než třikrát. Z takto omezených výsledků lze vybrat 29 oblíbených hudebních skupin, jejichž název se dohromady vyskytl ve 486 dotazech, ať už samostatně či společně s názvem konkrétní písničky. Na třetím a pátém místě v počtu sledovanosti se pak nacházejí kapely, jejichž kanál uživatel odebírá. I když tři zadané dotazy na konkrétní kapelu ještě nemusí značit její oblibu, všechny kapely s nižším počtem (3, 4, 5) vyhledávání se zároveň častěji objevují v seznamu přehraných videí. Kromě hudebních skupin pak lze vypozorovat také zájem o tvorbu počítačové grafiky, dva televizní seriály a tři filmy.

Kompletní historii zhlédnutých videí není v současné době možné získat v žádné formě, která by umožňovala ucelenou analýzu. Na rozdíl od ostatních částí datového archivu pro službu YouTube získaného prostřednictvím Google Takeout obsahuje historie sledování data pouze za posledních 28 dní. V rámci uživatelského účtu na serveru YouTube je pak možné po částech zobrazit jejich kompletní seznam, vzhledem k použitému formátu však není možné jeho další zpracování s využitím automatizovaných nástrojů. Historie obsahuje celkem 4884 zhlédnutých videí. Obecným zaměřením i konkrétními hudebními skupinami pak odpovídá výše zmíněnému rozložení v historii vyhledávání. Počet zhlédnutí je oproti vyhledávání vyšší zejména díky přehrávání videí uložených ve vlastních seznamech a videí doporučených na základě dřívější aktivity. Oba typy však vycházejí z uživatelových zájmů.

Služba YouTube představuje obsáhlý zdroj informací o uživatelově hudebním vkusu, ale také o dalších zájmech z oblasti volnočasových aktivit, ať už se jedná o hru na hudební nástroj, oblíbené filmy či práci s počítačovou grafikou.

Komunikace

Gmail

E-mailová schránka Gmail byla založena dne 15. 5. 2007. Od tohoto data pak bylo jejím prostřednictvím vedeno 5940 konverzací. Obsah jednotlivých zpráv však nebyl s ohledem na zachování listovního tajemství a soukromí uživatele analyzován. Společnost Google si ovšem v podmínkách užití vyhrazuje právo na automatizované procházení obsahu zpráv za účelem nalezení klíčových slov, na základě kterých může lépe třídit doručenou poštu či zobrazovat kontextová reklamní sdělení. I když se nejedná o celkovou analýzu obsahu zpráv, ale pouze vyhledávání výskytu určitých slov, lze na jejich základě, zejména při větším množství, získat určitý přehled o uživatelových zájmech a aktivitách. Kromě klíčových slov lze z četnosti komunikace s jednotlivými osobami odvodit také sociální vazby a v kombinaci s uživatelem přiřazenými štítky pak tyto osoby zařadit do konkrétních oblastí jeho života (např. škola, práce, volnočasová aktivita). Více o sociálních vazbách bude popsáno v části Kontakty.

Hangouts

Hangouts je komunikační služba umožňující bezplatné zasílání zpráv a uskutečňování videohovorů. Vzhledem k podstatě služby tak nebyl, stejně jako v případě e-mailové schránky, analyzován obsah jednotlivých zpráv. Data získaná ze služby Hangouts pochází z období 18. 5. 2013 – 11. 7. 2015. Za tuto dobu bylo uskutečněno 37 konverzací – 21 formou videohovoru, 16 prostřednictvím chatu. Konverzace v chatu pak obsahovaly dohromady 965 jednotlivých zpráv.

V uživatelském rozhraní zprávy obsahují příjemce, datum a čas jednotlivých zpráv a u videohovorů také dobu trvání. Soubor získaný prostřednictvím služby Takeout je navíc doplněn o další technické parametry spojení jako je síla signálu, identifikátor konverzace, identifikátory jednotlivých účastníků či typ spojení. Tento soubor však neobsahuje žádné další informace, které by mohly být využity k rozšíření obrazu uživatelovy digitální identity. Hlavním přínosem je tedy zejména přehled sociálních vazeb uživatele.

Kontakty

Služba Kontakty slouží jako jednotné rozhraní pro ukládání a správu veškerých kontaktních údajů pocházejících ze všech aplikací Gogole, tedy např. Gmail, Google+, Disk, Kalendář. Kontakty z jednotlivých služeb mohou být na základě shodných údajů navzájem doplňovány a slučovány do jednotných záznamů. V případě, že uživatel povolí synchronizaci také v mobilním zařízení s operačním systémem Android, mohou být shodné kontakty doplněny také o telefonní čísla.

Jelikož jsou kontakty ukládány ze všech aplikací, pochází analyzovaná data z období 15. 5. 2007 až 11. 7. 2015. Kontakty obsahují celkem 4926 záznamů, 735 z nich je však duplicitních. Pro lepší orientaci a usnadnění hromadné komunikace využívá uživatel třídění kontaktů do vlastních skupin. Těchto skupin je 28 a obsahují 178 kontaktů.[12] Z názvů deseti skupin je patrné, o jaký okruh lidí se jedná (škola, práce, rodina atd.), zbylé pak zřejmě představují určité pracovní skupiny, které ovšem není možné bez dalších informací zařadit. Ve čtyřech případech však tyto skupiny obsahují osoby, které jsou zároveň uživatelem zařazeny v tematických kruzích na sociální síti Google+. Díky těmto informacím je tedy možné určit oblast, do které spadají ostatní kontakty v dané skupině. V rámci uživatelského rozhraní je také možné zobrazit nejčastěji využívané kontakty, kterých je zde 65. Ve spojení se zařazením kontaktů do jednotlivých skupin slouží tento seznam ke snadné a přesné identifikaci uživatelových nejbližších přátel, rodinných příslušníků, a spolupracovníků.

Obsah jednotlivých záznamů se liší v závislosti na aplikaci, ze které pochází. Nejčastěji obsahuje e-mailovou adresu nebo telefonní číslo, v několika případech oboje. Kontakty ze služby Gogole+ jsou navíc doplněny o odkaz na profil dané osoby. Tři záznamy pak také obsahují kontaktní adresu. Zajímavé bylo zjištění, že u některých osob je záznam doplněn také o identifikační čísla profilů na konkurenční sociální síti Facebook, viz Obrázek 4. Všechny takto doplněné kontakty pocházejí z období, kdy uživatel využíval mobilní telefon značky HTC, který ve vlastní aplikaci pro správu kontaktů umožňoval přiřazení facebookového profilu. Nejedná se tedy o běžnou praktiku společnosti Google.

Obrázek 4

Obrázek 4 – Kontaktní údaje doplněné o profil na sociální síti Facebook

Služba Kontakty poskytuje široký přehled uživatelových sociálních vazeb, které jsou navíc díky možnosti třídění do tematických skupin a kruhů snadno přiřaditelné ke konkrétním činnostem a oblastem uživatelova života.

Shrnutí

Mezi největší zdroje informací patří zejména polohové údaje ukládané prostřednictvím mobilních zařízení s operačním systémem Android, historie vyhledávání, YouTube, Gmail a Kontakty. Tyto služby mohou samy o sobě poskytnout velmi přesnou představu o uživatelových zájmech, zaměření či aktivitách v konkrétních oblastech jeho života. Teprve jejich spojením však vzniká ucelený obraz uživatelovy identity. Ten je navíc na mnoha místech doplňován, zpřesňován či potvrzován daty z menších služeb. I malé množství zdánlivě bezvýznamných dat tak může při vhodné kombinaci s dalšími službami poskytnout zajímavé informace.

Základní kostru uživatelovy identity tvoří osobní údaje zadané při registraci a údaje obsažené v profilu sociální sítě Google+. Ty obsahují jméno, příjmení, přesné datum narození, dosažené vzdělání, aktuální pracovní pozici, e-mailovou adresu a telefonní číslo. K těmto údajům, umožňujícím jednoznačnou identifikaci uživatele, jsou pak prostřednictvím služeb jako vyhledávání, YouTube či Play připojeny informace o jeho zájmech, volnočasových aktivitách či životních událostech. Z obecných a dlouhodobých zájmů se jedná zejména o informační a komunikační technologie, hudbu (aktivně i pasivně) a vzdělávání. Do této kategorie můžeme zařadit také oblíbené filmy, autory, hudební žánry či konkrétní kapely. V rámci určitých časových úseků lze pak vysledovat aktuální zájmy a životní události. Mezi krátkodobými zájmy můžeme rozpoznat například témata závěrečných prací, zahraniční cesty či změnu operátora, mezi životními událostmi pak stěhování či koupi nového auta (včetně typu). Časové údaje pak pomáhají určit, kdy k jednotlivým událostem došlo. U zahraničních cest a stěhování je možné tyto údaje v některých případech ověřit také prostřednictvím historie polohy.

Historie polohy představuje největší zásah do soukromí uživatele. Na jejím základě je možné určit adresu bydliště, zaměstnání a dalších oblíbených míst. Ve většině případů, kdy byla poloha zaznamenávána, obsahuje dostatečné množství údajů pro zrekonstruování kompletního pohybu uživatele. Z dlouhodobého hlediska lze pak kromě jednotlivých bodů zájmu odvodit také obvyklé časy odchodů a příchodů do zaměstnání či školy. Chybějící údaje v historii polohy mohou být navíc doplněny údaji z ostatních služeb.

Obraz uživatelovy identity uzavírají sociální vazby získané na základě komunikace prostřednictvím služeb Gmail, Hangouts a dalších služeb jako je Disk Google či Kalendář. Díky možnosti řazení kontaktů do skupin je velmi snadné jednotlivé osoby přiřadit do konkrétních oblastí uživatelova života. Na základě četnosti využití lze poté identifikovat nejbližší přátele, rodinné příslušníky, spolužáky či kolegy.

Vzhledem k velkému množství ukládaných dat a zejména možnosti jejich vzájemného kombinování a doplňování je výsledný obraz uživatelovy identity velmi detailní a z velké části odpovídá skutečnosti.


[1] DANIEL, Caroline a Maija PALMER. Google’s goal: to organise your daily life. Financial Times: world business – newspaper[online]. London: Financial Times, 2007 [cit. 2015-07-16]. ISSN 1148-2753.

[2] Dostupné z: http://www.ft.com/cms/s/2/c3e49548-088e-11dc-b11e-000b5df10621.html

[3] Power user je označení pro uživatele, kteří při práci s počítači, programy či elektronickými službami

využívají jejich pokročilých funkcí. V případě služeb Google se může jednat o práci s tzv. API (Application Programming Interface), tedy programátorským rozhraním jednotlivých služeb pro jejich lepší přizpůsobení.

[4] V případě záložek je absence obsahu poněkud zarážející, jelikož synchronizace Chrome je v uživatelském účtu povolena a ve službě Hlavní panel je uvedeno celkem 258 uložených záložek.

[5] Názvy jednotlivých kruhů byly s ohledem na zachování soukromí pozměněny, zachovávají však původní význam.

[6] Číslo zahrnuje všechny dotazy, které jednoznačně odkazují na polohu, tedy adresy, názvy ulic, měst, městských částí, zemí apod. Společnost Google však může odvodit zájem o polohu i z dotazů, ze kterých to není na první pohled patrné. Využívá k tomu webové stránky, na které uživatel přistoupil z výsledků vyhledávání. Zadá-li uživatel například slovo „korunní“, není na první pohled jasné, zda jde o minerální vodu či ulici. Ve výsledcích vyhledávání se tedy zobrazí výsledky pro oba dotazy. Když poté uživatel klikne na odkaz zobrazující ulici korunní, je tento dotaz přiřazen také k implicitním údajům o poloze. Google tedy bude mít s největší pravděpodobnostní těchto záznamů více.

[7] Jelikož tematické řazení aplikací v obchodě Google Play ne vždy odpovídá jejich přesnému účelu, byly některé aplikace autorem přeřazeny do jiných kategorií.

[8] Všechny překlady jsou ovšem ukládány na servery Google a dále analyzovány za účelem zlepšení budoucích překladů.

[9] Záznamy polohy lze nalézt celkem pro 25 událostí, u některých však postrádají význam (připomenutí narozenin) či není možné jednoznačně určit, zda poloha souvisí s danou aktivitou.

[10] Označením je možné přiřadit rysy konkrétní osobě. Na základě takto uložených vzorů může společnost Google identifikovat osobu i na dalších fotografiích.

[11] Analýza byla provedena ve statistickém programu RStudio.

[12] Do těchto skupin nejsou započítány Kruhy Google+, které tvoří samostatnou skupinu.

 

 

 

Skoček, Jakub. Analýza digitální identity na základě reálných uživatelských dat. Informace [online]. , č. [cit. 2024-04-19]. ISSN 1805-2800. Dostupné z: https://www.lib.cas.cz/casopis_informace/digitalni-identita/

Tisknout stránku