Sunday, November 23, 2014

Zjištění pohlaví uživatelů podle příspěvků na sociálních sítích

A robust gender inference model for online social networks and its application to LinkedIn and Twitter

Tato studie byla publikována na stránkách časopisu First Monday v září letošního roku 2014. Studie se zabývá postupem, který je vhodný aplikovat, abychom mohli určit pohlaví uživatele sociální sítě prostřednictvím jeho vlastních psaných projevů. Pro dobrou názornou ukázku aplikovali autoři této studie systém na dvě zcela odlišné sociální sítě – populární a masově rozšířený Twitter a naproti tomu na formální LinkedIn.

Autory této studie jsou dva řečtí vědci Athanasios Kokkos a Theodoros Tzouramanis. Athanasios Kokkos studoval na Technological Educational Institute of Thessaloniki a také na University of the Aegean, kde nyní působí jako doktorand. Jeho oblastí zájmů jsou informační technologie, ochrana údajů a soukromí a sociální sítě. Theodoros Tzouramanis vystudoval doktorandské studium na Aristotle University of Thessaloniki a v současné době působí jako odborný asistent a ředitel Laboratoře v oddělení informačních a komunikačních systémů inženýrství na University of the Aegean.

V současné době, kdy sociální sítě můžeme a také potkáváme na každém kroku, je pro nás čím dál důležitější, abychom měli dobré informace o uživateli, se kterým přicházíme do kontaktu. Chceme tedy znát jeho osobní vlastnosti jako je věk, vzdělání, ale také jeho pohlaví. Bohužel ne vždy jsou informace dostupné, a proto se odborná veřejnost snaží najít mechanismy, které by osobní vlastnosti uživatelů získaly bez jejich aktivní spolupráce, tedy z jejich písemných projevů. 

Snaha o zjištění osobních vlastností uživatele z jeho profilů na sociálních sítích není žádnou novinkou. I tato studie uvádí velké množství předchozích prací, ze kterých sama teoreticky vychází nebo čerpá inspiraci. Nejvíce se přibližuje výzkumu, který provedl Argamon a kol. v roce 2009, ten zkoumal příspěvky na blogu, ze kterých se snažil určit pohlaví a dosáhl úspěšnosti 76,1 %.

Metodika vychází ze studií kognitivní psychologie a počítačové lingvistiky. Výzkumy v těchto oblastech prokázaly, že v komunikaci používají muži a ženy různé vyjadřovací prostředky. Pokud to shrneme, pak pro jazyk mužů jsou charakteristické výrazné projevy nezávislosti a moci, ve svých písemných projevech používají řečnické otázky a výzvy. Ženy se naopak vyjadřují hodně emocionálním jazykem, používají citově zabarvená slova např. docela, rozkošný, okouzlující a krásná. Používají ve svých projevech mírnější tvrzení a také mnohem častěji než muži reagují na příspěvky ostatních.

Zde popisovaný model předpovědi pohlaví vychází ze dvou různých statistických a pravděpodobnostních algoritmů, které pracují s psycholingvistickou vlastností textu. Výzkum využívá funkce založené na obsahu textu – hledá slova vztahující se ke specifickým pocitům, které mohou působit jako ukazatelé emocionální, psychologické a kognitivní složky člověka, a pak také klasicky analyzuje styl psaní uživatele.

Nejdříve probíhala fáze testování, zda jsou vhodná vstupní data, metody a podobně. Testování u Twitteru probíhalo tak, že bylo náhodně vybráno 10 tisíc tweetů, z nichž polovina patřila mužům a polovina ženám, jejich pohlaví se následně ověřilo ručně pomocí různých externích informací, jako jsou fotky. U LinkedIn test probíhal na vzorku 1 tisíce souhrnů na profilech uživatelů, opět byla polovina souhrnů od mužů a polovina od žen. Na těchto vzorcích se testovala vhodnost SVM klasifikátoru, který byl vybrán jako nejlepší metoda pro tento výzkum. Následně už se mohlo přejít k ostrému výzkumu.


Na výzkum byla použita veřejná data v anglickém jazyce od Twitteru a LinkedInu. Náhodně se vybralo 1000 souhrnů na profilech LinkedIn a 1000 tweetů od náhodných uživatelů (u tweetů došlo k vyloučení těch, které byly pouze jednoslovné, odstraněny byly tzv. hashtagy). Přesnost byla určena jednoduchým výpočtem – počet tweetů/souhrnů, u kterých bylo správně určeno pohlaví autora byl vydělen celkových počtem zkoumaných vzorků. Každý určený vzorek byl následně ručně ověřen, aby byla zajištěna správnost.

Z 1000 tweetů bylo správně určené pohlaví autora u 922 z nich, což nám dává přesnost 92,2%. Z 1000 souhrnů se správně vyhodnotilo pohlaví u 984 uživatelů, zde je tedy přesnost 98,4%. Jak se ukazuje, a není to překvapivé, tak úspěšnost určení pohlaví stoupá s tím, jak dlouhý text vyhodnocujeme. S více slovy může klasifikátor lépe zpracovat a snadněji pak odhadnout pohlaví.

Dosažené hodnoty jsou nejvyšší ze všech dosud provedených výzkumů, co se týká Twitteru. Pro LinkedIn se v tomto případě jednalo o jeden z prvních výzkumů, přičemž bylo dosaženo velmi přesných výsledků.

Model by se podle studie dobře hodil pro pokusy s velkou experimentální skupinou. Využit by pak mohl být i samotnými poskytovateli sociálních sítí, k lepšímu ověření identity uživatelů, a tak k jejich vlastní ochraně. S jistotou lze očekávat, že podobných výzkumů bude přibývat k odhalení i jiných osobních vlastností uživatelů, než je pohlaví.









No comments:

Post a Comment