A
robust gender inference model for online social networks and its application to
LinkedIn and Twitter
Tato
studie byla publikována na stránkách časopisu First Monday v září letošního
roku 2014. Studie se zabývá postupem, který je vhodný aplikovat, abychom mohli
určit pohlaví uživatele sociální sítě prostřednictvím jeho vlastních psaných
projevů. Pro dobrou názornou ukázku aplikovali autoři této studie systém na dvě
zcela odlišné sociální sítě – populární a masově rozšířený Twitter a naproti
tomu na formální LinkedIn.
Autory
této studie jsou dva řečtí vědci Athanasios Kokkos a Theodoros Tzouramanis.
Athanasios Kokkos studoval na Technological Educational Institute of
Thessaloniki a také na University of the Aegean, kde nyní působí jako
doktorand. Jeho oblastí zájmů jsou informační technologie, ochrana údajů a
soukromí a sociální sítě. Theodoros Tzouramanis vystudoval doktorandské studium
na Aristotle University of Thessaloniki a v současné době působí jako
odborný asistent a ředitel Laboratoře v oddělení informačních a
komunikačních systémů inženýrství na University of the Aegean.
Snaha
o zjištění osobních vlastností uživatele z jeho profilů na sociálních
sítích není žádnou novinkou. I tato studie uvádí velké množství předchozích
prací, ze kterých sama teoreticky vychází nebo čerpá inspiraci. Nejvíce se
přibližuje výzkumu, který provedl Argamon a kol. v roce 2009, ten zkoumal
příspěvky na blogu, ze kterých se snažil určit pohlaví a dosáhl úspěšnosti 76,1
%.
Metodika
vychází ze studií kognitivní psychologie a počítačové lingvistiky. Výzkumy
v těchto oblastech prokázaly, že v komunikaci používají muži a ženy
různé vyjadřovací prostředky. Pokud to shrneme, pak pro jazyk mužů jsou
charakteristické výrazné projevy nezávislosti a moci, ve svých písemných
projevech používají řečnické otázky a výzvy. Ženy se naopak vyjadřují hodně
emocionálním jazykem, používají citově zabarvená slova např. docela, rozkošný,
okouzlující a krásná. Používají ve svých projevech mírnější tvrzení a také
mnohem častěji než muži reagují na příspěvky ostatních.
Zde
popisovaný model předpovědi pohlaví vychází ze dvou různých statistických a
pravděpodobnostních algoritmů, které pracují s psycholingvistickou
vlastností textu. Výzkum využívá funkce založené na obsahu textu – hledá slova
vztahující se ke specifickým pocitům, které mohou působit jako ukazatelé
emocionální, psychologické a kognitivní složky člověka, a pak také klasicky
analyzuje styl psaní uživatele.
Nejdříve
probíhala fáze testování, zda jsou vhodná vstupní data, metody a podobně.
Testování u Twitteru probíhalo tak, že bylo náhodně vybráno 10 tisíc tweetů, z nichž
polovina patřila mužům a polovina ženám, jejich pohlaví se následně ověřilo
ručně pomocí různých externích informací, jako jsou fotky. U LinkedIn test
probíhal na vzorku 1 tisíce souhrnů na profilech uživatelů, opět byla polovina
souhrnů od mužů a polovina od žen. Na těchto vzorcích se testovala vhodnost SVM
klasifikátoru, který byl vybrán jako nejlepší metoda pro tento výzkum. Následně
už se mohlo přejít k ostrému výzkumu.
Na
výzkum byla použita veřejná data v anglickém jazyce od Twitteru a LinkedInu.
Náhodně se vybralo 1000 souhrnů na profilech LinkedIn a 1000 tweetů od
náhodných uživatelů (u tweetů došlo k vyloučení těch, které byly pouze
jednoslovné, odstraněny byly tzv. hashtagy). Přesnost byla určena jednoduchým
výpočtem – počet tweetů/souhrnů, u kterých bylo správně určeno pohlaví autora
byl vydělen celkových počtem zkoumaných vzorků. Každý určený vzorek byl
následně ručně ověřen, aby byla zajištěna správnost.
Z 1000
tweetů bylo správně určené pohlaví autora u 922 z nich, což nám dává přesnost
92,2%. Z 1000 souhrnů se správně vyhodnotilo pohlaví u 984 uživatelů, zde
je tedy přesnost 98,4%. Jak se ukazuje, a není to překvapivé, tak úspěšnost
určení pohlaví stoupá s tím, jak dlouhý text vyhodnocujeme. S více
slovy může klasifikátor lépe zpracovat a snadněji pak odhadnout pohlaví.
Dosažené
hodnoty jsou nejvyšší ze všech dosud provedených výzkumů, co se týká Twitteru.
Pro LinkedIn se v tomto případě jednalo o jeden z prvních výzkumů,
přičemž bylo dosaženo velmi přesných výsledků.
Model
by se podle studie dobře hodil pro pokusy s velkou experimentální
skupinou. Využit by pak mohl být i samotnými poskytovateli sociálních sítí,
k lepšímu ověření identity uživatelů, a tak k jejich vlastní ochraně.
S jistotou lze očekávat, že podobných výzkumů bude přibývat
k odhalení i jiných osobních vlastností uživatelů, než je pohlaví.
No comments:
Post a Comment