Sunday, December 11, 2016

Rozpoznání pohlaví uživatelů LinkedIn a Twitter podle jejich příspěvků

A robust gender inference model for online social networks and its application to LinkedIn and Twitter

 Autoři:
Athanasios Kokkos 
Univerzita: Technological Educational Institute of Thessaloniki, University of the Aegean
Dnes působí na University of Aegean jako doktorand, zabývá se soukromím na sociálních sítích, ochranou údajů atp.

Theodoros Tzouramanis
Univerzita: Aristotle University of Thessaloniki
Momentálně je ředitelem Laboratoře v oddělení informačních a komunikačních systémů inženýrství na University of the Aegean. 

Předmět studie:
 Jejich studie byla publikována v září 2014 v časopisu First Monday. Na dvou sociálních sítích (LinkedIn a Twitter) byla provedena analýza určování pohlaví přispěvatele podle jeho příspěvků. LinkedIn je velice formální sociální síť, na které její uživatelé publikují spíše příspěvky vážnějších témat, Twitter naproti tomu hojně používaná síť, kde najdeme příspěvky všech možných témat, více se podobá úspěšnějšímu Facebooku. Autoři vyvinuli postup, díky kterému je s velkou úspěšností možné odhalit pohlaví přispěvatele. Ráda bych podotkla, že tato studie není první, která se snaží zjišťovat pohlaví uživatelů, v roce 2009 proběhla studie, ve které se autoři pokoušeli zjistit pohlaví podle příspěvků na blogu. Zde dosáhli úspěšnosti 76,1%. 

Proč?
Proč tato studie vůbec vznikla?  Jedná se o čirou zvědavost. Někteří uživatelé sociálních sítí, ať už jakýchkoliv, o sobě neradi zveřejňují osobní údaje. Jde zejména o bezpečnost a prevenci proti zneužití osobních údajů. Velká část uživatelů ale údaje o sobě zveřejní, ostatní uživatelé si na to takřka zvyknou a pokud se objeví někdo, o kom není možné se téměř nic dozvědět, projeví se zvědavost a čitatel jeho příspěvků se snaží zjistit něco více o autorovi. Proto Athanasios Kokkos a Theodoros Tzouramanis použili pár již dobře známých kritérií, díky kterým můžeme rozpoznat alespoň pohlaví přispěvatele. Je však tento fakt a spoustu dalších (věk, jméno, zájmy,…) důležitý? Může pohlaví autora příspěvku změnit pohled ostatních uživatelů na jeho statusy a články?
Použité metody:
Použité metody sahají do studia kognitivní psychologie a počítačové ligvistiky. 
Kognitivní psychologie
Studuje poznávací procesy v lidské psychice a chování, studuje tedy procesy díky nim člověk poznává sebe samotného a okolní svět.
Počítačová lingvistika
Obor na pomezí lingvistiky a informatiky. Zkoumá texty nebo mluvené slovo, které vyžaduje určitou míru porozumění přirozenému jazyku strojem.

Podle výzkumů v těchto dvou oblastech vyšlo najevo, že pohlaví se dá rozpoznat podle užitých slov a termínů. Muži tedy používají jiná slova než ženy. Je dobře možné vypozorovat, že tyto znaky se odvíjí od hlavních povahových znaků chrakteristických pro mužské a ženské pohlaví. Je jisté, že ženy jsou více emocionálně rozvinuty, snadněji se nechají unést city. V jejich textech se dají najít zdrobněliny. Jejich projev není tak „tvrdý“. Naproti tomu muži jednají v některých případech unáhleněji, jejich příspěvky jsou údernější, tzv. si neberou servítky. 
Výzkum tedy pracoal s charakteristickými slovy pro ženy a muže, které vyhledával a následně prováděl určení pohlaví.

Průběh výzkumu: 
Nejprve byl proveden test. Z Twitteru bylo vybráno 10 tisíc příspěvků, z nichž polovina patřila mužům a polovina ženám. Z LinkedInu to byl 1 tisíc příspěvků, taktéž rozdělených v poměru 50/50. Pro testování byl vybrán tzv. SVM klasifikátor, který se ukázal jako vhodný pro tento výzkum. Po provedení testu bylo náhodně vybráno 1000 příspěvků z Twitteru a 1000 z LinkedInu. Byly vyloučeny jednoslovné nebo nesmyslné příspěvky a odstraněny hashtagy. 

Výsledky:
Twitter
U Twitteru bylo správně klasifikováno 922 příspěvků, úspěšnost se tedy rovná 92,2%.
LinkedIn
Zde bylo správně určeno 984 příspěvků, úspěšnost 98,4%. Vyšší úspěšnost se zde projevila díky delším článkům.

Závěr:
Díky tomuto výzkumu bylo dosaženo zatím nejlepších výsledků, co se určování pohlaví týče. Je dobrým startovacím místem pro další výzkumy, které by se mohly zabývat např. určováním věku a dalších osobních informací. 


1 comment:

  1. Do you need free YouTube Views?
    Did you know you can get these AUTOMATICALLY AND TOTALLY FOR FREE by getting an account on Like 4 Like?

    ReplyDelete