A robust gender inference model for online social networks and its application to LinkedIn and Twitter
Autoři:
Athanasios Kokkos
Athanasios Kokkos
Univerzita: Technological Educational Institute of Thessaloniki, University of the Aegean
Dnes působí na University of Aegean jako doktorand, zabývá se soukromím na sociálních sítích, ochranou údajů atp.
Theodoros Tzouramanis
Univerzita: Aristotle University of Thessaloniki
Momentálně je ředitelem Laboratoře v oddělení informačních a komunikačních systémů inženýrství na University of the Aegean.
Předmět studie:

Proč?
Proč tato studie vůbec vznikla? Jedná se o čirou zvědavost. Někteří uživatelé sociálních sítí, ať už jakýchkoliv, o sobě neradi zveřejňují osobní údaje. Jde zejména o bezpečnost a prevenci proti zneužití osobních údajů. Velká část uživatelů ale údaje o sobě zveřejní, ostatní uživatelé si na to takřka zvyknou a pokud se objeví někdo, o kom není možné se téměř nic dozvědět, projeví se zvědavost a čitatel jeho příspěvků se snaží zjistit něco více o autorovi. Proto Athanasios Kokkos a Theodoros Tzouramanis použili pár již dobře známých kritérií, díky kterým můžeme rozpoznat alespoň pohlaví přispěvatele. Je však tento fakt a spoustu dalších (věk, jméno, zájmy,…) důležitý? Může pohlaví autora příspěvku změnit pohled ostatních uživatelů na jeho statusy a články?
Použité metody:
Použité metody sahají do studia kognitivní psychologie a počítačové ligvistiky.
Kognitivní psychologie
Studuje poznávací procesy v lidské psychice a chování, studuje tedy procesy díky nim člověk poznává sebe samotného a okolní svět.
Počítačová lingvistika
Obor na pomezí lingvistiky a informatiky. Zkoumá texty nebo mluvené slovo, které vyžaduje určitou míru porozumění přirozenému jazyku strojem.
Podle výzkumů v těchto dvou oblastech vyšlo najevo, že pohlaví se dá rozpoznat podle užitých slov a termínů. Muži tedy používají jiná slova než ženy. Je dobře možné vypozorovat, že tyto znaky se odvíjí od hlavních povahových znaků chrakteristických pro mužské a ženské pohlaví. Je jisté, že ženy jsou více emocionálně rozvinuty, snadněji se nechají unést city. V jejich textech se dají najít zdrobněliny. Jejich projev není tak „tvrdý“. Naproti tomu muži jednají v některých případech unáhleněji, jejich příspěvky jsou údernější, tzv. si neberou servítky.
Výzkum tedy pracoal s charakteristickými slovy pro ženy a muže, které vyhledával a následně prováděl určení pohlaví.
Průběh výzkumu:
Nejprve byl proveden test. Z Twitteru bylo vybráno 10 tisíc příspěvků, z nichž polovina patřila mužům a polovina ženám. Z LinkedInu to byl 1 tisíc příspěvků, taktéž rozdělených v poměru 50/50. Pro testování byl vybrán tzv. SVM klasifikátor, který se ukázal jako vhodný pro tento výzkum. Po provedení testu bylo náhodně vybráno 1000 příspěvků z Twitteru a 1000 z LinkedInu. Byly vyloučeny jednoslovné nebo nesmyslné příspěvky a odstraněny hashtagy.
Výsledky:
Twitter
U Twitteru bylo správně klasifikováno 922 příspěvků, úspěšnost se tedy rovná 92,2%.
LinkedIn
Zde bylo správně určeno 984 příspěvků, úspěšnost 98,4%. Vyšší úspěšnost se zde projevila díky delším článkům.
Závěr:
Díky tomuto výzkumu bylo dosaženo zatím nejlepších výsledků, co se určování pohlaví týče. Je dobrým startovacím místem pro další výzkumy, které by se mohly zabývat např. určováním věku a dalších osobních informací.
Do you need free YouTube Views?
ReplyDeleteDid you know you can get these AUTOMATICALLY AND TOTALLY FOR FREE by getting an account on Like 4 Like?