Centrální mozek lidstva: Automatická extrakce metadat

Kvalitní a jednotná metadata jsou v naší přítomnosti přehlcené informacemi nejen nezbytností, ale také luxusním zbožím, které čím dál větší počet autorů nechce konzumentům dopřát. Důvody, které je k tomu vedou, mohou být různé: lenost, neorganizovanost, neznalost. Tento problém by mohl řešit program automatické extrakce metadat.

Představení autorů

Autory odborné studie, která se tímto tématem zabývá, jsou tři Afričané. Konkrétně se jedná o pány, kteří se jmenují Bolanle Adefowoke Ojokoh, Olumide Sunday Adewale a Samuel Oluwole Falaki.

Bolanle Adefowoke Ojokoh je přednášejícím na The Federal University of Technology ve městě Akure, stát Ondo, Nigérie. Ve své výzkumné činnosti spolupracuje s Nigeria Computer Society (NCS), International Network of Women Engineers and Scientists (INWES), Organization of Women in Science for the Developing World (OWSDW), Nigeria Computer Society (NCS), International Network of Women Engineers and Scientists (INWES) a s Organization of Women in Science for the Developing World (OWSDW). Během svého akademického působení získal tituly Ph.D. (Computer Science, 2010), M.Tech. (Computer Science, 2003) a B.Sc. (Hons) (Computer Science, 1998).

Adewale Olumide Sunday je profesorem na The Federal University of Technology ve městě Akure, stát Ondo, Nigérie. Mezi nejvýznamnější subjekty, se kterými navázal spolupráci, patří Institute of Electrical and Electronic Engineers aAssociation of Computer Machineries. V obou těchto organizacích je veden jako aktivní člen. Vystudoval The Federal University of Technology, Akure, Nigeria, 1998 –2002, The Federal University of Technology, Akure, Nigeria, 1995 – 1998 a Ogun State University (Now OOU), Ago–Iwoye, Nigeria, 1986 – 1991.

Samuel Oluwole Falaki je taktéž profesorem na The Federal University of Technology ve městě Akure, stát Ondo, Nigérie. Dále je, popřípadě byl členem těchto organizací: Institute of Electrical/Electronics Engineer, New York, Science Association of Nigeria, Nigerian Society of Engineers, Association of Computing Machinery, Nigerian Computer Society a Computer Professionals Registration Council of Nigeria (FCPN). Vědomosti načerpal na školách Moscow Automobile and Road Building Institute, Leningrad Polytechnical Institute, University of California, Los Angeles a University of Lagos.

Vymezení tématu

Text se zabývá možnostmi automatické extrakce metadat pomocí kombinace klíčových slov a vzorových technik. V tomto článku je však nejen popsán teoretický koncept této záležitosti, autoři se věnují především praktickému řešení celého problému, který se v rámci možností snaží rozvést a popsat do detailů.

Charakteristika textu

Ačkoliv se text zabývá konkrétním návrhem řešení, nelze jednoznačně říci, že se jedná přímo o zprávu z prováděného výzkumu. I přesto ale v úvodu odborného článku autoři shrnují základní závěry předchozích studií, ze kterých vycházeli. Jedná se zejména o definici pojmu „metadata,“ důraz je však kladen i na fakt, že jejich objev není zcela unikátní, nýbrž je vylepšením předchozích verzí konceptu, který byl také úspěšně uveden do chodu. Tento vhled do již provedených výzkumů v dané oblasti je svým rozsahem zanedbatelný a zabývá se popisem konceptů, které navrhly kolegové autorů. V závěru jsou poté vyzdviženy nedostatky dřívějších počínání – zejména fakt, že většina metadat, které program ve studiích vyhledal, se shodovala s názvem nebo je jménem autora. Dále převážná většina metadat pocházela z první strany dokumentu, což autoři studie považují také za výrazný nedostatek.

Text bych tedy charakterizovala jako teoretickou úvahu s návrhem praktického řešení. To je zde poměrně dobře a podrobně popsáno a odborníkovi, který se vyzná v některém z uvedených programovacích jazyků, by mohlo posloužit i jako návod.

Výsledky

Výsledkem uvedené studie je především návrh konkrétního řešení problému. To je rozpracováno do dvou základních tematických okruhů: Document metadata extraction architecture a System implementation and evaluation.

První z nich se zabývá, jak je patrné už z jeho názvu, výstavbou a zejména strukturou konceptu, který by dovoloval automaticky extrahovat metadata z dokumentů. Systém, který autoři vyvinuli, se skládá ze šesti dílů a čtyř modulů, kterými jsou Converter, Segmentation Engine, Parser a Browser. Na třinácti rovnicích je poté matematicky rozepsán vztah a funkce těchto čtyř daných komponent.

Segmentace je poté jakýmsi vygenerováním hierarchie logických oddílů z dokumentu, což zachycuje jeho strukturu. To může být dle autorů provedeno třemi způsoby: pomocí řádkování, stylu a klíčových slov.

Ve druhé části zpracování konkrétního řešení se autoři zabývají otázkami implementace a vyhodnocení fungování systému. Základním principem a stavebním kamenem jejich teorie je fakt, že extraktor metadat obdrží nahraný dokument a převádí ho na text. Metadata se zobrazují v podobě hypertextových odkazů, což umožňuje výzkumníkovi projít dokument ještě jednou a v případě potřeby si také vyhledat odpovídající obsah.

Hodnocení celého systému je poté provedeno podle čtyř kritérií, kterými jsou recall, precision, accuracy a F-measure. Výpočet těchto kritérií je dále rozveden na čtyřech odpovídajících vzorcích. Teoretická funkčnost tohoto systému se opírá o čtyři tabulky. Data, která každá z nich obsahuje, odpovídají uvedeným kritériím a byla sesbírána při testování na čtyřiceti textech.

V závěru práce autoři shrnují poznatky výše uvedené a nastiňují směr, kterým by se měly ubírat budoucí výzkumy.

Zhodnocení relevance pro aktuální kontext v České republice

Metadata jsou specifickým tématem, které je nejen stále aktuální, ale takřka nadčasové. Každou vteřinu na světě vznikne více informací, než je člověk schopen vstřebat za celý svůj život. Kolikrát se vám již stalo, že jste se začetli do článku, který pro vás vlastně nebyl vůbec relevantní? A nepoznali byste to mnohem dříve právě s pomocí vhodně definovaných metadat? Metadata jsou pro naši společnost naprosto nepostradatelná. Pokud se podaří vyvinout popisovaný nástroj v masovém měřítku, bude to nejen velkým přínosem, ale také velikou úlevou. A to nejen pro Českou republiku, ale pro celý současný informační svět 21. století.

Zdroje:

ADEFOWOKE OJOKOH, B., O. SUNDAY ADEWALE a S. OLUWOLE FALAKI. Automated document metadata extraction.Journal of Information Science. 2009-09-15, vol. 35, issue 5, s. 563-570. DOI: 10.1177/0165551509105195. Dostupné z: http://jis.sagepub.com/cgi/doi/10.1177/0165551509105195

Adewale Olumide Sunday (Basic Profile). In: The Federal University of Technology [online]. 2014 [cit. 2014-04-20]. Dostupné z: http://csc.futa.edu.ng/profile.php?staffid=352

Falaki Samuel Oluwole (Basic Profile). In: The Federal University of Technology [online]. 2014 [cit. 2014-04-20]. Dostupné z: http://csc.futa.edu.ng/profile.php?staffid=351

OJOKOH Bolanle Adefowoke (Basic Profile). In: The Federal University of Technology [online]. 2014 [cit. 2014-04-20]. Dostupné z: http://csc.futa.edu.ng/profile.php?staffid=358

Centrální mozek lidstva

Monday, April 21, 2014

Automatická extrakce metadat

Představení autorů

Vymezení tématu

Charakteristika textu

Výsledky

Zhodnocení relevance pro aktuální kontext v České republice

Zdroje:

No comments:

Post a Comment

Chapadla

Noshledi

Zpětné zrcátko