Kvalitní a jednotná metadata jsou v naší přítomnosti
přehlcené informacemi nejen nezbytností, ale také luxusním zbožím, které čím
dál větší počet autorů nechce konzumentům dopřát. Důvody, které je k tomu
vedou, mohou být různé: lenost, neorganizovanost, neznalost. Tento problém by
mohl řešit program automatické extrakce metadat.
Představení autorů
Autory odborné studie,
která se tímto tématem zabývá, jsou tři Afričané. Konkrétně se jedná o pány,
kteří se jmenují Bolanle Adefowoke Ojokoh, Olumide Sunday Adewale a Samuel
Oluwole Falaki.
Bolanle Adefowoke Ojokoh
je přednášejícím na The Federal University of Technology ve městě Akure, stát
Ondo, Nigérie. Ve své výzkumné činnosti spolupracuje s Nigeria Computer
Society (NCS), International Network of Women Engineers and Scientists (INWES),
Organization of Women in Science for the Developing World (OWSDW), Nigeria
Computer Society (NCS), International Network of Women Engineers and Scientists
(INWES) a s Organization of Women in Science for the Developing World (OWSDW).
Během svého akademického působení získal tituly Ph.D. (Computer Science, 2010),
M.Tech. (Computer Science, 2003) a B.Sc. (Hons) (Computer Science, 1998).
Adewale Olumide Sunday je
profesorem na The Federal University of Technology ve městě Akure, stát Ondo,
Nigérie. Mezi nejvýznamnější subjekty, se kterými navázal spolupráci, patří Institute
of Electrical and Electronic Engineers aAssociation of Computer Machineries. V obou
těchto organizacích je veden jako aktivní člen. Vystudoval The Federal
University of Technology, Akure, Nigeria, 1998 –2002, The Federal University of
Technology, Akure, Nigeria, 1995 – 1998 a Ogun State University (Now OOU),
Ago–Iwoye, Nigeria, 1986 – 1991.
Samuel Oluwole Falaki je
taktéž profesorem na The Federal University of Technology ve městě Akure, stát
Ondo, Nigérie. Dále je, popřípadě byl členem těchto organizací: Institute of
Electrical/Electronics Engineer, New York, Science Association of Nigeria,
Nigerian Society of Engineers, Association of Computing Machinery, Nigerian
Computer Society a Computer Professionals Registration Council of Nigeria
(FCPN). Vědomosti načerpal na školách Moscow Automobile and Road Building Institute, Leningrad Polytechnical Institute,
University of California, Los Angeles a University of Lagos.
Vymezení tématu
Text se zabývá možnostmi automatické extrakce
metadat pomocí kombinace klíčových slov a vzorových technik. V tomto článku
je však nejen popsán teoretický koncept této záležitosti, autoři se věnují
především praktickému řešení celého problému, který se v rámci možností
snaží rozvést a popsat do detailů.
Charakteristika textu
Ačkoliv se text zabývá konkrétním návrhem
řešení, nelze jednoznačně říci, že se jedná přímo o zprávu z prováděného
výzkumu. I přesto ale v úvodu odborného článku autoři shrnují základní
závěry předchozích studií, ze kterých vycházeli. Jedná se zejména o definici
pojmu „metadata,“ důraz je však kladen i na fakt, že jejich objev není zcela unikátní,
nýbrž je vylepšením předchozích verzí konceptu, který byl také úspěšně uveden
do chodu. Tento vhled do již provedených výzkumů v dané oblasti je svým
rozsahem zanedbatelný a zabývá se popisem konceptů, které navrhly kolegové
autorů. V závěru jsou poté vyzdviženy nedostatky dřívějších počínání –
zejména fakt, že většina metadat, které program ve studiích vyhledal, se
shodovala s názvem nebo je jménem autora. Dále převážná většina metadat
pocházela z první strany dokumentu, což autoři studie považují také za
výrazný nedostatek.
Text bych tedy charakterizovala jako
teoretickou úvahu s návrhem praktického řešení. To je zde poměrně dobře a
podrobně popsáno a odborníkovi, který se vyzná v některém z uvedených
programovacích jazyků, by mohlo posloužit i jako návod.
Výsledky
Výsledkem uvedené studie je především návrh
konkrétního řešení problému. To je rozpracováno do dvou základních tematických
okruhů: Document metadata extraction architecture a System implementation and
evaluation.
První z nich se zabývá, jak je patrné už
z jeho názvu, výstavbou a zejména strukturou konceptu, který by dovoloval
automaticky extrahovat metadata z dokumentů. Systém, který autoři
vyvinuli, se skládá ze šesti dílů a čtyř modulů, kterými jsou Converter,
Segmentation Engine, Parser a Browser. Na třinácti rovnicích je poté
matematicky rozepsán vztah a funkce těchto čtyř daných komponent.
Segmentace je poté jakýmsi vygenerováním
hierarchie logických oddílů z dokumentu, což zachycuje jeho strukturu. To
může být dle autorů provedeno třemi způsoby: pomocí řádkování, stylu a klíčových
slov.
Ve druhé části zpracování konkrétního řešení
se autoři zabývají otázkami implementace a vyhodnocení fungování systému.
Základním principem a stavebním kamenem jejich teorie je fakt, že extraktor
metadat obdrží nahraný dokument a převádí ho na text. Metadata se zobrazují
v podobě hypertextových odkazů, což umožňuje výzkumníkovi projít dokument
ještě jednou a v případě potřeby si také vyhledat odpovídající obsah.
Hodnocení celého systému
je poté provedeno podle čtyř kritérií, kterými jsou recall, precision, accuracy
a F-measure. Výpočet těchto kritérií je dále rozveden na čtyřech odpovídajících
vzorcích. Teoretická funkčnost tohoto systému se opírá o čtyři tabulky. Data,
která každá z nich obsahuje, odpovídají uvedeným kritériím a byla
sesbírána při testování na čtyřiceti textech.
V závěru práce autoři
shrnují poznatky výše uvedené a nastiňují směr, kterým by se měly ubírat
budoucí výzkumy.
Zhodnocení relevance pro aktuální kontext v České republice
Metadata jsou specifickým tématem, které je
nejen stále aktuální, ale takřka nadčasové. Každou vteřinu na světě vznikne
více informací, než je člověk schopen vstřebat za celý svůj život. Kolikrát se
vám již stalo, že jste se začetli do článku, který pro vás vlastně nebyl vůbec
relevantní? A nepoznali byste to mnohem dříve právě s pomocí vhodně
definovaných metadat? Metadata jsou pro naši společnost naprosto
nepostradatelná. Pokud se podaří vyvinout popisovaný nástroj v masovém
měřítku, bude to nejen velkým přínosem, ale také velikou úlevou. A to nejen pro
Českou republiku, ale pro celý současný informační svět 21. století.
Zdroje:
ADEFOWOKE OJOKOH, B., O. SUNDAY ADEWALE a S.
OLUWOLE FALAKI. Automated document metadata extraction.Journal of Information
Science. 2009-09-15, vol. 35, issue 5, s. 563-570. DOI:
10.1177/0165551509105195. Dostupné z: http://jis.sagepub.com/cgi/doi/10.1177/0165551509105195
Adewale Olumide Sunday (Basic Profile).
In: The Federal University of Technology [online]. 2014 [cit.
2014-04-20]. Dostupné z: http://csc.futa.edu.ng/profile.php?staffid=352
Falaki Samuel Oluwole
(Basic Profile). In: The Federal University of Technology [online].
2014 [cit. 2014-04-20]. Dostupné z: http://csc.futa.edu.ng/profile.php?staffid=351
OJOKOH Bolanle Adefowoke (Basic Profile).
In: The Federal University of Technology [online]. 2014 [cit.
2014-04-20]. Dostupné z: http://csc.futa.edu.ng/profile.php?staffid=358
No comments:
Post a Comment