Hodnocení AV ČR 2015–2019 očima scientometrie

 

Jakmile se velké akademické hodnocení stalo aktuálním tématem, bylo zřejmé, že nepůjde o nic nenáročného. Přípravy začaly již půl roku před jeho začátkem, v polovině roku 2019. Bylo potřeba se naučit programovat, aby bylo možné zpracovat data v řádech milionů záznamů pro výpočty indikátorů. K tomuto účelu byl zvolen jazyk Python, který je k takovým úkonům uzpůsobený a zároveň uživatelsky přívětivý pro člověka, který není programátor. V hodnocení se sice žádná taková velká data neobjevila a pro kvartilové členění v oborech podle počtu citací bylo možné obstarat hodnoty i ručně, to by však trvalo přibližně měsíc. Tvorbou vlastních skriptů a automatizací bylo možné tento proces zkrátit na týden. Pro přibližnou představu: kvartilové řazení podle počtu citací nabývalo 5 hodnot (počet dokumentů, maximální počet citací, počet citací nutný pro zařazení do 1. decilu, 1. kvartilu a medián), a to za pětileté období, pro přibližně 250 oborů a tři typy dokumentů. To činí zhruba 18 750 hodnot.

U časopiseckého indikátoru je stahování dat z JCR daleko přívětivější. Sice trvá také týden, ale není potřeba tak silné automatizace, datový tok je velmi nízký a vstupní soubor hodnot obsahoval pouze 68 224 oborově řazených časopisů. V tomto případě bylo možné výpočty pohodlně realizovat v Excelu, i když ono „pohodlí“ vyžadovalo nastavení výpočtů, které trvaly přibližně 40–⁠45 minut pro každý rok. Výpočty probíhaly na autorově domácí, herní PC sestavě, nikoliv na kancelářském počítači. Některé komponenty počítače ani nevydržely do konce hodnocení a musely být zakoupeny nové – Excel není optimalizovaný pro tak komplexní výpočetní úlohy. S vhodným skriptem v Pythonu by sice bylo možné zkrátit čas i na 5 minut, ale tvorba takového skriptu by byla velmi náročná.

Výpočty indikátorů byly konzultovány s osobami odpovědnými za koordinaci hodnocení, aby byla jistota, že je vše v pořádku. Na podzim 2019 byl proveden pilotní výpočet všech indikátorů, paralelně k tomu probíhalo také čištění dat v databázích ASEP a Web of Science.

V rámci příprav došlo ke kompletnímu mapování afilací všech ústavů, které detekovalo jakoukoliv uznatelnou formu afilace –⁠ ta vyžadovala příslušnost k „Czech“, příslušnost k AV ČR a příslušnost k ústavu AV ČR. V některých případech nebyl ústav zmíněn, ale byla k dispozici přesná adresa, bylo tedy možné jednoznačně určit, že v daném objektu sídlí jen a pouze daný ústav. Pro každý ústav byly vytvořeny vyhledávací řetězce (logická funkce či alertní dotaz), z nichž některé dokázaly detekovat až 718 různých forem zápisu indikujících příslušnost článku k ústavu. Pro bližší představu: bylo detekováno 18 základních forem zápisu příslušnosti k Akademii věd, které měly ošetřeny všechny myslitelné koncovky. Tyto vyhledávací řetězce jsou již standardně vytvářeny pro vyhledávání ve Web of Science, v tomto případě byly přeloženy do Excelu, aby bylo umožněno strojové vyhledávání. V podstatě tak byl v Excelu vytvořen algoritmus pro textovou analýzu (a kdo se pokoušel o detekování afilací, ví, v jak obtížně zpracovatelné formě je WoS poskytuje). Ten sice nebyl dokonalý, ale podařilo se vyčlenit chybové a potenciálně chybové detekce pro manuální kontrolu. Několik desítek záznamů bylo třeba při samotném hodnocení procházet ručně. V oblasti detekce afilací bylo zapotřebí rozlišit i oblíbené zkracování názvů ústavů. V minulosti se totiž – ať záměrně či strojovou chybou – zkracovaly názvy tak, že se některé ústavy staly strojově zaměnitelnými. Tato záměna se týká například ústavu fyzikálního, jaderné fyziky, fyziky materiálů, fyziky plazmatu, fyziky atmosféry, fyzikální chemie Jaroslava Heyrovského, fyziologického, a dokonce i Filosofického ústavu či Ústavu chemických procesů. Zkratka „phys“ je velmi záludná, ale po vynaložení dostatečného úsilí řešitelná.

Půl roku příprav tedy zahrnovalo zvládnutí nového programovacího jazyka, kompletní testování šablon pro výpočty indikátorů, aktualizace dotazů prohledávajících afilace a jejich implementace pro strojovou detekci. Všechny testy se vydařily na první pokus, ale samotné hodnocení bylo teprve na začátku.

V lednu 2020 tedy začalo získávání dat z databáze Web of Science, potřebných k výpočtům indikátorů. Zpočátku se zdálo být vše v naprostém pořádku. Data byla stažena podle dlouho avizovaného plánu, výpočty probíhaly bezchybně jako na podzim. První chyba vznikla kvůli neoznačeným duplicitním záznamům z ASEP. Všechny výpočty, které se týkaly Národohospodářského ústavu, byly chybné. Naštěstí další oči nesrovnalost odhalily, a tak bylo možné provést opravu před odevzdáním ústavům.

Závažný problém však byl objeven vědci samotnými. Při výpočtu jednoho časopiseckého indikátoru uniklo pozornosti omezení 10 000 položek filtru v Excelu a pro jeden obor došlo k chybnému přiřazení hodnot. Některé časopisy, které jsou staženy z WoS, mají totiž místo ISSN uvedeno „****-****“. Hvězdičky jakožto zástupné znaky jsou nevyzpytatelné a páchají v systémech velké škody. A právě tyto hvězdičky už se do filtru nevešly. Výsledkem bylo cca 40 časopisů se špatným zařazením do kvartilu. Nepomohlo ani průběžné kontrolování opakovaným stažením dat a přepočítáním náhodného vzorku 10 % časopisů. Z celkového počtu přibližně 58 000 časopisů se jedná o statistickou chybu 0,0006 procenta, tedy objektivně zanedbatelnou chybu jenže statistickou chybu celku nelze aplikovat na konkrétního jednotlivce. Navzdory upozornění, že výstupy pro peer-review hodnocení měly být vybírány na základě jejich vědecké hodnoty, nikoliv čistě dle hodnot bibliometrických indikátorů, u několika jednotek výstupů se tomu tak stalo. Indikátory byly ihned opraveny, ale výstupy už byly vybrány.

V březnu 2020 vypuklo šílenství Covidu, které způsobilo zpoždění na vstupech, ale kupodivu se dařilo minimalizovat zpoždění dodání výstupů. Tímto byla ukončena část výpočtů indikátorů. Po celou dobu probíhaly průběžné kontroly, které zajišťovaly správnost mechanismů výpočtů. Poté, co hodnotitelé provedli vypořádání peer-review u přibližně 7 500 nahlášených výstupů, bylo zapotřebí výsledné známky a hodnoty indikátorů zapracovat do prezentovatelné grafické podoby. Ta však měla pouze hrubé obrysy a kostru. Za trpělivé spolupráce Komise pro hodnocení byly tyto zprávy nakonec vyladěny do funkční grafické podoby. Původně mělo být vygenerováno přibližně 400 PDF souborů a 400 Excelových tabulek. Ladění si však vyžádalo generování přibližně 6 000 PDF souborů a 1 200 tabulek. Došlo dokonce na omezení Excelu jako takového a pro splnění všech požadavků bylo třeba se za běhu naučit další programovací jazyk, Visual Basic, který dokázal některá omezení překonat. Celý proces od stahování dat přes výpočty až po tvorbu zpráv byl velmi redundantní. Tato redundance však byla žádoucí pro zajištění minimalizace chyb.

V prosinci 2020 byly odevzdány poslední vyhotovené zprávy. Doteď se stává, že přicházejí doplňkové dotazy či žádosti o nové doplňkové tabulky, ale to jsou již jen zanedbatelné dozvuky. Samotná bibliometrická část hodnocení byl rok a půl trvající proces – proces náročný, ale proveditelný.

Závěrem ještě osobní pohled autora článku:

Čest všem kolegyním a kolegům z oddělení, že jsme společně tuto dobu ustáli. Nařízený home-office režim některým z nás nakonec ještě výrazně pomohl. Práce s daty je možná i z domova, přinášela jisté pohodlí a absenci každodenního dvouhodinového dojíždění do práce a zpět. Coby student 2. ročníku magisterského studia jsem ušetřil další čas online výukou. Nápor hodnocení byl přesto příliš velký a státnice bylo třeba přesunout z červnového na zářijový termín. V době, kdy jsem měl v plánu zpracovávat data pro diplomovou práci, jsem totiž vyřizoval smršť dotazů jednotlivých ústavů a jejich pracovníků. Řádově to byly desítky e-mailů denně s žádostmi o kontrolu či s drobnými výtkami k výsledkům; 15 hodin denně včetně víkendů jsem vypořádával kontroly, aby nebyl překročen termín. Nakonec se mi podařilo závěr studia úspěšně stihnout.

Nyní, když jsem jedním hodnocením prošel, naučil se nové věci a získal zajímavou zkušenost, se vlastně těším na svou práci v roce 2025 (každý rok bych to takto ale určitě dělat nechtěl).

 

 

 

Šlosar, David Jiří. Hodnocení AV ČR 2015–2019 očima scientometrie. Informace [online]. , č. [cit. 2024-04-18]. ISSN 1805-2800. Dostupné z: https://www.lib.cas.cz/casopis_informace/hodnoceni-av-cr-2015-2019-ocima-scientometrie/

Tisknout stránku