Ocena dorobku i reputacji naukowej indywidualnych uczonych i zespołów badawczych


Andrzej Ziabicki

     Przedyskutowano różne aspekty oceniania dorobku i reputacji naukowej uczonych. Wyodrębniono oceny doraźne i historyczne, oceny działalności o zasięgu lokalnym i uniwersalnym, a także podstawowe metody oceniania oparte na opiniach opisowych i wskaźnikach ilościowych. Ilościowy obraz działalności uczonego (zespołu) przedstawiono jako wektor w N-wymiarowej przestrzeni wskaźników dorobku i reputacji. Zaproponowano optymalną procedurę oceniania wzorowaną na procesie sądowym.

1. Wstęp

     Ocena poziomu i wyników badań jest nieodzownym elementem działalności naukowej. Awans naukowy, rozdział środków finansowych na badania, rozstrzyganie konkursów na stypendia i nagrody naukowe, wymagają oceniania dorobku i reputacji naukowej indywidualnych  uczonych i zespołów badawczych. Porównywanie i wartościowanie dorobku naukowego instytucji, a także większych zbiorowości (np. krajów) jest przedmiotem zainteresowania socjologii, historii nauki i cywilizacji.
     Tradycyjne metody oceny dorobku naukowego opierały się na jakościowych, opisowych opiniach specjalistów - uczonych pracujących w tej samej dziedzinie, co oceniany. W ostatnich  dekadach wielką popularność zyskały metody ilościowe  porównujące wskaźniki liczbowe charakteryzujące osiągnięcia i kwalifikacje ocenianych. Popularność metod ilościowych wynika z rozczarowania subiektywnością, niekompetencją, lub nierzetelnością  ocen jakościowych, a także złudzenia, że ocena ilościowa ma charakter bezwzględny i obiektywny. Motywacją podejmowania ocen ilościowych może być również asekuranctwo: ostateczna ocena ma wynikać automatycznie z odpowiednio przetworzonych wskaźników, a nie z odpowiedzialnej, subiektywnej decyzji  oceniającego (oceniających).

2. Czy możliwa jest obiektywna ocena dorobku naukowego?

     Pytanie o obiektywność oceny można w równym stopniu odnieść do wszelkich rodzajów pracy twórczej : naukowej, arytystycznej, wynalazczej itp. Definiując pracę twórczą jako proces prowadzący do powstawania dzieł nowych i oryginalnych, wykluczając, niewątpliwie potrzebne lecz pozbawione oryginalności, prace kompilacyjne, porządkujące, czy obliczeniowe, odpowiedź jest z samej definicji negatywna. Obiektywna i  jednoznaczna miara wartości  pracy twórczej  nie istnieje i nie może istnieć. Nie znaczy to, że nie należy tworzyć umownych systemów oceniania dorobku naukowego (artystycznego, wynalazczego) do celów praktycznych.Nie można jednak zapominać o dowolności i subiektywności  takich ocen. 
Należy wyodrębić dwa typy ocen różniące się zasadniczo metodyką i zastosowaniem. Oceny doraźne, formułowane współcześnie do ocenianego dzieła są instrumentem polityki edukacyjnej i naukowej. Oceny takie obarczone są błędami związanymi z panującą modą, czynnikami politycznymi itp. Wolne od takich zniekształceń są oceny historyczne, tworzone z perspektywy dziesiątków lat (często po śmierci twórców), przez ludzi niezwiązanych z ocenianymi twórcami. Im bardziej oddalone (w czasie i przestrzeni) jest miejsce powstawania oceny od miejsca działania ocenianego twórcy (dzieła), tym więcej szans na wiarygodność oceny. Historia nauki zna przykłady ocen doraźnych diametralnie różniących się od późniejszych ocen historycznych. Twórcy zimnej syntezy jądrowej w latach siedemdziesiątych, czy też (opisanego przez De Sollę Price’a) odkrycia nieistniejących promieni “N” [1] cieszyli się wysoką (doraźną) oceną w swoim środowisku. Późniejsza weryfikacja tych odkryć doprowadziła do zdecydowanie negatywnej oceny historycznej. Z drugiej strony, rewolucyjne odkrycia naukowe zmieniające sposób pojmowania świata  (mechanika Newtona, termodynamika statystyczna Gibbsa, teoria kwantów Plancka, czy teoria względności Einsteina) nie zawsze spotykały się z uznaniem i aprobatą wpółczesnych i nie zawsze uzyskiwały wysokie oceny doraźne. Ukształtowane później pełniejsze oceny (historyczne) oddały sprawiedliwość uczonym i ich dziełom. Interesujące przykłady cytowań fizyków w XVIII wieku podał na tej konferencji A.K. Wróblewski [2].
     Ocena historyczna opiera odnosi wartość dzieła naukowego (i wkład twórczy autora) do wpływu, jaki to dzieło wywar
'b3o na rozwój nauki, kultury, a także ekonomiczny i cywilizacyjny rozwój społeczeństwa. Warunkiem koniecznym takiego wpływu (a więc i wysokiej oceny historycznej) jest sposób rozpowszechnienia wyników. Genialne dzieło, nieopublikowane, opublikowane w niedostępnym źródle lub w mało znanym języku, jest  dla świata stracone. Tłumaczy to znaczenie właściwego upowszechnienia wyników badań.

3. Ocena doraźna. Profil oceny

     W niniejszym artykule ograniczę się do analizy doraźnych ocen indywidualnych uczonych i niewielkich zespołów badawczych. Oceny takie służą różnym celom. Ich specyfika może być wynikiem świadomej decyzji dostosowującej założenia oceny do określonych celów. Inny musi być kształt oceny dydaktyka, inny organizatora nauki, czy badacza. Profil oceny (tzn. decydujące elementy i kryteria oceny) ma poważne konsekwencje praktyczne. Środowisko naukowe dostosowuje się do obowiązującego systemu, co może prowadzić do nieprzewidzianych i niepożądanych zachowań. W Polsce, awanse pracowników naukowo-dydaktycznych praktycznie nie zależą od poziomu prowadzenia zajęć, zaangażowania w twórcze doskonalenie metod nauczania, czy poziomu absolwentów, lecz od liczby (czy objętości) opublikowanych prac, często o znikomej wartości poznawczej. Konsekwencją tego jest niechęć do twórczego zaangażowania się w działalność dydaktyczną i niski poziom kształcenia. Z punktu widzenia kariery naukowej “nie opłaca się” głęboko angażować w działalność dydaktyczną. Wprowadzenie w latach dziewięćdziesiątych na Węgrzech preferencji dla naukowców publikujących w czasopismach zagranicznych zagroziło upadkiem czasopism krajowych i skierowało strumień publikacji do czasopism o niezbyt wysokim poziomie, ale publikowanych poza granicami kraju. Proste i przekonujące przykłady sprzężenia systemu ocen z ich konsekwencjami przekonująco omówił na tej konferencji L. Piela [3].

4. Tematyka badawcza i kryteria oceny

     Praktyczne systemy ocen zależą od charakteru tematyki badawczej. Porównując różne dyscypliny wiedzy można napotkać istotne różnice nie tyle pomiędzy dyscyplinami, co pomiędzy badaniami o różnym zasięgu. Inaczej kształtują się kryteria oceny badań o zasięgu  lokalnym i badań o zasięgu uniwersalnym (światowym). Podział ten nie ma charakteru pejoratywnego. O lokalności lub uniwersalności badań decyduje zasięg uprawiania danej tematyki i odbioru wyników. Tematyka lokalna dotyczy określonego regionu, uprawiana jest i przeznaczona głównie dla uczonych tego regionu. Wyniki publikowane są w wydawnictwach regionalnych, w języku lokalnym, a ich odbiór poza regionem ma znaczenie marginalne. W odniesieniu do takich badań, kryteria oceny kształtowane są przez lokalne środowisko naukowe, opierają się na lokalnych wydawnictwach, lokalnych bazach danych i lokalnych autorytetach. W przeciwieństwie do badań lokalnych, badania uniwersalne uprawiane są  w wielu regionach, wyniki publikowane w różnych językach i przeznaczone są dla różnych środowisk naukowych. Odniesieniem dla takich badań jest nauka światowa, a kryteria oceny opierają się na publikacjach w językach uznanych za międzynarodowe i cytowaniu w międzynarodowych bazach danych.
     Wydaje się, że wszystkie badania wchodzące w zakres matematyki, logiki, fizyki, chemii (i wielu innych dyscyplin) obejmują problematykę wyłącznie uniwersalną, dla której odniesieniem jest nauka światowa. Niektóre dyscypliny obejmują zarówno badania o zasięgu lokalnym, jak i uniwersalnym. Obok uniwersalnych badań z zakresu historii starożytnej, czy nowożytnej historii świata, można wobrazić sobie badania historii małych regionów (wsi, miast), uprawiane lokalnie przez niewielkie środowisko badaczy. Badania z zakresu klasycznej literatury greckiej i łacińskiej, czy archeologii śródziemnomorskiej mają charakter uniwersalny, podczas gdy historia literatury polskiej czy archeologia Biskupina, w niewielkim stopniu  wykraczają zasięgiem poza region (Polskę). Dla zagranicznych polonistów (archeologów Biskupina) odniesieniem dla oceny ich prac jest regionalna (polska) literatura naukowa.

5. Metody oceny

     Jakościowe metody oceny wykorzystują opisowe opinie lub recenzje ekspertów (peer reviews) często oparte na odpowiednio sformułowanym kwestionariuszu. Opinie specjalistów o dorobku naukowym są zawsze subiektywne i mogą znacznie różnić się od siebie. W grę wchodzi wiedza, zainteresowania naukowe recenzenta, a nie rzadko również czynniki pozamerytoryczne, takie jak konflikt interesów.
Metody ilościowe opierają się na jednym (lub wielu) wskaźnikach liczbowych zdefiniowanych przez oceniającego. Subiektywność takich ocen przejawia się w wyborze i definicji decydującego wskaźnika, a w przypadku oceny wielowskaźnikowej, również w określeniu wagi różnych wskaźników. Arbitralność ocen ilościowych może wynikać z nieostrej definicji niektórych wskaźników, takich jak “liczba monografii naukowych”, czy “liczba artykułów opublikowanych w liczących się czasopismach o obiegu między-narodowym”. W latach siedemdziesiątych, przy rozliczaniu tzw. “badawczego problemu węzłowego 03.1.2” koordynator żądał, aby każdy zespół legitymował się wydaną “monografią naukową”. W wyniku tego przedstawiano jako monografie artykuły kompilacyjne wydawane na prawach rękopisu przez wewnętrzne wydawnictwa uczelni i instytucji badawczych.
Wierną miarą  “jakości publikacji” nie jest wcale (jak przyjęto w jednym z systemów ocen KBN) występowanie czasopisma na tzw. “liście filadelfijskiej”. W bazie danych  filadelfijskiego Institute of Scientific Information znajdują się z reguły wszystkie naukowe i techniczne czasopisma amerykańskie (niektóre o bardzo niskim poziomie) i (nie zawsze konskewentnie) wybrane czasopisma zagraniczne. Niezbyt dobrą miarą jest też tzw. “impact factor” [4], czyli częstość cytowań artykułów z danego czasopisma. Słabości tego wskaźnika dyskutowało wielu autorów, np. [5,6]. O tym, które czasopisma cieszą się renomą i mają  szeroki zasięg wiedzą specjaliści w każdej dziedzinie i do oceny powinna być miarodajna ich ocena jako ekspertów.

6. Metody jakościowe

     Zaletą oceny jakościowej jest możliwość indywidualnego podejścia do ocenianego podmiotu. Tylko opisowa recenzja umożliwia  ocenę tak niewymiernych cech, jak wartość i znaczenie dorobku naukowego.Wady związane są z subiektywnością, niekompetencją, lub nierzetelnością opinii. Trudności te można częściowo usunąć przez staranne przygotowanie kwestionariusza oceny. Kwestionariusz pełni rolę podobną do wyboru decydujących wskaźników w ocenie ilościowej. Pytanie “czy X wniósł poważny wkład do nauki? Oceń w skali od 1 do 5” nie daje żadnej informacji o dorobku uczonego. Zastąpienie tego pytania formą “na czym polega oryginalność i wartość  pracy X i jak się ona ma do osiągnięć innych autorów; podaj przykłady z literatury światowej)” pozwala zorientować się czy recenzent zna przedmiot, a równocześnie uniemożliwia ocenę wymijającą. Poźądane jest powierzenie recenzji kilku specjalistom, krytyczne  analizowanie ich odpowiedzi (nie uśrednianie punktów!), a także dyskusja pomiędzy recenzentami i zespołem oceniającym. Problemom opiniowania uczonych, wyników i projektów badań naukowych  (“peer review”) poświęcono wiele opracowań [7]. Szczególnie dużą wagę przywiązują do tych zagadnień amerykańskie agencje rządowe rozdzielające fundusze na badania. Sposoby oceniania projektów i instytucji badawczych przez National Science Foundation omówił szczegółowo Hugh van Horn [8]. Badania nad metodyką oceniania prowadzi National Institute of  Health, US Department of Energy (DOE), a także instytucje wojskowe, takie jak Office of Naval Research (ONR) który publikuje w internecie obszerne materiały [9].

7. Metody ilościowe

     Ilościowe metody oceny wykorzystują jeden, podstawowy wskaźnik liczbowy, lub zbiór wskaźników sumowanych z odpowiednimi wagami statystycznymi. Rolę wskaźników dorobku badawczego może spełniać np. liczba publikacji (oddzielnie prac oryginalnyh, opublikowanych w światowych czasopismach o wysokiej renomie, prac o zasięgu lokalnym,  artykułów przeglądowych, popularno-naukowych itp).  Dorobek dydaktyczny charakteryzuje liczba wydanych podręczników, skryptów,  wykłady, liczba wypromowanych dyplomantów itp. O reputacji naukowej uczonego świadczą nagrody naukowe, stopnie honorowe, udział  w komitetach i władzach organizacji naukowych, liczba cytowań, a także  zaproszenia do wygłaszania referatów i wykładów plenarnych na prestiżowych konferencjach naukowych.
     Ocena jednowskaźnikowa nie daje wiarygodnej informacji o dorobku naukowym uczonego. Wybór decydującego wskaźnika jest w znacznym stopniu dowolny, a uzyskany obraz jest powierzchowny i jednostronny. Zdecydowanie lepsze są systemy wielowskaźnikowe (por. np. [10]). Zbiór dużej (im większej tym lepiej) liczby dobrze określonych wskaźników daje stosunkowo obiektywny obraz dorobku i reputacji. Obraz taki sugeruje profil działalności uczonego (zespołu), uwidacznia jego silne i słabe strony. Jako wieloletni recenzent, członek komisji oceniających i konkursowych przywiązuję szczególną uwagę do wskaźników o wartości zerowej, czyli osiągnięć, którymi oceniany powinien, lecz nie może się wylegitymować. Od pracownika badawczego zajmującego się badaniami podstawowymi nie oczekuję dorobku konstrukcyjnego, czy patentów, natomiast całkowity brak oryginalnych publikacji w poważnych czasopismach specjalistycznych sugeruje ocenę negatywną, niezależnie od tego ile autor wygłosił popularnych wykładów, napisał artykułów przeglądowych, czy odwiedził konferencji. Wątpliwy jest dorobek pracownika przemysłowego laboratorium badawczego, który nie może wylegitymować się ani patentami, ani oryginalnymi konstrukcjami czy technologiami. Żadna liczba artykułów w czasopismach naukowo-technicznych (krajowych lub zagranicznych), czy odczytów nie skompensuje braku osiągnięć podstawowych dla twórczej działalności inżynierskiej. Trudno pozytywnie zaopiniować wniosek o nadanie tytułu profesora, jeśli kandydat nie może wykazać się poważnymi publikacjami naukowymi, cytowanymi przez specjalistów w danej dziedzinie, poważnymi wykładami i wychowaniem pewnej liczby uczniów (np. doktorów).
     Ocena globalna – liczba stanowiąca wynik przetworzenia wybranych wskaźników ilościowych (np. suma wskaźników ważona według przyjętego umownie taryfikatora) jest zawsze arbitralna. Trudno odpowiedzieć na pytanie, czy uczony, który opublikował 10 oryginalnych prac badawczych i wygłosił 1 wykład powinien być oceniony wyżej niż autor 1 publikacji i 10 wykładów, lub uczony legitymujący się 3 publikacjami i 3 wykładami.
Niezależnie od swojej arbitralności, oceny globalne stanowią popularne narzędzie polityki naukowej i edukacyjnej.

8. Aspekty matematyczne.
Przestrzeń wskaźników dorobku i reputacji (przestrzeń WDR)

     W ujęciu matematycznym, obraz osiągnięć i reputacji oceny uczonego oparty na wskażnikach ilościowych  można rozpatrywać jako wektor X w N-wymiarowej przestrzeni dorobku i reputacji  [5]. Kierunki w przestrzeni WDR (składowe wektora X) odpowiadają  poszczególnym wskaźnikom, a N jest całkowitą liczbą analizowanych wskaźników

 Wzór 1 Przestrzeń wskaźników WDR(1)


     Przestrzeń WDR jest liniowa,  lecz nie ma jednoznacznie określonej  metryki. Znaczy to, że każdy wskaźnik (np. liczbę opublikowanych prac, liczbę cytowań itp) można sumować w czasie (dla tego samego uczonego), lub w zespole uczonych, przy czym to ostatnie sumowanie ma charakter teoriomnogościowy – publikację  sygnowaną przez 3 członków zespołu liczy się w dorobku zespołu jako 1 pozycję, nawet jeśli liczona ona była trzykrotnie w dorobku indywidualnym każdego z autorów. Problem liczenia prac zbiorowych nie jest wcale trywialny, jeśli weźmiemy pod uwagę, że w pewnych dziedzinach jedno doniesienie naukowe może być podpisane przez znaczną liczbę autorów. Według danych Institute of Scientific Information, w r. 1994  ukazało się 37 artykułów biomedycznych sygnowanych przez ponad 100 (sic!) autorów [11].
     Bez wprowadzenia do przestrzeni WDR metryki nie można porównywać ze sobą różnych wskaźników, a więc różnych aspektów działalności badawczej, organizacyjnej i dydaktycznej a także formułować ocen globalnych. Metrykę przestrzeni charakteryzuje  tensor metryczny A . Długość wektora X (globalną miarę dorobku i reputacji) określa wyrażenie

Wzór 2 Długość wektora X(2)

     Wybór metryki przestrzeni WDR jest całkowicie arbitralny. Nie ma żadnych racjonalnych przesłanek pozwalających przewidywać składowe tensora  A . Równocześnie, jednak, wybór metryki w zasadniczy sposób wpływa na wyniki oceny i pozwala w znacznym stopniu nimi sterować.
     Często stosowanym (i równie dowolnym) sposobem oceny globalnej jest sumowanie składowych wektora X z wagami statystycznymi określonymi w przyjętym taryfikatorze (system punktowy). Taryfikator (wagi statystyczne  przypisywane poszczególnym wskaźnikom) spełnia tę samą rolę co metryka przestrzeni WDR

Wzór 3 Suma składowych wektora X z wagami statystycznymi(3)

     Jeżeli wagi statystyczne Wi w taryfikatorze utożsamić z normalnymi (diagonalnymi) składowymi tensora metrycznego A

Wzór 4(4)

to ocena ważona”, R , jest zbliżona do długości wektora S.
     Aby zilustrować wpływ metryki (lub taryfikatora) na ocenę globalną, rozpatrzmy prosty przykład zawierający tylko dwa wskaźniki (N=2): i=1: liczba publikacji, i=2: liczba wykładów. Sylwetki trzech uczonych charakteryzują następujące wektory X

 Wzór 5 Przykład wpływu metryki na ocenę globalną(5)

     Obraz indywidualnego dorobku uczonych przedstawiają na rys. 1. punkty oznaczone kołami. Bez wprowadzenia metryki, współrzędne wektorów X nie pozwalają określić oceny globalnej, lecz dostarczają informacji o charakterze dorobku.  Profil uczonego “1”, który legitymuje się 10 publikacjami i 1 wykładem sugeruje działalność badawczą. Uczony “2” jest aktywnym dydaktykiem (1 publikacja, 10 wykładów), a działalność uczonego “3” jest podzielona pomiędzy badania i dydaktykę. Charakterystyką dorobku zespołu składającego się z uczonych “1” i “3”, jest prosta sumą wektorów odpowiadających członkom zespołu. Sumowanie takie stosuje się jednak wyłącznie wówczas, gdy dorobek zespołu nie zawiera wspólnych osiągnięć poszczególnych członków zespołu

Wzór 6(6)

Ewentualne wspólne publikacje (wykłady) z osobami, nie wchodzącymi w skład zespołu nie zmieniają zasady sumowania. Charakterystykę zespołu (“1”+”3”) o rozłącznym  dorobku (wzór 6) przedstawia na rys. 1 punkt oznaczony symbolem trójkąta.

Obraz działalności uczonych i zespołów w przestrzeni WDR pozbawionej metryki

Rys. 1. Obraz działalności uczonych i zespołów w przestrzeni WDR pozbawionej metryki. Koła – charakterystyka indywidualnych uczonych, trójkąt – dwuosobowy zespół uczonych “1”+“3” nie posiadających wspólnych osiągnięć, kwadrat – zespół  “1”+“3” posiadający
2 wspólne publikacje i 1 wspólnie opracowany wykład

     Jeżeli uczeni “1” i “3” legitymują się wspólnymi osiągnięciami (np. 2 wspólnymi publikacjami i 1 wspólnie opracowanym wykładem; wspólne składowe oznaczam gwiazdką) to dorobek zespołu otrzymuje się przez sumowanie teoriomnogościowe Wspólne publikacje i wspólne wykłady wchodzą do sumy tylko raz

Wzór 7 Sumowanie teoriomnogościowe(7)

     Charakterystykę zespołu (“1” + “3”) o wspólnym dorobku przedstawia na rys. 1 punkt oznaczony kwadratem. 
Wprowadźmy teraz do przestrzeni WDR dowolny tensor metryczny, np. w postaci

Wzór 8 Dowolny tensor metryczny w przestrzeni WDR(8)

     Wybrana metryka wysoko ceni działalność badawczą przypisując znacznie większą wagę publikacjom niż wykładom

Obraz działalności trzech uczonych w przestrzeni WDR z metryką

Rys. 2. Obraz działalności trzech uczonych w przestrzeni WDR z metryką (8)


     Wybór metryki przejawia się w rozciągnięciu osi współrzędnych w stosunku Wzór  (Rys. 2.). Długości tych wektorów na rys. 2.opisują oceny globalne. Przy założonej metryce (8), najwyższą ocenę globalną uzyskuje uczony “1”, najniższą uczony “3”

S(“1”) > S(“2”) > S(“3”)       (9)

     Wybierzmy teraz inną metrykę, np.

Wzór 10 Metryka(10)

która faworyzuje działalność dydaktyczną (wyżej cenione wykłady niż publikacje)

Obraz działalności trzech uczonych w przestrzeni WDR z metryką

Rys. 3. Obraz działalności trzech uczonych w przestrzeni WDR z metryką (10).

W przestrzeni z nową metryką (rys. 3), długości wektorów i globalne oceny są zupełnie inne niż poprzednio:

S(“2”) > Ss24 (“1”) > S(“3”)         (11)

Podobne wyniki otrzymuje się stosując uproszczoną metodę wskaźników “ważonych” zgodnie z przyjętym taryfikatorem

Wzór 12(12)

odpowiadającym metryce (8), lub

Wzór 13

odpowiadającym metryce (10). Wartości liczbowe ocen globalnych oparte na sumach “ważonych” i długości wektora w przestrzeni WDR o załoźonej metryce są do siebie zbliżone. Można też wykazać, że przy zachowaniu warunku (4), ocena ważona R  jest liczbowo wyższa niż oceny S oparta na metryce przestrzeni (Tabela 1.)

uczony  z metryką 8 S   z taryfikatorem 12 R  z metryką 8 R  z taryfikatorem 13 

"1"

30.02 31 10.44 13
"2"10.44 13 30.02 31
"3" 9.42 12 9.42 12


     Z  danych zestawionych w Tabeli 1. widać, że  wybór metryki (taryfikatora) odgrywa zasadniczą rolę. Najmniej czułe na wybór metryki są oceny dotyczące uczonych, których dorobek scharakteryzowany jest zbliżonymi wartościami różnych składników. W rozpatrywanych wyżej przykładach, ocena globalna uczonego “3” o równej wartości wskaźników (X1 =  X2 = 3) wogóle nie zależy od wyboru metryki.  Niezależnie od tego, jaki przyjmiemy system przetwarzania informacji, o ocenie globalnej decyduje dobór i definicja analizowanych wskaźników oraz wybrana metryka (taryfikator) przestrzeni WDR

9. Optymalna procedura oceniania. Analogia do procesu sądowego

 Ani metody jakościowe (recenzje) ani ilościowe (wskaźniki) nie gwarantują  wiarygodnej oceny dorobku i reputacji. Rozwiązaniem optymalnym jest kombinacja informacji jakościowych i możliwie szerokiego zbioru dobrze określonych wskaźników ilościowych poddanych określonym rygorom proceduralnym. Wzorem dla takiej procedury może być proces sądowy [12]. Istotnymi cechami takiej procedury jest

  1. uwzględnienie całego materiału istotnego dla oceny (wskaźniki ilościowe, recenzje opisowe - opinie ekspertów itp.). Pomijanie jakichkolwiek  informacji wymaga uzasadnienia.
  2. bezwzględna zasada rozłączności ról  uczestników procesu oceniania:  oceniającego(cych),  recenzentów, ocenianego, a także wykluczenie konfliktu interesów
  3. pełna odpowiedzialność (zespołu) oceniającego Oceniający odpowiadają za wybór recenzentów, krytyczną ocenę recenzji i wskaźników ilościowych, a wreszcie ostateczną ocenę.
  4. możliwość odwołania się ocenianego od oceny
  5. bezpośredni  kontakt i dyskusja oceniającego z recenzentami, jeśli to możliwe, również z udziałem ocenianego.

Niektóre z tych zasad wydają się trywialne  (wykluczenie konfliktu interesów, rozłączność ról uczestników procesu oceniania), co wcale nie znaczy, że są zawsze stosowane w praktyce. Analogia do procesu sądowego przypisuje uczestnikom procesu oceny i uwzględnianym materiałom następujące role:

OCENIAJĄCY (ZESPÓŁ OCENIAJACY) - SĄD

RECENZENCI - ŚWIADKOWIE, BIEGLI

ZBIÓR WSKAŹNIKÓW ILOŚCIOWYCH, RECENZJE, ITP. -
 - MATERIAŁ DOWODOWY

DYSKUSJA ZESPOŁU Z RECENZENTAMI - ROZPRAWA SĄDOWA

WIZYTA ZESPOŁU W OCENIANYM ZESPOLE (INSTYTUCJI) -
- WIZJA LOKALNA

WYNIK OCENY - WYROK

ODWOŁANIE OD OCENY - APELACJA

     Ocenianie działalności naukowej w trybie “procesu sądowego” nie wyklucza błędów. Kiedy w r. 1998 przedstawiłem ten model na konferencji NATO [12] zadano mi pytanie, czy dopuszcza on “Justizmord” – pomyłkę sądową i skrzywdzenie ocenianego. Naturalnie! Model nie jest idealny, ale wydaje się, że w optymalny sposób rozwiązuje istniejące problemy i powinien być stosowany tam, gdzie jest to tylko możliwe. Formułując zasady tego modelu nie byłem świadomy, że podobną procedurę zastosowano już w r. 1977 w Departamencie Energii USA (DOE) przy ocenie nowych metod syntezy jądrowej. Utworzono w tym celu “Sąd Naukowy” (Science Court)  [13].

10. Przykłady

     Na zakończenie, komentarz do kilku procedur oceniania stosowanych w polskim życiu naukowym.
     Nadawanie stopni naukowych. Zespół oceniający, to Rada Wydziału (Rada Naukowa Instytutu) lub powołana przez nią komisja. Oceniany materiał obejmuje informacje jakościowe i ilościowe – rozprawa (doktorska, habilitacyjna), spis publikacji, wykładów, referatów itp., opisowe opinie 2 lub 3 recenzentów. Obrona pracy doktorskiej (kolokwium habilitacyjne) umożliwia dyskusję zespołu oceniającego z recenzentami i z ocenianym kandydatem. Rozłączność ról (oceniający – recenzenci) zapewniona jest w części – jednym z recenzenów może członek Rady. Istnieje procedura odwoławcza.
Procedura nadawania stopni naukowych wydaje się bliska przedstawionemu wyżej idealnemu modelowi.
      Ocena projektów badawczych w KBN. Oceniający -  Zespół (Sekcja) specjalistyczna KBN. Materiał oceniany – ankiety recenzentów od których wymaga się ocen liczbowych (punkty). Wynik oceny oparty na średniej z punktowych ocen recenzentów. Kaźdy z recenzentów punktuje oceniane projekty według własnego uznania, wiedząc, że niska ocena punktowa przesądza o negatywnej decyzji Sekcji. Nie ma miejsca na merytoryczne  uzasadnienie recenzji i dyskusje z recenzentami. Istotne pomieszanie ról: recenzent wystawiający niską ocenę punktową faktycznie przyjmuje rolę zespołu oceniającego. Stosowane w niektórych sekcjach łączenie punktowych ocen recenzentów z ocenami (punktowymi) członków sekcji stawia skolei członków sekcji w roli recenzentów i to niezależnie od ich kwalifikacji. Nie znaleziono sposobu na wyeliminowanie potencjalnego konfliktu interesów pomiędzy członkami zespołów oceniających, recenzentami i autorami ocenianych projektów.
     Ocena działalności statutowej instytucji naukowych (KBN). Ocena działalności statutowej opiera się w przeważającej części na analizie danych ilościowych o działalnosci i dorobku placówki. Zgodnie z ogólnymi zasadami statystyki, ocena dużych zbiorów (dużych zespołów badawczych) jest bardziej wiarygodna niż pojedynczych uczonych lub małych zespołów. Przyjęty do ustalania oceny globalnej taryfikator jest (jak zawsze) arbitralny i pozostawia wiele do życzenia.

Bibliografia

1. De Solla Price D., Wielka nauka, mała nauka, PWN, Warszawa 1967, str. 121
2. Wróblewski A. K, Zagadnienia Naukoznawstwa, (ten numer)
3. Piela L., Zagadnienia Naukoznawstwa, (ten numer)
4. Piela L., Jak mierzyć osiągnięcia placówek naukowych?, Zagadnienia Naukoznawstwa XXXI, [3-4], 147-160 (1995)
5. Ziabicki A., The Evaluation of Scientists and their Work”, w: Evaluating Science and Scientists (M.S. Frankel & J. Cave, Eds), Central European University Press, Budapest 1997.
6. Bartkowski A., Jak cię widzą tak cię piszą, czyli: czy i kiedy analiza cytowań jest wiarygodnym i efektywnym narzędziem oceny efektywności naukowej? Zagadnienia Naukoznawstwa XXXVI, [4], 549-576 (2000)
7. Frankel M.S., Cave J. (Eds), Evaluating Science and Scientists,  Central European University Press, Budapest 1997.
8. Van Horn H.M., Struktura i działanie Krajowej Fundacji Nauki (NSF) w Stanach Zjednoczonych, Zagadnienia Naukoznawstwa, XXXI, [3-4], 203-222, (1995)
9. Kostoff Ronald N., (Office of Naval Research), Research Program Peer Review: Principles, Practices, Protocols, a companion paper to the Science Magazine Policy Forum of 1 August 1997; email < Adres poczty elektronicznej jest chroniony przed robotami spamującymi. W przeglądarce musi być włączona obsługa JavaScript, żeby go zobaczyć. >
10. Mróz Z., Czteroparametrowy system oceny pracowników naukowych “Światowid”, Zagadnienia Naukoznawstwa XXXI, [3-4], 39-44 (1995)
11.  Drenth JPH, Proliferation of authors on research reports in medicine, Science and Engineering Ethics, 2, 471 (1996)
12. Ziabicki A., Evaluation of an Individual Scientist. Legal Case Analogy, w: Science Evaluation and Its Management, (V. Paces, L. Pivec & A.H. Teich, Eds), IOS  Press, Amsterdam-Berlin-Oxford-Tokyo-Washington, 1999
13. DOE, Evaluation of Alternate Magnetic Fusion Concepts 1977, DOE/ET-0047, US Department of Energy, Assistant Secretary for Energy Technology, Office of Fusion Energy, May 1978


Abstract

Andrzej Ziabicki
email: < Adres poczty elektronicznej jest chroniony przed robotami spamującymi. W przeglądarce musi być włączona obsługa JavaScript, żeby go zobaczyć. >

Evaluation of scientific achievements and reputation of individual scientists
and research teams

Philosophical, historical and methodological aspects of evaluation of achievements and reputation of individual scientists and research teams have been discussed. Contemporary (on the spot) vs. historical estimates have been compared. Evaluation criteria applicable to local-range vs. universal-range research topics have been analysed. Qualitative (peer review) and quantitative evaluation instruments have been compared. The profile of scientific activities has been presented as a vector in N-dimensional space of achievement and reputation indicators (ARI space). Reliability of peer review estimates and validity of global numerical estimates have been analysed. Optimum evaluation procedure based on a legal case has been proposed.

Góra
varia 6.jpg

Zapytaj bibliotekarza

Telewizja UŚ

Więc Jestem. Studencki serwis rozwoju