Izak Košir

12. 7. 2019  |  Mladina 28  |  Družba

Žaljive sopomenke

Pasti znanstvenega zbiranja sopomenk 

Na spletni strani CJVT (Center za jezikovne vire in tehnologije) z iskalnikom sopomenk najdemo tudi takšne, ki so neprimerne, celo sovražne in homofobne (predvsem razlage).

Pri besedi ’gej’ denimo najdemo kup neprimernih sopomenk, od buzi do peder, kar bi moralo biti primerno označeno (denimo, da gre za slabšalno besedo oziroma žaljivko, kot imajo to urejeno v SSKJ-ju na Franu).

Še nazornejše pa so rabe teh »sopomenk« – tako pri sopomenki za besedo ’homoseksualec’ najdemo besedno zvezo ’zafrustriran gej’, ki je nato v povedi uporabljena takole: »Gotovo ni primerno, da imata otroka dva povsem zafrustrirana geja.«

Ker je projekt podpisala Univerza v Ljubljani, pri soustvarjanju spletnega »slovarja« pa lahko sodelujejo domala vsi, ki se prijavijo (ne glede na reference, torej nekaj podobnega kot pri Wikipediji), nas je zanimalo, kdo nadzira in izbira vsebino (če sploh) in ali je projekt zastavljen tako, da bi omenjene žaljive zapise lahko preprečili.

Sodelavci Centra za jezikovne vire in tehnologije Univerze v Ljubljani (CJVT UL) so najprej povedali, da v kratkem medijskem odzivu ne bodo mogli pojasniti vseh vidikov, ki jih prinaša pomembno vprašanje sovražnega ali žaljivega govora pri sestavljanju virov za raziskovanje sodobne slovenščine. Dodali so, da je »CJVT UL enota Univerze v Ljubljani, ki je namenjena znanstvenemu raziskovanju, vzpostavljanju in vzdrževanju temeljnih digitalnih jezikovnih virov in jezikovnotehnoloških orodij za sodobni slovenski jezik, ki so praktično uporabni in preko spleta dostopni vsem uporabnikom slovenskega jezika v svetu«.

Poudarili so, da pri gradnji korpusa v integralnost besedil zavestno niso posegali s stališča, ali vsebujejo žaljivo besedišče ali izjave, ki bi jih lahko opredelili kot politično nekorektne, homofobne in podobno. »To bi pomenilo, da bi npr. iz slovenskih romanov morali brisati dele, kjer homofoben lik izraža politično nesprejemljiva stališča, so pa realen del javno objavljenega besedila,« poudarjajo ter sprašujejo, kdaj je smiselno in upravičeno posegati v že objavljena in javno dostopna besedila, zbrana v vzorec sodobne slovenščine, če iz konteksta vzete povedi ali deli besedil lahko zbujajo negativna čustva pri končnih uporabnikih korpusa.

Po trenutni presoji sodelavcev CJVT UL je pomembnejše, da za raziskovanje sodobne slovenščine zagotovimo znanstveno utemeljen, objektiven in realističen vzorec jezika, četudi za ceno prenašanja potencialno žaljivega ali sovražnega govora iz izvirno objavljenih besedil v združeno zbirko.

Menijo, da opozorilo glede sovražnih in homofobnih navedb na spletni strani CJVT izhaja iz dveh temeljnih nesporazumov. Prvič, da je bil referenčnemu korpusu Gigafida kot vzorcu besedil sodobne slovenščine pripisan status slovarja, in drugič, da je bil slovarju Sopomenke pripisan institucionalni »avtoritativni status, kakršnega v tradicionalnem smislu nikoli ne bo imel«.

Vse to se zdi razumljivo, a občutka o pogostosti žaljivk na tej strani se ni mogoče otresi. Pri ženski je kot ena izmed možnosti navedena recimo tudi beseda ’kura’.

Pisma bralcev pošljite na naslov pisma@mladina.si. Minimalni pogoj za objavo je podpis z imenom in priimkom ter naslov. Slednji ne bo javno objavljen.