Univerza v Ljubljani

Filozofska fakulteta

Oddelek za slovenistiko










Darinka Verdonik





Analiza diskurza kot podpora

sistemom strojnega simultanega prevajanja govora










Mentor: izr. prof. dr. Marko Stabej

Somentor: prof. dr. Zdravko Kačič







Ljubljana, 2006




















Prisrčna hvala mentorju dr. Marku Stabeju in somentorju dr. Zdravku Kačiču.

Hvala turističnim agencijam Sonček, Kompas, Neckermann Reisen in Aritours, Termam Maribor, predvsem hoteloma Piramida in Habakuk, ter Mariborskemu zavodu za turizem in v sklopu tega Mariborskemu turistično informacijskemu centru MATIC za sodelovanje pri snemanju gradiva, predvsem pa vsem zaposlenim v teh organizacijah, ki so sodelovali v snemanju oz. izrazili pripravljenost za sodelovanje.

Hvala številnim klicateljem, ki so prispevali svoj pogovor v korpus Turdis.

Hvala vsem sodelavcem, ki so z lastnim delom ali nasveti in znanjem pomagali pri snemanju in drugih tehničnih zadevah, ki so presegale moje znanje, in vsem, ki so se bili pripravljani ukvarjati z mojimi težavami pri prvih poskusih dela s Perlom.

Hvala vsem, ki so bili pripravljeni z menoj debatirati o temah iz te naloge ali so mi posredovali svoje znanje, izkušnje ali rezultate dela, ki so mi pomagali pri iskanju odgovorov na vprašanja.

Hvala vsem, ki so omogočili, da sem dve leti in pol uživala status mladega raziskovalca in v tem času opravila tudi delo, predstavljeno v tej disertaciji.












Abstract



The aim of this work is to research the telephone conversations in tourist domain with the concepts of discourse analysis that could be used in speech-to-speech translation in order to better handle spontaneous speech phenomena.

Speech-to-speech translation systems have to manage three different tasks: first a speech recognition of speech in input language is needed. The text gained through speech recognition usually includes errors and is not structured to clauses and sentences.

The recognized text is then translated to output language in the process called speech centred translation. Translation of spontaneous spoken text is different than translation of written text because the spoken text includes disfluencies, repairs, false starts, hesitations, filled pauses, silences etc.; repetitions are much more often, implicitness of information is higher, prosody is lost when transforming speech to text... These and other similar phenomena of the spontaneous speech have been noticed in the speech-to-speech translation as problematic: the C-STAR consortium (http://www.c-star.org/main/english/cstar2/) therefore suggests that simple combining of machine translation technics, developed for the translation of the written text, with speech recognition and speech synthesis into speech-to-speech translation systems cannot achieve satisfying quality, but special approaches to the speech centred translation are needed. Similar is concluded in the Verbmobil (http://verbmobil.dfki.de/verbmobil/VM.English.Mail.30.10.96.html) and other projects where speech-to-speech translation systems were built.

The last act of the speech-to-speech translation system is speech synthesis of the translated text into output language. The system has to be reciprocal.

An overview of machine translation and speech-to-speech translation shows that different approaches to the problem have been developed, the most promising recently are statistical corpus technics.

When using certain parts of traditional linguistics knowledge the machine translation as well as other language technologies can perform better – part-of-speech categories as well as other morpho-syntactic attributes, for example, are widely used. But when dealing with the spontaneous speech we find many phenomena exceeding the traditional linguistics knowledge since it was gained mostly through researching written language forms. The spontaneous speech was better researched in fields such as pragma-linguistics, conversation analysis and others which can be classified as discourse analysis. Therefore I suggest to use some parts of linguistic knowledge of the discourse analysis to overcome the phenomena of the spontaneous speech in speech-to-speech translation.

Researching was done theoretically and empirically. It was limited to tourist domain, to telephone conversations in tourist agency, tourist office and hotel. The corpus Turdis-1, including 30 conversations, was used as research material. The discourse analysis were studied in search for concepts that could be as easily as possible implemented to speech corpora as attributes for tagging.

In this work I suggest that the spoken text is structured to smaller units: opening and closing sections, turns and utterances. The utterance is precisely defined. Hearer's signals (words such as mhm, aha, ja) are treated as special discourse events, not as turn-taking.

Further I suggest that the concept of discourse markers could be used. The empirical study shows that at least 15 expressions in the corpus Turdis-1 (ja, mhm, aha, aja, ne?, no, eee, dobro/v redu/okej/prav, glejte/poglejte, veste, mislim, zdaj) could be specified as discourse markers. In the function of discourse marker these expressions represent almost 14% of all words in the 15.000 words corpus. Their particularity is that they do not contribute much to a representational meaning of utterance but are used mainly as pragmatic expressions: they help connecting discourse, expressing speaker's attitude towards discourse content, maintaining hearer's attention, organizing discourse etc.

A structure of spontaneous spoken utterance can be fuzzy and disfluent. I suggest to use the concept of repair to eliminate a special, retrograde part of the utterance which can be disturbing for further processing since it is cut off. In 8% of all utterances in the corpus the repair was used.

Further researching of the analyzed phenomena as well as researching of some not analyzed, but mentioned phenomena such as repetitions, topic structure of conversation, adjacency pairs, could be continuation of the present work. From the linguistic perspective this work brings researches of language use in a domain (spontaneous telephone conversations) and from perspectives (conversation structure, discourse markers, repair) which are all more or less new in the linguistics of Slovenian language.

KAZALO

1 UVOD 12

2 STROJNO PREVAJANJE 16

2.1 Razvoj pristopov k strojnemu prevajanju 16

2.1.1 Začetki 16

2.1.1.1 Direktni sistemi (angl. direct systems) 16

2.1.1.2 Interlingva (angl. interlingua) 17

2.1.1.3 Prenosni sistemi (angl. transfer systems) 18

2.1.2 ALPAC 18

2.1.3 Nov razcvet, prvi komercialni sistemi 19

2.1.3.1 Jezikovna pravila 19

2.1.3.2 Na vedenju temelječi sistemi strojnega prevajanja 20

2.1.3.3 Statistični pristopi 20

2.1.3.4 Na primerih temelječi pristopi 21

2.1.3.5 Hibridni sistemi 21

2.2 Sistemi strojnega simultanega prevajanja govora 21

2.2.1 C-STAR 22

2.2.2 Janus 23

2.2.3 Verbmobil 24

2.2.4 EuTrans 25

2.2.5 Nespole! 25

2.2.6 DIPLOMAT, Tongues 26

2.2.7 Ameriški vojaški sistemi: Babylon, LASER, Speechlator 27

2.2.8 Raziskave v vzhodni Aziji: MATRIX, LodeStar, Digital Olympics 27

2.2.9 Komercialni sistemi: AT&T, NEC, IBM 27

2.2.10 PF-STAR 28

2.2.11 LC-STAR 28

2.2.12 TC-STAR 29

2.2.13 Sklep 29

2.3 Strojno simultano prevajanje govora na Slovenskem 32

2.3.1 Alpineon 32

2.3.2 Amebis 32

2.3.3 Fakulteta za elektrotehniko, Laboratorij za umetno zaznavanje, sisteme in kibernetiko (LUKS) 33

2.3.4 Fakulteta za računalništvo in informatiko, Laboratorij za arhitekturo in procesiranje signalov 33

2.3.5 Fakulteta za elektrotehniko, računalništvo in informatiko, Laboratorij za digitalno procesiranje signalov 33

2.3.6 Filozofska fakulteta, Oddelek za prevajalstvo in Oddelek za slovenistiko 34

2.3.7 Hermes SoftLab 34

2.3.8 Institut Jožef Stefan, Odsek za inteligentne sisteme 34

2.3.9 ZRC SAZU, Inštitut za slovenski jezik Frana Ramovša 35

2.3.10 Jezikovni viri za razvoj sistemov strojnega simultanega prevajanja govora za slovenski jezik 35

2.3.11 Sklep 36

3 UTEMELJITEV IN CILJI RAZISKAVE 37

3.1 Pogovor – pisni diskurz 37

3.2 Pogovorni govor v sistemih strojnega simultanega prevajanja govora 40

3.3 Simultano tolmačenje 41

3.4 Raziskave spontanega govorjenega diskurza v slovenščini 41

3.5 Cilji raziskave 43

4 ANALIZA DISKURZA 45

4.1 Pregled področja 45

4.1.1 Diskurz 45

4.1.2 Temeljni pristopi k analizi diskurza 47

4.2 Struktura pogovora 49

4.2.1 Zunanja zgradba 49

4.2.2 Menjavanje vlog 50

4.2.3 Bližnji pari 51

4.2.4 Izjave 51

4.3 Diskurzni označevalci 54

4.3.1 Slovenske raziskave nekaterih elementov, ki jih lahko štejemo med diskurzne označevalce 55

4.3.2 Kratek pregled tujih raziskav diskurznih označevalcev 57

4.3.3 Lastnosti diskurznih označevalcev 60

4.3.4 Izhodišča raziskave diskurznih označevalcev v tej nalogi 61

4.4 Popravljanja 62

4.4.1 Izhodišča analize v tej nalogi 67

4.5 Sklep 68

5 GRADIVO ZA ANALIZO 70

5.1 Snemanje pogovorov 70

5.2 Prepisovanje pogovorov in urejanje korpusa 72

5.3 Nekaj statističnih podatkov o korpusu TURDIS-1 76

6 ANALIZE IN REZULTATI 80

6.1 Struktura telefonskega pogovora 80

6.1.1 Uvodne sekcije 80

6.1.2 Zaključne sekcije 83

6.2 Diskurzni označevalci 87

6.2.1 Ja 89

6.2.1.1 Pragmatične vloge ja 89

6.2.1.2 Položaj ja v izjavi 94

6.2.1.3 Sopojavljanje ja z drugimi diskurznimi označevalci 95

6.2.2 Mhm, aha, aja 97

6.2.2.1 Pragmatične vloge mhm, aha in aja 97

6.2.2.2 Položaj mhm, aha in aja v izjavi 101

6.2.2.3 Sopojavljanje aha in mhm z drugimi diskurznimi označevalci 102

6.2.3 Ne?, a ne?, ali ne?, jel? 104

6.2.3.1 Pragmatične vloge ne? 105

6.2.3.2 Položaj ne? v izjavi 108

6.2.3.3 Sopojavljanje ne? z drugimi diskurznimi označevalci 110

6.2.4 No 111

6.2.4.1 Pragmatične vloge no 111

6.2.4.2 Položaj no v izjavi 114

6.2.4.3 Sopojavljanje no z drugimi diskurznimi označevalci 116

6.2.5 Eee, mmm ... 117

6.2.5.1 Pragmatične vloge eee 117

6.2.5.2 Položaj eee v izjavi 122

6.2.5.3 Sopojavljanje eee z drugimi diskurznimi označevalci 122

6.2.6 Dobro, v redu, okej, prav 124

6.2.6.1 Pragmatične vloge dobro, v redu, okej in prav 125

6.2.6.2 Položaj dobro, v redu, okej, prav v izjavi 127

6.2.6.3 Sopojavljanje dobro, v redu, okej, prav z drugimi diskurznimi označevalci 128

6.2.7 Glejte/poglejte, veste 130

6.2.7.1 Pragmatične vloge glejte in veste 130

6.2.7.2 Položaj glejte in veste v izjavi 133

6.2.7.3 Sopojavljanje glejte in veste z drugimi diskurznimi označevalci 135

6.2.7.4 Čakajte in drugi sorodni izrazi 135

6.2.8 Mislim 137

6.2.8.1 Pragmatične vloge mislim 137

6.2.8.2 Položaj mislim v izjavi 138

6.2.8.3 Sopojavljanje mislim z drugimi diskurznimi označevalci 138

6.2.8.4 Ne vem in drugi sorodni izrazi 138

6.2.9 Zdaj 141

6.2.9.1 Pragmatične vloge zdaj 141

6.2.9.2 Položaj zdaj v izjavi 143

6.2.9.3 Sopojavljanje zdaj z drugimi diskurznimi označevalci 144

6.2.9.4 Drugi sorodni izrazi 145

6.2.10 Oporni signali: mhm, ja, aha, aja, dobro, okej, tako, tudi, seveda 146

6.2.10.1 Pragmatične vloge opornih signalov 147

6.2.10.2 Položaj opornih signalov v diskurzu 148

6.2.10.3 Sopojavljanje opornih signalov 149

6.2.11 Sklep 151

6.3 Analiza popravljanj 156

6.3.1 Sintagmatsko-paradigmatski vidik popravljanj 156

6.3.2 Pragmatični vidik popravljanj 160

6.3.3 Struktura popravljanj v korpusu Turdis-1 164

7 DISKUSIJA 169

7.1 Naravni jezik, ujet v tehnologijo 169

7.2 Vključevanje analiziranih konceptov v strojno simultano prevajanje govora 170

7.3 Diskusija o rezultatih z vidika analize diskurza 172

8 POVZETEK 176

9 LITERATURA IN VIRI 179

9.1 Seznam literature 179

9.2 Seznam spletnih strani 185

9.3 Viri 187

Stvarno kazalo 188

PRILOGA 1: Prepis pogovorov v korpusu Turdis-1 191

SEZNAM TABEL



Tabela 1: Primerjalna preglednica projektov in sistemov strojnega simultanega prevajanja govora. 31

Tabela 2: Oznake v programu Transcriber in v ilustrativnem gradivu v nalogi. 76

Tabela 3: Število in dolžina pogovorov glede na različne kriterije. 77

Tabela 4: Število govorcev glede na spol. 77

Tabela 5: Število govorcev glede na narečni izvor. 77

Tabela 6: Nekatere značilnosti posameznih klicateljev. 78

Tabela 7: Nekatere značilnosti posameznih turističnih agentov. 79

Tabela 8: Pomenski opis analiziranih diskurznih označevalcev. 151

Tabela 9: Usmerjenost analiziranih diskurznih označevalcev k predhodni ali prihodnji vsebini. 152

Tabela 10: Usmerjenost analiziranih diskurznih označevalcev k sogovorniku. 153

Tabela 11: Analizirani diskurzni označevalci kot označevalci odnosa govorca do vsebine. 153

Tabela 12: Analizirani diskurzni označevalci pri organiziranju poteka diskurza. 154

Tabela 13: Najznačilnejši položaji diskurznih označevalcev v izjavi. 154

Tabela 14: Število besed v popravljenem delu besedila v korpusu Turdis-1. 165

Tabela 15: Popravljalna sredstva pri popravljanjih, kjer je prekinitev sredi besede. 166

Tabela 16: Popravljalna sredstva pri popravljanjih, kjer je prekinitev med besedami. 166

Tabela 17: Preglednica ponovljenih elementov v popravku v korpusu Turdis-1 po odstotkih. 167


SEZNAM SLIK



Slika 1: Shema zgradbe direktnega sistema strojnega prevajanja (vir: Wong, 2001). 17

Slika 2: Shema zgradbe sistema strojnega prevajanja z interlingvo (vir: Wong, 2001). 17

Slika 3: Shema zgradbe prenosnega sistema strojnega prevajanja (vir: Wong, 2001). 18

Slika 4: Shema poteka signala pri snemanju telefonskih pogovorov za Turdis. 72

Slika 5: Položaj diskurznega označevalca ja v izjavi. 95

Slika 6: Položaj diskurznega označevalca ne? v izjavi. 110

Slika 7: Položaj diskurznega označevalca no v izjavi. 116

Slika 8: Položaj eee v izjavi po odstotkih. 122

Slika 9: Položaj dobro, v redu, okej, prav v izjavi. 128

Slika 10: Položaj glejte v izjavi. 134

Slika 11: Položaj zdaj v izjavi po odstotkih. 144


Slika 12: Razmerja pogostosti uporabe posameznih opornih signalov. 146

Slika 13: Položaj opornih signalov glede na izjavo govorca. 149



1UVOD


Tehnologija strojnega simultanega prevajanja govora posega na področje človeške družbe, ki ji Evropska unija posveča veliko pozornosti, saj lahko postane eden od instrumentov pri ohranjanju večjezičnosti evropske družbe. »Upoštevanje jezikovne raznolikosti je v Evropski uniji osnovna vrednota, skupaj s spoštovanjem posameznika, odprtostjo do drugih kultur, strpnostjo do drugih in njihovo sprejemanje,« navaja Evropska komisija v Sporočilu o večjezičnosti (2005: 2). Med ukrepi za večjezično družbo Komisija v istem dokumentu navaja, da bo »okrepila v sedmem okvirnem raziskovalnem programu raziskovalne dejavnosti in dejavnosti tehnološkega razvoja v zvezi s tehnologijami informacijske družbe, povezanimi z jezikom, s posebnim poudarkom na novih tehnologijah za strojno prevajanje ter proučila načine, kako bi Evropska unija lahko spodbudila nadaljnje sodelovanje pri novih tehnologijah za prevajanje in tolmačenje. V istem okviru bodo jezikovna vprašanja sestavni del dejavnosti, ki se podpirajo na področju družboslovnih in humanističnih ved.« (Evropska komisija, 2005: 7)

Ta naravnanost evropske politike po eni strani dodatno utemeljuje in spodbuja razvoj tudi strojnega simultanega prevajanja govora, po drugi strani pa pomeni tudi širše socio-kulturne posledice razvoja ali nerazvoja jezikovnih in govornih tehnologij za posamezne jezike. Kot navaja (Stabej, 2003: 11), »/j/ezikovne tehnologije ponujajo močna orodja, uporabna za podporo pri načrtovanju statusa slovenščine«. V skupnem evropskem prostoru in globaliziranem svetu je treba novim razmeram prilagoditi tudi slovenščino. (Stabej, 2003: 11) v tem pogledu govori o globalnosti slovenščine, ki jo definira na dva načina: da bodo slovensko govorečim sporočila v slovenščini na voljo po vsem svetu tako v realni kot virtualni obliki in da bodo, zrcalno, informacije v slovenščini na tak ali drugačen način dostopne tudi tistim, ki slovenščine ne znajo ali vsaj ne znajo dovolj. »Slovenščina brez učinkovite podpore jezikovnih tehnologij,« zaključi (Stabej, 2003: 11), »na oba vidika svoje globalnosti ne more računati/./«


Pričujoča naloga je rezultat tesnega sodelovanja jezikoslovja in tehnoloških ved. Njena izrazita meddisciplinarnost bo bralca, ki se s področjem jezikovnih tehnologij do zdaj ni srečal in ga ne pozna posebej natančno, morda zbegala, vendar izhaja iz povsem enostavnega in praktičnega vzgiba:

Skupina, v kateri delam, razvija govorne tehnologije za slovenski jezik. Strojno simultano prevajanje govora združuje obe do zdaj temeljni smeri govornih tehnologij, razpoznavo in sintezo govora, hkrati pa zahtevajo nov, v slovenskem prostoru še skoraj neraziskan modul – prevajanje govorjenega besedila.

Uresničevanje vizije sistema strojnega simultanega prevajanja govora, ki bi bil uporaben, zahteva zmožnost algoritmov, da obvladujejo tudi značilnosti pogovornega govora.1 V govornih tehnologijah2 ima svoje pomembno mesto tudi jezikoslovje; kot bo namreč vidno iz poglavja o strojnem prevajanju, so govorne tehnologije praviloma uspešnejše, če pri razvoju sodelujejo z jezikoslovjem. Pri tem je bilo do zdaj osnova tradicionalno jezikoslovje, ki pa temelji predvsem na raziskovanju pisnih oblik jezikovne rabe. Jezikoslovci, ki raziskujejo spontan govorjeni diskurz, in inženirji, ki razvijajo govorne tehnologije in skušajo procesirati pogovorni govor, tako ugotavljajo, da z orodji tradicionalnega jezikoslovja le-tega ne morejo zadovoljivo razložiti ali obvladovati, zato iščejo nove poti, jezikoslovci pogosto na področju, ki ga lahko označimo s skupnim imenom analiza diskurza.

Sklepanje, ki vodi k osnovni tezi te naloge, je torej povsem enostavno: pri razvoju sistemov strojnega simultanega prevajanja govora, ki naj bi zmogli procesirati pogovorni govor, se v jezikoslovnem delu naslonimo na analizo diskurza. Vendar ob pregledu tega področja hitro vidimo, da je (še posebej v slovenskem prostoru, čeprav lahko podobno ugotovimo tudi na mednarodni ravni) izredno raznoliko, da se šele razvija v različne smeri, da njegove teorije (še?) niso tako uveljavljene kot tradicionalno jezikoslovje, da jezikovno rabo le redko razlaga tako celostno, kot bi želeli... V tej nalogi je tako treba najprej poiskati koncepte, primerne za implementacijo v tehnologijo, nato pa jih preveriti v analizi spontanega govorjenega diskurza v slovenskem jeziku, kar pomeni tudi obširno jezikoslovno nalogo. Šele na podlagi teh rezultatov bomo lahko po eni strani videli, ali je izbrane koncepte smiselno uporabiti v sistemih strojnega simultanega prevajanja govora, in po drugi strani, ali smo z njimi uspeli opozoriti tudi na kakšne temeljne dejavnike jezikovne rabe. Vendarle ima vse to tudi pozitiven vidik za tehnologijo – pri analizah in rezultatih lahko sistematično upoštevam potrebe tehnologij, medtem ko so bila spoznanja tradicionalnega jezikoslovja velikokrat ad hoc prilagajana.


Raziskava je uresničena v naslednjih korakih, ki so predstavljeni po posameznih poglavjih disertacije:

Namen poglavja Strojno prevajanje je raziskati razvoj, stanje in smernice v strojnem prevajanju, tako v svetu kot v domačem prostoru. Pri tem namenim pozornost tudi jezikovnim virom (predvsem potrebnim govornim korpusom), saj so ključna točka za sodelovanje tehnoloških ved z jezikoslovjem.

V poglavju Utemeljitev in cilji raziskave pregledam, katere značilnosti spontanega govorjenega diskurza najbolj otežujejo razvoj sistemov strojnega simultanega prevajanja govora, koliko je spontan govorjeni diskurz v slovenskem jeziku že raziskan ter glede na to izpeljem temeljna cilja te raziskave: pregledati različne metode analize diskurza in predstaviti tiste koncepte, ki z jezikovnodiskurzivnega stališča odgovarjajo na probleme pri procesiranju pogovornega govora, ki izhajajo iz značilnosti spontanega govorjenega diskurza, ter preveriti moč izbranih konceptov v analizi vsakdanje jezikovne rabe v slovenskem jeziku na izbranem komunikacijskem področju.

V poglavju Analiza diskurza izpolnim prvi del ciljev. Najprej na kratko pregledam področje analize diskurza, nato pa podrobneje raziščem tri področja raziskovanja. V začetku predstavim spoznanja konverzacijskih analiz o strukturi pogovora, saj moramo spontan govorjeni diskurz tudi v tehnologiji najprej razdeliti na manjše strukturne enote, primerne za procesiranje. Osrednji in največji del raziskave namenim diskurznim označevalcem. Razlog za to je, da navidezna kaotičnost spontanega govorjenega besedila, pri kateri se zdi, da premnogokrat krši vsa sistematična načela »pravilnega« besedila, in ki povzroča največ težav pri razvoju strojnega simultanega prevajanja govora, kliče po iskanju oprijemljivih točk v spontanem govorjenem diskurzu, ki bi kazale, kako je besedilo smiselno organizirano in povezano. Analiza diskurza poudarja, da je bistvena vpetost besedila v kontekst. Teorija diskurznih označevalcev opozori na posebno skupino izrazov, ki kažejo na povezanost diskurza s kontekstom, dodatno spodbudno je, da v precejšnji meri temelji na raziskavah govorjenega diskurza in da vključuje veliko izrazov, ki so značilni predvsem za spontan govorjeni diskurz. Nazadnje predstavim raziskave popravljanj oz. netekočnosti. Raziskovalci pri razvoju sistemov strojnega simultanega prevajanja govora namreč veliko opozarjajo na težave, ki izhajajo iz značilnosti pogovornega govora, kot so premori, podaljšani zlogi, napačni začetki, zatikanja, diskontinuitete, ponavljanja, nedokončane misli, spremembe začete strukture ipd. S konceptom popravljanj zajamemo in razložimo veliko število teh pojavov.

V poglavju Gradivo za analizo predstavim način snemanja govornega korpusa Turdis-1, prepisovanje in označevanje korpusa ter nekaj osnovnih statističnih podatkov o njem. Turdis-1 vključuje 30 telefonskih pogovorov med klicatelji ter turističnimi agenti v turistični agenciji, turistični pisarni in hotelski recepciji.

Najobširnejše je poglavje Analize in rezultati, kjer s koncepti, predstavljenimi v poglavju Analiza diskurza, analiziram gradivo v korpusu Turdis-1, in tako izpolnim drugi del zastavljenih ciljev. Analize ločim v tri večje skupine: najprej analiziram uvodne in zaključne sekcije pogovorov, v osrednjem delu po posameznih poglavjih analiziram najpogostejše izraze v vlogi diskurznega označevalca (ja, mhm, aha, aja, ne?, no, eee, dobro/v redu/okej/prav, glejte/poglejte, veste, mislim, zdaj, oporni signali), nazadnje analiziram popravljanja. Natančna metoda analize je predstavljena v začetku posameznih sklopov tega poglavja.

V poglavju Diskusija razmišljam o rezultatih analiz z vidika vpliva strojnega vmesnika – sistema strojnega simultanega prevajanja govora – na medčloveško komunikacijo, z vidika uporabe analiziranih konceptov v strojnem simultanem prevajanju govora in z vidika jezikoslovja.

Sledijo pregled opravljenega dela in sklepov posameznih poglavij in videnje nadaljnjega dela v Zaključku ter navedba literature in priloga – prepis pogovorov v korpusu Turdis-1.

Kratek oris vsebine je tudi na začetku vsakega poglavja, daljša poglavja se zaključujejo s povzetkom v sklepu. Terminologija je razvidna iz stvarnega kazala na koncu.

2STROJNO PREVAJANJE


V tem poglavju predstavim osnovne pristope k strojnemu prevajanju, ki so se skozi desetletja razvili za strojno prevajanje pisnih besedil in se večinoma uporabljajo tudi pri strojnem simultanem prevajanju govora. Natančnejše preglede razvoja strojnega prevajanja najdemo med drugim v (Hutchins, 2003), (Trujillo, 1999), (Arnold et al., 1994), (Wong, 2001), po katerih je povzet tudi tukajšnji pregled. V posebnem podpoglavju pregledam nekatere večje in bolj znane sisteme strojnega simultanega prevajanja govora, pozornost pri tem namenim tudi korpusom, posnetim za razvoj teh sistemov. Zadnje podpoglavje prinaša pregled razvoja govornih tehnologij, potrebnih za strojno simultano prevajanje govora, v slovenskem prostoru.

Pojem strojno prevajanje, kot ga razumem tukaj, vključuje tako strojno prevajanje pisnih besedil kot strojno simultano prevajanje govora. Vendar se začetki razvoja strojnega prevajanja dolga desetletja nanašajo samo na strojno prevajanje pisnega besedila, zato se lahko marsikje v literaturi še danes termin strojno prevajanje nanaša samo na prevajanje pisnih besedil.


2.1Razvoj pristopov k strojnemu prevajanju

2.1.1Začetki


Prvi koraki k strojnemu prevajanju pisnih besedil segajo v trideseta leta 20. stoletja s prvimi poskusi večjezičnega elektronskega slovarja v Franciji in v Rusiji.

Po drugi svetovni vojni je sledil živahen razvoj tega področja zlasti v ZDA, takratni Sovjetski zvezi, pa tudi drugod po svetu. V obdobju od 1956 do 1966 lahko ločimo dve pomembnejši smeri raziskav:

Razvili so tri temeljne vrste sistemov strojnega prevajanja, ki so se uporabljali do razmaha korpusov v devetdesetih letih 20. stoletja: direktne sisteme, sisteme z interlingvo in prenosne sisteme.

2.1.1.1Direktni sistemi (angl. direct systems)


Direktni sistemi so prvi in najpreprostejši model strojnega prevajanja, pri katerem je program razvit za prenos besedila direktno iz določenega vhodnega jezika (angl. source language) v določen ciljni jezik (angl. target language) na podlagi ujemanja vzorcev. To pomeni, da prenaša besedo po besedo ali skupine besed (besedne zveze, fraze) iz enega jezika v drugega s pomočjo slovarja ter z minimalnimi jezikoslovnimi analizami vhodnega jezika (če že, običajno samo osnovna morfološka analiza) ter minimalnim slovničnim preurejanjem povedi v ciljnem jeziku. Pogosto se poslužujejo statističnih metod. Slika 1 prikazuje blokovno shemo direktnih sistemov strojnega prevajanja.



Slika 1: Shema zgradbe direktnega sistema strojnega prevajanja (vir: Wong, 2001).


2.1.1.2Interlingva (angl. interlingua)


Drugi pristop so sistemi z interlingvo. Pri teh se vhodno besedilo, ki je bilo razpoznano iz govora, najprej prepiše v interlingvo. Ta mora v semantični in slovnični predstavitvi povedi ohraniti dovolj informacij, da je iz nje mogoče tvoriti ustrezajoč prevod v ciljnem jeziku. Za semantično predstavitev so v kognitivni lingvistiki in semantiki razvili različne načine predstavitve pomena, ki pa je vseeno dovolj jezikovno neodvisen. Glavna razlika med prenosnimi sistemi, ki so opisani v naslednji alinei, in sistemi z interlingvo je, da se pri interlingvi besedilo v ciljnem jeziku sintetizira samo iz interlingve, brez da bi se gledalo nazaj vhodni jezik. Interlingva je torej predstavitev vhodnega besedila in hkrati osnova za tvorjenje besedila v ciljnem jeziku. Zares univerzalne interlingve zaenkrat še niso naredili, pač pa je vedno bolj ali manj omejena na jezike, ki so vključeni. Prednost pristopa z interlingvo je, da je za nov jezik treba dodati samo dva modula, dobimo pa več kombinacij (v vse vključene jezike in obratno), problem pa je seveda težavnost definiranja dobre interlingve, tudi za sorodne jezike.




Slika 2: Shema zgradbe sistema strojnega prevajanja z interlingvo (vir: Wong, 2001).




2.1.1.3Prenosni sistemi (angl. transfer systems)


Čeprav so vsi prevajalniki na nek način prenosni, se poimenovanje uporablja za jezikovno odvisne sisteme, pri katerih je rezultat analize abstraktna predstavitev besedila v vhodnem jeziku, vnos za sintezo besedila pa je tvorjenje abstraktne predstavitve besedila v ciljnem jeziku. Naloga modula za prenos je, da abstraktno predstavitev besedila v enem jeziku prenese v abstraktno predstavitev besedila v drugem jeziku. Te predstavitve – abstraktna analiza, prenos, abstraktno generiranje – povezujejo različne module, zato jim pravimo tudi vmesne predstavitve (angl. interface representations). Nobena predstavitev pri prenosni metodi ni jezikovno neodvisna. Če je prenosni sistem večjezičen, število modulov za prenos skokovito raste, kar je očitna slabost tega pristopa. Nekoliko počasneje se število modulov veča, če so sistemi reverzibilni, kar pomeni, da se modul za abstraktno predstavitev vhodnega jezika x (analiza) lahko uporablja tudi za abstraktno predstavitev ciljnega jezika x (tvorba).

Prenosni sistemi se lahko razlikujejo med seboj po tem, na koliko ravneh se izvaja abstraktna predstavitev jezika (analiza in tvorba): ta je lahko samo osnovna morfološka, lahko pa vključuje globoko morfo-sintaktično in/ali semantično predstavitev, tako da mora modul za prenos prenesti samo lekseme.



Slika 3: Shema zgradbe prenosnega sistema strojnega prevajanja (vir: Wong, 2001).

Nekatere raziskovalne skupine so prevzele ideal interlingve in verjele, da lahko samo temeljne raziskave procesov mišljenja pri človeku rešijo problem strojnega prevajanja. Bolj pragmatično naravnane skupine pa so se problema strojnega prevajanja lotile s preprostejšimi prenosnimi sistemi, ki temeljijo na slovnični predstavitvi jezika, in pustile problem semantike za kasnejše faze razvoja. Pri tem seveda ne smemo pozabiti, da so marsikje imeli nezadostno strojno opremo, zato so se bile nekatere skupine zlasti v Evropi in Sovjetski zvezi prisiljene usmeriti v teoretično raziskovanje.


2.1.2ALPAC


Optimizma glede strojnega prevajanja je bilo konec s poročilom ALPAC-a (Automatic Language Processing Advisory Committee) leta 1966. ALPAC je bil komite, ki so ga financirale ZDA, da bi raziskal situacijo na področju strojnega prevajanja. V zaključnem poročilu ta komite ugotavlja, da je strojno prevajanje počasno, manj natančno in dvakrat tako drago kot človeški prevajalci in da ni perspektive, da bi v doglednem času razvili uporaben sistem za strojno prevajanje. Pač pa predlaga, da se podpre razvoj avtomatskih orodij za pomoč prevajalcem, kot so elektronski slovarji, in podporo temeljnih raziskav na področju računalniškega jezikoslovja. Posledica tega poročila je bila, da ameriška vlada ni bila več pripravljena financirati raziskav s področja razvoja sistemov strojnega prevajanja, posledično je navdušenje uplahnilo tudi v takratni SZ. Delo so nadaljevale redke skupine, razvoj je bil v naslednjem desetletju počasnejši in se je od direktnih sistemov bolj usmeril v interlingvo in prenosne sisteme.


2.1.3Nov razcvet, prvi komercialni sistemi


Nov razcvet strojnega prevajanja se začne od druge polovice sedemdesetih let 20. stoletja naprej. V osemdesetih naredijo prve komercialne sisteme strojnega prevajanja (npr. Systran, Logos, METAL), poleg ameriških in sovjetskih raziskovalnih skupin se razvijajo močni centri po Evropi (Francija, Nemčija) in vzhodni Aziji (Japonska).

V osemdesetih letih so prevajalci začeli uporabljati računalnike tudi kot pripomoček pri prevajanju: z elektronskimi slovarji, pomnilniki prevodov, sledenjem terminologiji, izmenjavo dokumentov... Pravi razcvet računalniških orodij za pomoč prevajalcem pa se začne v devetdesetih. Vladne službe in multinacionalke (predvsem za prevajanje tehnične dokumentacije) so osrednji trg komercialnih sistemov strojnega prevajanja pisnih besedil. V devetdesetih se pojavijo tudi številni sistemi strojnega prevajanja pisnih besedil za osebne računalnike (PC-Translator, Power Translator, Systran in METAL prilagodijo za osebne računalnike, Personal Translator, Easy Translator, ProMT, PeTra, Winger, TranSmart itd.), a žal mnogi slabe kvalitete. Od sredine devetdesetih se pojavi velika potreba po strojnem prevajanju pisnih besedil za spletne strani (Systran, BabelFish, Reverso, LogoVista, PARS...). Kvaliteta teh prevodov je pogosto zelo nizka, očitno pa te storitve kljub temu zapolnjujejo vrzel pri pridobivanju osnovnih informacij s spleta. V devetdesetih letih 20. stoletja začneta za distribucijo številnih ustvarjenih podatkovnih baz in jezikovnih virov skrbeti ameriški LDC (Linguistic Data Consortium) in evropska ELRA (European Language Resources Association).

Skozi osemdeseta in devetdeseta leta 20. stoletja razvijejo tudi nekaj novih pristopov k strojnemu prevajanju.


2.1.3.1Jezikovna pravila


Veliko pristopov k strojnemu prevajanju do konca osemdesetih je temeljilo na jezikovnih pravilih: pravilih za sintaktično analizo, za prenos besed, za tvorbo povedi, za oblikoslovje... Najizrazitejši primeri na jezikovnih primerih temelječih sistemov so bili prenosni sistemi Ariane, METAL, SUSY, Mu in Eurotra, prav tako pa nekatere interlingve (DLT, Rosetta) ter na vedenju temelječi sistemi (KANT).

Vendar jezikovna pravila v slovnicah naravnih jezikov niso definirana na način, ki bi bil ustrezen za vključevanje teh pravil v računalniške sisteme, zato je bilo treba te slovnice natančno preštudirati in kategorizirati opisane elemente, kar je zahtevalo ogromno dela, končna pravila pa so bila težko obvladljiva. Zato so se v jezikoslovju začele razvijati veje, ki so definirale jezikoslovne lastnosti jezika na način, ki je bil ustreznejša osnova za razvoj sistemov strojnega prevajanja. Večina teh slovnic spada pod t. i. unifikacijsko slovnico (angl. unification grammar).


2.1.3.2Na vedenju temelječi sistemi strojnega prevajanja


Na vedenju temelječi sistemi so se začeli razvijati na predpostavki, da je za visoko kvalitetno strojno prevajanje, ki ne bi zahtevalo kasnejšega ročnega popravljanja, nujno razumevanje pomena besedila in razmerij med pojmi. To so neke vrste sistemi z interlingvo, vendar poleg jezikovnega vedenja vključujejo obsežno semantično in pragmatično vedenje o posameznem področju. Zaradi obsežnosti in zapletenosti so običajno omejeni na ozko komunikacijsko področje. Nekatere osnovne komponente na vedenju temelječih sistemov strojnega prevajanja so: ontologija pojmov, ki služi kot interlingva, slovar in slovnica vhodnega in ciljnega jezika ter ujemalna pravila med interlingvo in slovnico vhodnega in ciljnega jezika.


V devetdesetih letih 20. stoletja se pojavijo tudi pristopi, ki temeljijo na korpusih.


2.1.3.3Statistični pristopi


Največji razvoj poteka na podlagi statističnih pristopov, ki nadaljujejo empirični pristop v prvem obdobju razvoja strojnega prevajanja. Ideja statističnega pristopa je, da pustimo računalniku, da se sam avtomatsko uči, kako prenesti besedilo iz enega jezika v drugega na podlagi velikih dvojezičnih poravnanih korpusov. Poenostavljeno rečeno, računalnik iz dvojezičnih poravnanih korpusov izračunava, s katero enoto v ciljnem jeziku se najpogosteje zamenjava posamezna enota v vhodnem jeziku. Izračunavajo se lahko različne verjetnosti, ki jih v grobem ločimo v dva modela:

Razvoj statističnih pristopov je bil pogojen z razvojem strojne opreme, ki v začetnih obdobjih razvoja strojnega prevajanja ni bila dovolj zmogljiva. Prednosti tega pristopa so, da je cenejši in enostavnejši kot pristopi, ki temeljijo na jezikovnih pravilih. Omejitev je predvsem dostopnost ustreznega korpusa, ki mora biti zelo velik, vključevati mora besedila z različnih področij, ki morajo biti ustrezno enakomerno razpršena, zelo važna je tudi natančna poravnava (po povedih, besednih zvezah, besedah…). Z dodajanjem vsaj osnovnih morfo-sintaktičnih informacij v korpuse lahko rezultate statističnih pristopov k strojnemu prevajanju precej izboljšamo (npr. za približno 10 %).

Skupina v IBM (ZDA) je konec osemdesetih na podlagi statističnih pristopov in na podlagi francosko-angleškega korpusa parlamentarnih razprav zgradila eksperimentalni sistem. Metoda je bila najprej poravnati stavke, besedne zveze in posamezne besede, nato pa izračunati verjetnosti, da neka beseda v stavku vhodnega jezika ustreza neki besedi iz ciljnega jezika. Rezultati so bili presenetljivo dobri: skoraj polovica prevodov je bila ustreznih. Skozi devetdeseta nato sledimo vse večji prevladi statističnih pristopov, s katerimi se ukvarjajo mnoge skupine: nekatere so se osredotočile na čiste statistične sisteme (npr. Aachen, univerze v južni Kaliforniji, Hongkong...), druge preskušajo kombiniranje statističnih metod in jezikovnih pravil (univerza Carnegie-Mellon, univerza Tsing-Hua, Taiwan, Mocrosoft...).


2.1.3.4Na primerih temelječi pristopi


Drugi pristop, ki temelji na velikih korpusih, je na primerih temelječi (angl. the example based MT). Prve eksperimente so začeli na Japonskem. Ta pristop temelji na hipotezi, da je pri prevajanju velikokrat treba najti samo analogen primer, kako je bil posamezen primer ali posamezna skupina besed prevedena prej. Zbrati skušajo korpus parov prevodov, ki ga poravnajo s statističnimi metodami ali z jezikovnimi pravili. Nato z ujemalnim algoritmom – nekatere skupine uporabljajo semantične metode (npr. semantične mreže), druge skupine statistične informacije o pogostosti besed – iščejo enoti vhodnega besedila najbližjo enoto v korpusu prav tako v vhodnem jeziku. To je osnova za prevod v ciljni jezik, kjer sestavijo poved z zlepljanjem enot iz poravnanega korpusa. Prav kombinacija izbranih skupin besed v ciljnem jeziku je največji problem, saj težko dobimo slovnično pravilne povedi. Glavna prednost pristopa pa je, da so prevodi pomensko pravilni, saj je besedilo vzeto iz dejanskih prevodov, ki so jih naredili strokovnjaki.


2.1.3.5Hibridni sistemi


Preskušanje opisanih različnih pristopov in metod je kazalo, da noben »čisti« pristop ne da zadovoljujočih rezultatov. V drugi polovici devetdesetih vse pogosteje zasledimo mnenja, da lahko omejitve posameznih pristopov presežemo le s kombinacijo prednosti jezikovnih pravil, statističnih in na primeru temelječih pristopov in da lahko le s takim hibridnim pristopom (angl. hybrids) dosežemo večjo kvaliteto.





2.2Sistemi strojnega simultanega prevajanja govora


V poznih devetdesetih se povečuje tudi zanimanje za strojno simultano prevajanje govora (angl. speech-to-speech translation).

Medtem ko sistem strojnega prevajanja pisnega besedila običajno že dobi kot vhodno enoto zaporedje znakov v binarnem zapisu, ki predstavljajo črke, besede, stavke, je vhodna enota sistema strojnega simultanega prevajanja govora zvočni signal, zaznan prek mikrofona. Sistem mora iz zvočnega signala šele razpoznati foneme in besede ter jih prevesti v digitalni zapis, ki predstavlja črke, besede, stavke. Modul za razpoznavo govora (razpoznavalnik govora (angl. speech recognition)) naredi to bolj ali manj uspešno, redko 100-odstotno pravilno. Zapisani govor, torej govorjeno besedilo, pri sistemih strojnega simultanega prevajanja govora zato pogosto že vsebuje napake, tj. napačno razpoznane besede, in ne vključuje ločil, ki lahko bistveno pripomorejo k jezikovni analizi, če je ta vključena v sistem.

Šele po razpoznavi govora lahko sistem strojnega simultanega prevajanja govora prevede besedilo iz vhodnega v ciljni jezik – ta modul imenujemo prevajalnik govorjenega besedila (angl. speech centered translation), ki je zaradi značilnosti spontanega govorjenega besedila (popravljanja, ponavljanja, spremembe strategije, zapolnjevalci vrzeli itd.) drugačna, težja naloga kot prevajanje pisnega besedila.

V tretjem koraku sledi pretvorba zapisanega besedila v ciljnem jeziku v zvočni signal, da ga lahko slišimo, torej sinteza s sintetizatorjem govora (angl. speech synthesis). Takšna tridelna shema sistemov strojnega simultanega prevajanja govora je v zadnjih letih v svetu splošno sprejeta (Hoege, 2002).


V nadaljevanju predstavljam pregled pomembnejših sistemov strojnega simultanega prevajanja v svetu in zatem pregled domačih aktivnosti na tem področju. Nekaj pozornosti pri tem namenim tudi govornim korpusom, posnetim za razvoj teh sistemov, saj so se prav ti ključna točka za sodelovanje tehnoloških ved in jezikoslovja.


2.2.1C-STAR


Prve sisteme strojnega simultanega prevajanja govora, katerih namen je bil samo demonstrirati delovanje principa, so začeli razvijati v poznih osemdesetih in v začetku devetdesetih let 20. stoletja. Ti sistemi so delovali le za omejen način govorjenja, za omejeno število slovničnih struktur in omejen slovar. Razvijali so jih ATRF, AT&T, CMU (univerza Carnegie-Mellon), UKA (univerza Karlsruhe), NEC in Siemens AG.

V začetku devetdesetih je sodelovanje med organizacijami, kjer so razvijali sisteme strojnega simultanega prevajanja govora, preraslo v prostovoljno združenje C-STAR (Consortium for Speech Translation Advanced Research) (http://www.c-star.org/). Namen združenja je spodbuditi sodelovanje med skupinami po svetu, ki se ukvarjajo s strojnim simultanim prevajanjem govora.

Sprva je šlo za sodelovanje med ATR Interpreting Laboratories v Kjotu, Japonska, univerzo Carnegie-Mellon v Pittsburghu v ZDA, Siemensom AG iz Muenchna in univerzo Karlsruhe iz Nemčije (C-STAR I, od 1991-1993).

Kasneje, v drugi fazi raziskovalnih aktivnosti (C-STAR II, od 1993-1999), so se pridružili ostali partnerji: ETRI (Koreja), IRST (Italija), LIMSI (Francija), SRI (Velika Britanija), IIT (Indija), Lincoln Labs (ZDA), DFKI (Nemčija), MIT (ZDA) in AT&T (ZDA). Od prvih demonstracij l. 1993 se v drugi fazi preusmerijo v prevajanje spontanega govora in na velike slovarje (10.000-100.000 besednih oblik). Obvežejo se, da bodo skupaj zgradili sistem strojnega simultanega prevajanja govora, ki sprejme vhodno besedilo v jezikih vseh partnerjev (nemški, francoski, angleški, japonski, korejski, italijanski) ter prevaja in sintetizira ciljno besedilo v govor v vsaj enem ciljnem jeziku. Pri scenarijih se osredotočijo na načrtovanje potovanja in dogovarjanja za sestanek. Med pristopi k strojnemu prevajanju razvijajo interlingvo in na primerih temelječe strojno prevajanje. Partnerji tudi individualno preskušajo različne pristope k razvoju tehnologije ter medsebojno izmenjavajo jezikovne vire in znanje.

Po letu 1999 je projekt C-STAR prešel v tretjo fazo.

Z mednarodnim sodelovanjem ustanov, ki so večinoma tudi članice združenja C-STAR, so nastali štirje večji sistemi strojnega simultanega prevajanja govora: Janus, Verbmobil, EuTrans in Nespole!.


2.2.2Janus


JANUS (Waibel et al., 1997; Levin et al., 1998; Levin et al., 2000; http://www.c-star.org/main/english/cstar2/tech/janus.html) je eden prvih sistemov za prevajanje pogovornega govora (angl. conversational speech), sam projekt pa eden najobširnejših na tem področju. Razvijati so ga začeli v ZDA in v Nemčiji v poznih osemdesetih in devetdesetih letih prejšnjega stoletja, kasneje pa pritegnili še japonske partnerje. Janus-I je temeljil na procesiranju sintakse, deloval je le ob sintaktično pravilnih povedih in za majhen slovar (500 besed). V naslednjih verzijah, Janus II in III, pa temelji na pristopu s semantično interlingvo. Čeprav še vedno deluje le za omejena komunikacijska področja (načrtovanje potovanja, rezervacije), lahko procesira pogovorni govor s slovarjem 10.000 besed. Razpoznava govor v nemščini, angleščini ali španščini ter ga prevaja in sintetizira v nemščino, angleščino, španščino, japonščino ali korejščino. Ker temelji na interlingvi, dodajanje novih jezikovnih parov ni tako težavno, zato že poteka razvoj v tej smeri (za francoščino, italijanščino).

Nekaj podatkov o govornih korpusih, posnetih za sisteme Janus (Suhm et al., 1994; Lavie et al., 1997):

  1. dogovarjanje za sestanek:

  1. načrtovanje potovanja in rezervacije:

Primerjava med pogovori, posnetimi s pritiskom na gumb, in prostimi pogovori pokaže, da so povedi pri pritisku na gumb povprečno dvakrat daljše.

2.2.3Verbmobil


Verbmobil (http://verbmobil.dfki.de/overview-us.html; Wahlster, 2000) je bil dolgoročni projekt, ki ga je v veliki meri sponzoriralo nemško ministrstvo za šolstvo, znanost, razvoj in tehnologije, delež so prispevali tudi industrijski partnerji. V konzorciju projekta je sodelovalo skupaj 31 partnerjev s treh kontinentov. Začel se je l. 1993 in po uspešni razvojni fazi in razvitem prototipu l. 1997 prešel v drugo fazo, ki je trajala do l. 2000.

Cilj prve faze je bil razviti od govorca neodvisni (angl. speaker independent) sistem za strojno simultano prevajanje pogovorov, kjer se govorca dogovarjata za sestanek. Prvi sistem – Verbmobil Demonstrator – je prevajal iz nemščine v angleščino, narejen je bil za slovar 1292 besednih oblik. Proti koncu prve faze so sistem razširili (Verbmobil Research Prototype) na slovar 2500 besednih oblik in dodali slovar 400 besednih oblik za razpoznavo japonskega govora in prevajanje in sintezo v angleščini.

V drugi fazi je bil sistem od dogovarjanja za sestanek razširjen tudi na organiziranje potovanja in urejanje hotelskih rezervacij, jezikovni pari pa na nemško-angleško in obratno ter japonsko-angleško in obratno. Novembra 1998 so dokončali Verbmobil Research Prototype IIa (slovarji 8000 besed za nemščino, 4500 za angleščino in 2.500 za japonščino), zaključek projekta pa zaokrožili v sistem Verbmobil 1.0 (slovarji 10.000 besednih oblik za nemščino, 6800 za angleščino in 2500 za japonščino).

Razpoznava govora je narejena za tekoč spontani govor; pri segmentiranju govora na manjše enote (segmente oz. izjave) se opira predvsem na premore v govoru, intonacijo, trajanje in energijo vhodnega signala. Sintaktične in semantične enote obdeluje hkrati. Sintaktični analizator obdeluje rezultate razpoznavalnika, semantični analizator pa analizira rezultate razpoznave glede na jezikovni kontekst. Modul za analizo dialoga je kombinacija na vedenju temelječih in statističnih pristopov ter razpoznava in napoveduje govorna dejanja. Sintaktično-semantični razčlenjevalnik posreduje podatke modulu za prenos, ta pa jih prevede v abstraktno predstavitev v ciljnem jeziku. Modul za tvorjenje besedila v ciljnem jeziku abstraktno predstavitev zapiše v slovnično kar se da pravilne povedi v ciljnem jeziku. Zadnji modul je sintetizator govora. V prevajalnem modulu je torej uporabljen hibridni pristop.


Nekaj podatkov o govornih korpusih, posnetih za razvoj sistema Verbmobil (Kurematsu et al., 2000):

- simulirani pogovori,

- v prvi fazi sta se govorca morala dogovoriti glede termina sestanka ob snemanju s pritiskom na gumb,

- v drugi fazi so govorci simulirali pogovor, v katerem so rezervirali poslovno potovanje v Hannover v Nemčiji,

- sogovornika sta sedela za isto mizo in sta lahko prosto govorila; naročeno je bilo, da morajo govorci govoriti v formalni, poslovni zvrsti,

- v obeh fazah so pogovori enojezični, v maternem jeziku govorcev,

- skupno število posnetih pogovorov je bilo 584 v nemščini, 127 v angleščini, 220 v japonščini,

- posneli so tudi pogovore med govorcema različnih jezikov, ki ne znata jezika drug drugega: ta sta sedela drug nasproti drugemu, človeški prevajalec ali Verbmobilov prevajalnik pa je prevajal besedilo; število teh pogovorov je bilo 166,

- korpusi so bili posneti v studiu v brezšumnem okolju, edino japonski korpus je bil posnet v pisarni.


2.2.4EuTrans


EuTrans (http://prhlt.iti.es/Projectes/EuTrans/EuTrans.html; http://www.hltcentral.org/usrdocs/project-source/eutrans/AR-99/index.htm; Casacuberta et al., 2001) je evropski mednarodni projekt razvoja na primerih temelječega sistema strojnega simultanega prevajanja govora. Prva faza projekta se je začela l. 1996 in je trajala pol leta, druga faza pa je trajala od 1997-2000.

Namen projekta je bil preveriti ustreznost na primerih temelječega strojnega simultanega prevajanja govora in tehnologije končnih avtomatov za sisteme strojnega simultanega prevajanja govora za omejeno komunikacijsko področje (telefonski pogovori s hotelsko recepcijo) ter ob koncu razviti demonstracijski sistem strojnega simultanega prevajanja govora za to področje.

Nekaj podatkov o govornih korpusih, uporabljenih za prevajalni modul sistema EuTrans (Aiello et al., 1999):




2.2.5Nespole!


Projekt Nespole! (http://nespole.itc.it/; Burger et al., 2001; Taddei et al., 2002; Mana et al., 2003; Mana et al., 2004; Metze et al., 2002) je trajal od začetka l. 2000 do februarja 2003 v sodelovanju italijanskih, nemških, ameriških in francoskih partnerjev. Namen je bil razviti sisteme za strojno simultano prevajanje govora na podlagi interlingve, ki hkrati omogočajo tudi prenos slike in s tem neverbalno komunikacijo na daljavo. V središču pozornosti ni natančnost prevodov, pač pa sposobnost, da se s pomočjo sistema uporabnika uspešno sporazumeta o namenih, idejah, konceptih in da dosežeta namen komunikacije. Vključeni jeziki so italijanski, angleški, nemški in francoski. V projektu so razvili tri sisteme:

Pri snemanju govornih korpusov za scenarije iz turizma so povabili k sodelovanju profesionalce, in sicer so vlogo agenta igrali profesionalni turistični agenti iz turistične pisarne v Trentinu, stranke pa so igrali študenti, sodelavci ipd. Za pogovore o zdravniški pomoči so govorce (zdravnike in paciente) zbrali med študenti medicinske fakultete. Za Showcase 1A so posneli skupaj 200 pogovorov v vseh štirih vključenih jezikih, za Showcase 2A 66 pogovorov, za Showcase 2B pa 49 pogovorov. Pogovori so bili enojezični. Posnetke so ortografsko prepisali, označili z interlingvo ter prevedli v ostale tri v projekt vključene jezike, da je nastal poravnani korpus.

2.2.6DIPLOMAT, Tongues


Sistem strojnega simultanega prevajanja govora DIPLOMAT (Frederking et al., 1997) razvijajo na CMU v Ameriki. Namenjen je nezahtevnim uporabnikom in ni tako ozko omejen na določeno komunikacijsko področje. Kvaliteta prevodov torej ni posebno visoka, lahko pa pomaga premoščati osnovne jezikovne ovire. V projektu raziskujejo tudi možnost hitrega prenosa na nove jezike, in sicer poskušajo razviti strojno simultano prevajanje med angleščino in novim jezikom v nekaj tednih. Na tak način so razvili dvojezični sistem strojnega simultanega prevajanja govora med srbo-hrvaščino in angleščino v manj kot mesecu dni ter sistem za prevajanje med haitsko kreolščino in angleščino ter korejščino in angleščino. Pri tem uporabljajo različne pristope, od statističnih do jezikovnih pravil, združene v enotno arhitekturo (angl. multi-engine machine translation). Vhodno besedilo prevede več prevajalnikov hkrati, vsak z različnim pristopom, zato je izhod več alternativnih, po možnosti prekrivajočih se prevodov. S statističnimi pristopi jezikovnih modelov nato izberejo najboljši skupen prevod.

Sistem Tongues (Frederking et al., 2002) so razvili prav tako na CMU in se v veliki meri opira na sistem in jezikovne vire sistema DIPLOMAT. Sponzorirala ga je ameriška vojska, namen pa je bil hiter razvoj sistema strojnega simultanega prevajanja govora za potrebe ameriške vojske na ozemlju nekdanje Jugoslavije. Sistem prevaja med angleščino in hrvaščino v obe smeri in prav tako ni omejen na ozko komunikacijsko področje. Zaradi zahtevane hitrosti, širokega komunikacijskega področja in finančnih omejitev so bili izvedljivi le statistični pristopi.

2.2.7Ameriški vojaški sistemi: Babylon, LASER, Speechlator


Podobno kot Tongues so tudi sistemi Babylon, LASER in Speechlator namenjeni podpori posebnih enot in vojakov na kriznih območjih za premoščanje osnovnih jezikovnih ovir in pridobivanje informacij na terenu. Tehnologije so razvite tako, da je dodajanje novih jezikov kar se da enostavno in hitro. V raziskave in razvoj so vključene številne skupine po ZDA, med njimi tudi CMU, in preskušajo različne pristope, interlingvo in statistične. Med prvimi vključenimi jeziki je bila arabščina.

2.2.8Raziskave v vzhodni Aziji: MATRIX, LodeStar, Digital Olympics


Sistem MATRIX (Zhang, 2003) razvijajo v japonskem podjetju ATR in temelji na korpusnih statističnih pristopih. Sistem razpoznava tekoči govor v japonščini (vsakdanji pogovori) s slovarjem 2000 besed ter razpoznano besedilo prevaja in sintetizira v angleščino.

LodeStar (Zhang, 2003) je kitajski sistem strojnega simultanega prevajanja govora, ki ga razvijajo na kitajski akademiji znanosti. Prevajanje poteka z dvema pristopoma: na primerih temelječih in z interlingvo (brez kompleksnejših semantičnih analiz). Če nobeden od prevajalnikov ne uspe prevesti vhodnega besedila, se vključi sistem dialoga in nadzoruje izhodno besedilo.

Digital Olympics (http://www.eurochina2002.com/digital_olympics.html) je skupen projekt Evropske unije in Kitajske, katerega cilj je uporabiti tehnologije umetne inteligence za premoščanje jezikovnih ovir in ponuditi večjezikovne informacijske storitve ljudem, ki so vključeni v olimpijske igre. Projekt se je začel konec l. 2002 in bo trajal do 2008 (do olimpijskih iger na Kitajskem, ko naj bi uporabili v projektu razvito tehnologijo). Raziskave potekajo v smeri uporabe interlingve in statističnih pristopov.

2.2.9Komercialni sistemi: AT&T, NEC, IBM


Skupina na AT&T (http://www.research.att.com/~srini/Projects/Anuvaad /home.html) je začela razvoj sistemov strojnega simultanega prevajanja govora l. 1996 s prototipom prevajalnika HMIHY (How May I Help You), sprva za prevajanje pogovorov v klicnem centru iz španščine v angleščino. Kasneje skušajo razširiti sistem z drugimi jeziki, npr. za prevajanje iz japonščine v angleščino, in na ostale govorne storitve. Za prevajalni modul uporabljajo statistični pristop.

Japonsko podjetje NEC (Zhang, 2003) razvija dvojezični japonsko-angleški sistem strojnega simultanega prevajanja pogovorov v turizmu. Prevajalni modul temelji na morfoloških in sintaktičnih analizah.

V IBM (Zhang, 2003) so razvili sistem strojnega simultanega prevajanja govora med kitajščino in angleščino MASTOR. Sistem deluje za omejeno komunikacijsko področje, prevajalni modul temelji na statističnem sintaktično-semantičnem razčlenjevalniku.


2.2.10 PF-STAR


PF-STAR (Preparing Future Multisensorial Interaction Research) je novejši projekt (od 2002-2004) (http://pfstar.itc.it), ki vključuje tudi raziskave s področja izboljšanja sistemov strojnega simultanega prevajanja govora, čeprav je zasnova širša. Cilj projekta so nove raziskave, ki bi položile temelje za nadaljnji razvoj večjezične in veččutne komunikacije s stroji (angl. multilingual and multisensorial communication – MMC). To vključuje poleg strojnega simultanega prevajanja govora razpoznavo in sintezo emocij ter temeljne govorne tehnologije za otroke.

Na področju strojnega simultanega prevajanja govora je cilj projekta izboljšanje obstoječe tehnologije (razvite zlasti v projektih Verbmobil, Janus in EuTrans) ter primerjava med različnimi scenariji in različnimi pristopi, ki bi pomagala določiti nove smeri raziskovanja in ciljne aplikacije za posamezen pristop.


2.2.11 LC-STAR


V mednarodni projekt LC-STAR (Lexica and Corpora for Speech-to-Speech Translation Components) (www.lc-star.com) je bila vključena tudi Univerza v Mariboru in velik del spodbud za nastanek te raziskave izhaja prav iz njega, zato ga predstavljam nekoliko podrobneje.

Projekt LC-STAR je trajal od začetka l. 2002 do konca l. 2004. Razdeljen je bil v dve fazi: v prvi so bili zgrajeni veliki slovarji za 13 evropskih in azijskih jezikov (tudi slovenskega) za izboljšanje razpoznave in sinteze govora, ki sta del sistemov strojnega simultanega prevajanja govora. V drugi fazi so bile narejene raziskave jezikovnih virov, ki so potrebni za izboljšanje prevajalnega modula v sistemih strojnega simultanega prevajanja govora, določene so bile specifikacije za te vire, po specifikacijah so bili zgrajeni viri za tri jezike in razvit je bil demonstracijski sistem strojnega simultanega prevajanja govora. Ugotovili so (Ueffing, Ney, 2005), da poleg poravnanih dvo- ali večjezičnih govornih korpusov, ki so temelj za razvoj strojnega simultanega prevajanja govora, tega izboljšajo tudi korpusi fraz, značilnih za izbrano komunikacijsko področje. Prav tako se rezultati prevajanja izboljšajo, če je korpus lematiziran in če imajo besede označeno besedno vrsto. Poravnani korpusi fraz so bili zgrajeni za devet jezikov, tudi slovenskega, poravnani govorni korpusi in demonstracijski sistem strojnega simultanega prevajanja govora pa za tri jezike (angleškega, španskega in katalonskega).

Nekatere značilnosti govornih jezikovnih virov, na podlagi katerih je bil prepisan govorni korpus, so (Arranz et al., 2004b):


Od pristopov k strojnemu prevajanju v projektu LC-STAR favorizirajo statističnega, saj naj bi bil za faktor 2 uspešnejši od konvencionalnega pristopa s pravili, razvoj je veliko cenejši in ga je lahko prenesti na nove jezikovne pare. Medtem ko lahko na primerih ali pravilih temelječa pristopa uspešno prevajata le besedilo, ki je pokrito s pravili ali primeri v učnem korpusu, so statistični pristopi uspešni tudi pri prevajanju struktur, ki jih ni bilo v učnem korpusu (Arranz et al., 2004a: 7).


2.2.12 TC-STAR


TC-STAR (Technology and Corpora for Speech-to-Speech Translation) (http://www.tc-star.org/) je obsežen mednarodni projekt, ki ga financira Evropska unija, njegovi cilji pa so izboljšati vse segmente tehnologije strojnega simultanega prevajanja govora, torej strojne sinteze, razpoznave govora in prevajanja govorjenega besedila. V času trajanja projekta (2004-2007) želijo razviti prevajanje pogovornega govora za širša komunikacijska področja, razpoznavo govora, ki bo zanesljiva tudi ob različnih načinih govora, v različnih akustičnih pogojih in za različne govorce, uspešno želijo integrirati razpoznavo govora in prevajanje govorjenega besedila v enoten statistični okvir ter razviti sintezo govora, ki bo uspešno imitirala človeški govor, kar zahteva nove modele za prozodijo, emocije in ekspresivni govor. Razvoj je usmerjen predvsem na tri jezike: angleščino, španščino in kitajščino.


2.2.13 Sklep


Razvoj sistemov strojnega simultanega prevajanja govora se od začetne usmerjenosti raziskovanja v interlingvo, zlasti v ZDA na CMU, kjer imajo tradicijo interlingve že iz sistemov strojnega prevajanja pisnih besedil, usmerja proti statističnim (korpusnim) pristopom, zlasti v Evropi s projekti PF-STAR, LC-STAR, TC-STAR. Temeljni jezikovni vir za prevajanje govorjenega besedila je pri tem ortografsko transkribiran in preveden poravnan govorni korpus za izbrano komunikacijsko področje, v pomoč pa so tudi poravnani korpusi fraz, značilni za posamezno področje. Večina sistemov strojnega simultanega prevajanja govora je omejena na posamezna komunikacijska področja, predvsem na področje turizma, za potrebe vojaških operacij, nekoliko manj tudi klic v sili in podobne službe. Tabela 1 primerjalno povzema nekatere osnovne lastnosti predstavljenih sistemov za strojno simultano prevajanje govora.



Sistem

Leto

Scenarij

Vključeni jeziki

Pristop

Velikost slovarja

C-STAR

1991-1993, 1993-1999, 1999-

organiziranje potovanja, dogovarjanje za sestanek

nemški, angleški, italijanski, francoski, japonski, korejski

interlingva, na primerih temelječ


Verbmobil



1993-1996

dogovarjanje za poslovni sestanek

nem.-ang., jap.-ang.

statistični+

pravila

1300/2500

1997-2000

dogovarjanje za sestanek, načrtovanje poti, hotelska rezervacija

nem.-ang.,

ang.-nem., jap.-ang.,

ang.-jap.

hibridni: statistični+

jezikovna pravila

10.000

JANUS


1992-1995

dogovarjanje za sestanek

ang., nem., špan. prevede v nem., ang., špan., jap. ali korejsko

interlingva, temelji na sintaktičnih analizah

500

1996

dogovarjanje za sestanek, načrtovanje potovanja, rezervacije

ang., nem. ali špan. prevede v nem., ang., špan., jap. ali korejsko

interlingva, temelji na semantičnih analizah

3000

1997-

dogovarjanje za sestanek, načrtovanje potovanja, rezervacije

ang., nem. ali špan. prevede v nem., ang., špan., jap. ali korejsko

interlingva, temelji na semantičnih analizah

10.000

EuTrans

1996,

1997-2000

hotelska recepcija

italijansko, špansko, angleško

na primerih temelječe


Nespole!

1/2000- 12/2002

turizem, prva pomoč

angl.-ital., nem.-ital., fra.-ital.

interlingva


DIPLOMAT


splošno

angl.-shr., angl.-kreol.,

angl.-korej.

...

statistični in jezikovna pravila


Tongues


za vojake na terenu

angl-hr.,

hr.-angl.

statistični


Babylon


za vojake na terenu


različni, od interlingve do statističnih


LASER


za vojake na terenu


različni, od interlingve do statističnih


Speechlator


za vojake na terenu


različni, od interlingve do statističnih


MATRIX


vsakdanji pogovor

jap.-angl.

statistični

2000

LodeStar



kit.-angl.

na primerih, interlingva


Digital Olympics

2002-2008

uporaba na olimpijskih igrah


interlingva, statistični...


AT&T

od 1996

klicni center idr.

špa.-angl., jap.-angl. idr.

statistični


NEC


pogovori v turizmu

jap.-angl.

morf. in sint. analize


MASTOR



kit.-angl.

statistični razčlenjevalnik


PF-STAR

2002-2004


angleški, nemški, italijanski, španski, švedski



LC-STAR

2002-2004

turizem: pogovori v hotelski recepciji, v turistični agenciji, v turistični pisarni, železniška postaja/letališče

španski, katalonski, angleški

statistični


10.000

TC-STAR

2004-2010


angleški, španski, kitajski

statistični



Tabela 1: Primerjalna preglednica projektov in sistemov strojnega simultanega prevajanja govora.


2.3Strojno simultano prevajanje govora na Slovenskem


Govorne tehnologije, kamor spada strojno simultano prevajanje govora, se začnejo na Slovenskem bolj aktivno razvijati v začetku devetdesetih let, ko se začnejo formirati posamezni centri, ki se raziskovalno usmerijo v to področje. V nadaljevanju po abecednem redu predstavljam te institucije in tiste njihove aktivnosti, ki segajo na področja razvoja modulov, vključenih v strojno simultano prevajanje govora, to so sinteza in razpoznava govora ter prevajanje govorjenega besedila.


2.3.1Alpineon


Projekt za sistem strojnega simultanega prevajanja govora, ki bi vključeval slovenski jezik, poteka v okviru podjetja Alpineon d.o.o. (www.alpineon.com) v sodelovanju s Fakulteto za elektrotehniko (glej 2.3.3), Filozofsko fakulteto (glej 2.3.6), Fakulteto za družbene vede, Institutom Jožef Stefan (glej 2.3.8) in podjetjem Amebis (glej 2.3.2). Sistem je poimenovan VoiceTRAN Communicator in je zasnovan na arhitekturi DARPA Galaxy Communicator (Žganec Gors et al., 2005). Modul prevajanja govorjenega besedila združuje tako rekoč večino obstoječih pristopov k strojnemu prevajanju: pomnilnik prevodov, statistični pristop, na primerih temelječi pristop kot tudi jezikovna pravila. Kot izhodiščni sistem je predviden Presis (glej 2.3.2), ki je sicer razvit za prevajanje pisnih besedil. Za prevajanje govorjenega besedila bodo uporabljeni slovar vojaške terminologije in obstoječi vzporedni korpusi, ki vključujejo slovenski jezik, predvsem IJS-ELAN (http://nl.ijs.si/elan/). Obstoječa literatura o projektu sicer navaja predvsem načrte in zasnove, morebitnih rezultatov in njihovega vrednotenja ob zaključevanju te naloge še ne zasledim.

2.3.2Amebis


Od aktivnosti podjetja Amebis (www.amebis.si) nas v tej raziskavi zanima predvsem prevajalni sistem (oz. pripomoček za prevajanje) Presis za prevajanje iz slovenščine v angleščino in angleščine v slovenščino, prvič javno predstavljen l. 2002. Presis je sicer razvit za prevajanje pisnih besedil, ne govora, kar pomeni, da, sodeč po tujih izkušnjah, uspešna integracija v sisteme strojnega simultanega prevajanja govora ni verjetna, poglejmo pa, katere pristope uporablja.

Ker gre za komercialni produkt, je v strokovni literaturi skopo predstavljen; iz objavljenega (Romih, Holozan, 2002) lahko sklepamo, da je zasnovan na neke vrste modularnem prenosnem pristopu: najprej besedilo v vhodnem jeziku oblikoslovno, sintaktično in semantično analizira, sledi prenos besedila v ciljni jezik na podlagi dvojezičnega besednega slovarja, pri procesu tvorjenja besedila v ciljnem jeziku pa spet vključuje stavčni sintetizator. Sistem Presis je v demonstracijske namene (do 200 besed) dostopen na spletnih straneh (http://presis.amebis.si/prevajanje/index.asp).


2.3.3Fakulteta za elektrotehniko, Laboratorij za umetno zaznavanje, sisteme in kibernetiko (LUKS)


Na Fakulteti za elektrotehniko Univerze v Ljubljani se s področjem jezikovnih tehnologij ukvarja Laboratorij za umetno zaznavanje, sisteme in kibernetiko (http://luz.fe.uni-lj.si/). V luči sistemov strojnega simultanega prevajanja govora je predvsem zanimivo njihovo raziskovalno delo s področja sinteze in tudi razpoznave govora. Več izkušenj imajo s sintezo govora, kjer so bili med drugim vključeni v projekte razvoja bralnika besedil za slepe in slabovidne, preučevanja naravnosti sintetiziranega govora ter govornega vodenja aplikacij za slepe in slabovidne. Rezultate so med drugim predstavili na konferencah Jezikovne tehnologije (Vesnicer et al., 2002; Vesnicer et al., 2004).

2.3.4Fakulteta za računalništvo in informatiko, Laboratorij za arhitekturo in procesiranje signalov


Na Fakulteti za računalništvo in informatiko Univerze v Ljubljani se v okviru Laboratorija za arhitekturo in procesiranje signalov (http://laps.fri.uni-lj.si/Razno/laps.html) med drugim ukvarjajo tudi z razpoznavo in sintezo govora. Razvili so sistem za razpoznavo ločeno izgovorjenih besed – števk ter razpoznavo poljubno dolgega zaporedja števk (Rozman, Kodek, 2000).

2.3.5Fakulteta za elektrotehniko, računalništvo in informatiko, Laboratorij za digitalno procesiranje signalov


Na Fakulteti za elektrotehniko, računalništvo in informatiko Univerze v Mariboru potekajo raziskave in razvoj jezikovnih tehnologij znotraj Laboratorija za digitalno procesiranje signalov na Inštitutu za elektroniko (http://www.dsplab.uni-mb.si/Dsplab/index.php). Skupina med drugim razvija več področij govornih tehnologij: razpoznavo tekočega govora z modeli Markova (Rotovnik et al., 2002), robustnost razpoznavanja (Kotnik et al., 2003), jezikovne modele (Sepesy Maučec et al., 2004), sintezo slovenskega govora z združevanjem, izvedeno s končnimi avtomati (Rojc, 2003), razpoznavo emocij (Hozjan, Kačič, 2003) itd.

Skupina je razvila tudi veliko potrebnih jezikovnih virov (Kačič, Horvat, 1998), od katerih jih nekaj nudi tudi prek mednarodne organizacije ELRA/ELDA: slovar lastnih imen Onomastica, govorne baze SNABI, SpeechDat II, Polidat, oblikoslovna in glasoslovna slovarja SIlex in LC-STAR, govorna korpusa BNSI Broadcast News in Turdis itd.

Razvite algoritme predstavlja aplicirane v različne demonstracijske sisteme, predvsem govorno vodene aplikacije, npr. LentInfo (Žgank et al., 2002), Voice Tetris, GENESIS itd., konceptni sistem strojnega simultanega prevajanja govora Babilon pa predstavlja na primeru hotelskih rezervacij, in sicer za jezikovni par slovenščina-nemščina (v obe smeri).

2.3.6Filozofska fakulteta, Oddelek za prevajalstvo in Oddelek za slovenistiko


Na Oddelku za prevajalstvo Filozofske fakultete Univerze v Ljubljani (http://www.ff.uni-lj.si/prevajanje/) med drugim sodelujejo tudi na področju razvoja jezikovnih tehnologij in jezikovnih virov. Raziskave in razvoj so usmerjeni predvsem v pripomočke za prevajalce (npr. pomnilniki prevodov) (Vintar, 2001) in potrebne jezikovne vire. Veliko v tej smeri je bilo razvitega v okviru doktorske raziskave (Vintar, 2003): angleško-slovenski korpus strokovnih besedil TRANS, ki obsega 900.000 besed, vključuje pa besedila iz medicine, jedrske tehnike, zakonodaje/prava, geologije in turizma, ter sistem za dvojezično luščenje izrazja (za jezikovni par angleščina-slovenščina).

Oddelek za slovenistiko (http://www.ff.uni-lj.si/oddelki/slovenistika/) je skupaj s podjetjema DZS in Amebis ter Institutom Jožef Stefan aktivno sodeloval pri gradnji referenčnega korpusa za slovenski jezik FIDA (www.fida.net) (Stabej, 1998; Gorjanc, 2002), ki obsega 100 milijonov besed. Korpus v okviru aplikativnega raziskovalnega projekta Jezikovni viri za slovenščino nadgrajujejo v korpus FidaPlus (www.fidaplus.net), ki je v demonstracijski različici dostopen na spletnih straneh, dalj časa pa že načrtujejo tudi gradnjo govornega korpusa (Stabej, Vitez, 2000; Zemljarič Miklavčič, 2004).


2.3.7Hermes SoftLab


Podjetje Hermes SoftLab se je na področje jezikovnih tehnologij za slovenski jezik vključilo s sistemom strojne razpoznave govora v praksi – M-vstopnico (Imperl, Sket, 2002). Ta omogoča uporabnikom mobilnih telefonov rezervacijo in nakup vstopnic za kino predstave preko govornega uporabniškega vmesnika.

2.3.8Institut Jožef Stefan, Odsek za inteligentne sisteme


Na osrednji slovenski raziskovalni ustanovi razvijajo jezikovne tehnologije znotraj Oddelka za inteligentne sisteme (http://nl.ijs.si/). V luči sistemov strojnega simultanega prevajanja govora je zanimivo njihovo raziskovalno delo na področju sinteze slovenskega govora in strojnega prevajanja. Razvili so sintetizator slovenskega govora (Šef et al., 1998), zasledimo pa tudi objavo na temo avtomatskega učenja prevajanja slovenščine v angleščino (Vičič, Erjavec, 2002). Gre za poskus strojnega prevajanja iz slovenskega jezika v angleškega na osnovi statističnega pristopa z orodjem EGYPT. Sistem je bil učen na dvojezičnem stavčno poravnanem korpusu IJS-ELAN (http://nl.ijs.si/elan/).

IJS-ELAN je nastal v sodelovanju Instituta Jožef Stefan, Filozofske fakultete, FMF in Amebisa, vsebuje pa milijon besed prevodov iz angleščine in obratno. Vključena besedila so v glavnem pisna, leposlovje, nekaj pravnih in nekaj strokovnih, od govorjenih pa govori predsednika RS Milana Kučana.


2.3.9ZRC SAZU, Inštitut za slovenski jezik Frana Ramovša


Na Inštitutu za slovenski jezik Frana Ramovša pri ZRC SAZU se v Laboratoriju za korpus slovenskega jezika (http://bos.zrc-sazu.si/) ukvarjajo predvsem z razvojem pisnih jezikovnih virov. Urejajo korpusa Nova beseda in Beseda, zbirko oblikoslovno označenih besedil ter elektronske slovarje slovenskega jezika (SSKJ, odzadnji slovar, besedišče).


2.3.10 Jezikovni viri za razvoj sistemov strojnega simultanega prevajanja govora za slovenski jezik


Ker so jezikovni viri ključna točka za sodelovanje jezikoslovja in tehnoloških ved pri razvoju jezikovnih tehnologij, preglejmo na kratko, katere vrste jezikovnih virov potrebujemo za razvoj komponent strojnega simultanega prevajanja govora in katere od teh imamo razvite za slovenski jezik.

Za razvoj sinteze govora potrebujemo predvsem manjšo govorno bazo enega (profesionalnega) govorca, ki zajema čimveč kombinacij fonemov v kontekstu, fonetično prepisano in segmentirano, ter oblikoslovni in glasoslovni slovar. Večina teh virov za slovenski jezik je razvitih (LC-STAR, MULTEXT-EAST, Onomastica, SIlex, različne govorne baze za sintezo govora). Jezikovni viri, potrebni za razvoj strojne razpoznave govora, so obsežnejši in zahtevnejši: potrebujemo obsežne (milijonske) korpuse (za razpoznavanje spontanega govora bi bilo idealno, da bi bili to korpusi spontanih govorjenih besedil), govorne baze s posnetki čimveč govorcev, razpršenih po različnih kriterijih (narečje, spol, starost, izobrazba...) in prav tako oblikoslovne in glasoslovne slovarje. Tudi tu je veliko jezikovnih virov za slovenski jezik že razvitih (korpusi FIDA, FIDAPLUS, Nova beseda idr.,3 govorne baze (sicer zelo različnih obsegov in različne kvalitete) SpeechDat II, Polidat, Snabi, BNSI Broadcast News, Turdis, Gopolis, MobiLuz, Luz, govorna zbirka vremenskih napovedi itd.). Za razvoj prevajanja govorjenega besedila potrebujemo poravnani korpus (kot je npr. IJS-ELAN za slovenščino-angleščino), dvo- ali večjezične (elektronske) slovarje, poravnane korpuse fraz (kot so npr. v okviru projekta LC-STAR tudi za slovenski jezik narejene za področje turizma).

Iz tega pregleda ugotovimo, da za začetek razvoja sistemov strojnega simultanega prevajanja govora najbolj manjkajo korpusi spontanih govorjenih besedil, in sicer tako enojezični govorni korpusi, potrebni za razvoj razpoznave govora, kot dvo- ali večjezični poravnani govorni korpusi, potrebni za razvoj prevajanja govorjenega besedila. Sicer v zadnjem času nastaja nekaj manjših enojezičnih govornih korpusov (približno obsega 15.000 besed) predvsem znotraj doktorskih raziskav, tudi v tej, kar pa je za statistične metode veliko premajhen obseg – korpusi za rabo v jezikovnih tehnologijah se običajno merijo v milijonih besed.


2.3.11 Sklep


Iz predstavljenih aktivnosti organizacij lahko sklenemo, da v več centrih razvijajo razpoznavo in sintezo govora, ki ju tudi že vgrajujejo v različne aplikacije, seveda pa je zlasti pri razpoznavi tekočega govora nedvomno treba še veliko narediti za večjo uspešnost, še več pa pri naslednjem koraku, razpoznavi pogovornega govora. Sinteza govora je bolj uspešna, vseeno pa je tudi tu še precej prostora za izboljšanje, predvsem pri prozodiji. Prevajanje govorjenega besedila za slovenski jezik šele začenjamo razvijati, tako da o tej tehnologiji še ne najdemo objav, velika ovira pri tem je tudi pomanjkanje ustreznih jezikovnih virov, tj. dvo- ali večjezičnih poravnanih korpusov spontanih govorjenih besedil.

3UTEMELJITEV IN CILJI RAZISKAVE


V tem poglavju opozorim na razlike med pogovorom in pisnim diskurzom, ki vplivajo tudi na razlike med strojnim prevajanjem pisnega besedila in strojnim simultanim prevajanjem govora. Nato navedem nekaj najpomembnejših opažanj o težavah, ki jih značilnosti pogovornega govora povzročajo pri strojnem simultanem prevajanju govora, ter na kratko pregledam, kako te značilnosti obravnava človek-tolmač. V jezikoslovju značilnosti spontanega govorjenega diskurza največ raziskuje analiza diskurza, zato pregledam, kaj je na tem področju raziskanega v slovenskem prostoru. Vsi navedeni pregledi vodijo k dvema osnovnima ciljema, ki ju izpeljem v zadnjem podpoglavju tega poglavja.


3.1Pogovor – pisni diskurz


Že pri pregledu področja strojnega prevajanja opozorim na pomembne razlike med strojnim prevajanjem pisnega besedila in strojnim simultanim prevajanjem govora. Razlike izhajajo predvsem iz razlik med pogovorom in pisnim diskurzom, kar posledično pomeni tudi različno sestavo sistemov strojnega prevajanja pisnega besedila (kjer potrebujemo samo prevajalni modul) in sistemov strojnega simultanega prevajanja govora (kjer potrebujemo poleg prevajalnega modula tudi modul za razpoznavo in modul za sintezo govora).

Poleg temeljne razlike v prenosniku je zelo različno tudi samo besedilo, ki je produkt pisnega diskurza na eni ali spontanega govorjenega diskurza na drugi strani. Razlike ponazarja naslednja primerjava dveh različnih diskurzov o isti temi, all inclusive ponudbi nekega hotela. Primer pisnega diskurza o tej temi je iz turističnega kataloga (vir: katalog agencije Sonček: Poletje 2004. Slovenija, Hrvaška, Črna gora, otok Krf. Str. 96.) (Besedilo v prospektu je oblikovano tudi z barvami in različnimi črkami in je v spodnjem prepisu kolikor se da dosledno posneto. Ozadje je še dodatno niansirano, zgornji del s svetlo modro in srednji del z nežno rdečkasto.)


.......................................................................

Hotel FARAON***


TRPANJ


(polotok Pelješac) ALL INCLUSIVE

Lega: na robu majhnega kraja Trpanj (do

centra pribl. 150 m) leži popolnoma

prenovljen, 3-nadstropni hotel Faraon (brez

dvigala).

Vsebina: recepcija, (sef brez doplačila),

klimatizirana restavracija, sladkovodni bazen,

tudi za otroke, z ležalniki in senčniki; hotelsko

parkirišče.

99 sodobnih, klimatiziranih sob; prha/WC,

sušilnik za lase, telefon, SAT-TV, delno balkon,

morska stran in klima; tudi družinske sobe.


ALL INCLUSIVE

Hrana in pijača: samopostrežni zajtrk, kosilo

in večerja, kava, pecivo in prigrizki, domače

alkoholne in brezalkoholne pijače (namizno

vino in točeno pivo med 10. in 24. uro).

Šport: namizni tenis, biljard, pikado, balinanje,

gimnastika, lokostrelstvo, nogomet, kanuji,

vodne igre, najem koles (predhodna

rezervacija).

Animacija: mini klub (JuppiDu), 6 x tedensko

dnevna in večerna animacija za otroke in

odrasle, 2 x tedensko plesni večeri na terasi z

živo glasbo (pribl. 1.6.-31.9.).

Posebej za otroke: mini klub (4-12 let),

otroški bazen, otroško igrišče, visoki stolčki,

otroška postelja.

Plaža: le neprometna cesta loči hotel od prodnate in skalnate plaže.

Domače živali: niso dovoljene.


Pomladni popust za poletni dopust!

5000 SIT/teden oz. 10% za rezervacije

do 31.3.


Brezplačno za otroka do 12 let!

7 x all inclusive že za 49.900 SIT

Podrobneje v ceniku na strani 19.

.........................................................................


Zdaj pa poglejmo prepis dela telefonskega pogovora iz korpusa Turdis-1 (za pravila transkripcije in pomen posameznih oznak glej poglavje 5) med klicateljico in turistično agentko v turistični agenciji, ki je izdala zgornji katalog, kjer klicateljica sprašuje po all inclusive ponudbah.


[TAso16.trs]4

Aso1: dober dan [ime] pri telefonu

K11: dober dan [priimek] tukaj

K11: imela[m/e:la] bi nekaj vprašanj v zvezi z letovanjem v južni Dalmaciji

K11: [SOGOVORNIK_mhm]

K11: in sicer me predvsem zanimajo [angl-]all inclusive[-angl] ponudbe

K11: zdaj[z/a:j] nekaj sem gledala po katalogu sicer ampak bi skoraj želela s prve roke dobit[*] kaj več informacij

K11: [SOGOVORNIK_mhm] zanima me pa tisti ta[*] pravi [angl-]all inclusive[-angl]

K11: taki[*][+SOGOVORNIK_mhm] ko[*] bi bil čim bolj podoben[pOd/o:bn] temu kaj[*] je recimo v Turčiji ali[al] pa [1]

K11 [prekr]: [2] v Grčiji v ...

Aso1 [prekr]: tega ni ne

K11: tega ni ?

K11 [prekr]: čisto ta[*] pravega torej ni

Aso1 [prekr]: tega ni

K11 [prekr]: kaj pa je najboljše od [1]

Aso1 [prekr]: po pravici povedano [NERAZUMLJIVO-]tega ni ne[-NERAZUMLJIVO]

K11: [2] tega kar obstaja recimo ?

Aso1: eeeh[+IZDIH][.]

Aso1: dober je tale eee v hotelu Faraon v Trpanju [.]

Aso1: potem[+SOGOVORNIK_ja] zdaj[z\E] tudi[t/u:t] [.] no še še mogoče še boljši je v Osminah [.] v Slanem [+SOGOVORNIK_mhm]

Aso1 [prekr]: tudi[t/u:t] ta je zelo v redu mislim[+NERAZUMLJIVO]

K11 [prekr]: mhm tega poznam

Aso1 [prekr]: poznate ?

K11 [prekr]: tega poznam ja

Aso1 [prekr]: no [1]

K11 [prekr]: ja

Aso1: [2] ta je [.] po mojem vseeno[vsE*E:n] na tem področju še eden[*E:dn][SOGOVORNIK_mhm] [.] tako[t/a:k] no [.] najboljših[+SMEH][+SOGOVORNIK_mhm] eee

Aso1: v[O][IZG] redu je pa tudi tale v Epidaurusu

K11: to pa [1]

K11 [prekr]: [2] je ?

Aso1 [prekr]: s tem so [1]

Aso1: [2] bili[bl/i:] tudi[t/u:d] zadovoljni

Aso1 [prekr]: v Cavtatu

K11 [prekr]: [NERAZUMLJIVO-]kje je to ?[-NERAZUMLJIVO]

Aso1 [prekr]: čisto[tS/i:st] na koncu[k*O:nts] v Cavtatu ja ja

K11 [prekr]: [NERAZUMLJIVO-]mhm Cavtat [.] aha "črna gora" ja[-NERAZUMLJIVO]

Aso1: ja


Spontano govorjeno besedilo je lahko prek pisnega prenosnika težko razumljivo celo za človeka, pa je v zgornjem primeru ročno transkribirano, ne strojno razpoznano. Kaj v spontanem govorjenem diskurzu je torej tako različno od nespontanega pisnega diskurza, da dodatno otežuje strojno prevajanje? V spontanem govorjenem diskurzu (torej tudi v pogovoru, glej 4.1.1) je interakcija sogovornikov sprotna, besedilo torej vedno tvorita vsaj dva ali več »avtorjev« – lahko tudi v istem trenutku (hkratni oz. prekrivajoči govor). Vse, kar je izgovorjeno, je praviloma (če je sogovornik pozoren, če ni motenj v kanalu ipd.) hkrati tudi posredovano sogovorniku/naslovniku, je del besedila. Govorni prenosnik omogoča prenašanje pomena tudi s prozodijo (intonacijo, premori, jakostjo, poudarki itd.) – večino teh informacij pri pretvorbi govora skozi pisni prenosnik (zapisano besedilo) izgubimo. Glasovna podoba besed je pogosto drugačna, kot jo z zapisom predvidimo v pisnem besedilu in ki velja za knjižno normo. Tudi obliko-skladenjska vloga nekaterih besed je lahko drugačna kot v pisnem diskurzu, ki običajno sledi knjižni normi: taki ko bi bil, čisto ta pravega... V spontanem govorjenem diskurzu govorci zelo pogosto uporabljajo nekatere besede, ki so v pisnem diskurzu nasprotno zelo redke: mhm, no, eee, ja, aha... Skladenjska struktura v spontanem govorjenem diskurzu očitno omogoča bolj svoboden besedni red, popravljanja, pogosta ponavljanja, nedokončane izjave ipd. Prav tako se zdi, da se v spontanem govorjenem diskurzu implicitno, s kontekstom, posreduje več pomena kot v nespontanem pisnem diskurzu. Sklenemo lahko, da se kažejo razlike med spontanim govorjenim in nespontanim pisnim diskurzom tako rekoč na vseh jezikovnih ravneh.

V tujini so se pri razvoju sistemov strojnega simultanega prevajanja govora seveda srečavali s problemi, ki izhajajo iz značilnosti spontanega govorjenega diskurza. Poglejmo, kaj so v nekaterih večjih projektih ugotovili ob tem.




3.2Pogovorni govor v sistemih strojnega simultanega prevajanja govora


Raziskovalci, ki so razvijali sisteme za strojno simultano prevajanje govora, so hitro odkrili, da značilnosti pogovornega govora močno otežujejo to nalogo.

V projektu C-STAR (http://www.c-star.org/main/english/cstar2/), kjer je združena večina večjih centrov, ki razvijajo tehnologije strojnega simultanega prevajanja govora (glej 2.2.1), med drugim ugotavljajo, da uspešno strojno simultano prevajanje govora ne more biti doseženo s preprostim združevanjem modulov za razpoznavo govora in strojno prevajanje pisnih besedil, ampak se je treba problema lotiti celostno. Izjave, ki jih tvorimo v pogovoru, namreč vsebujejo netekočnosti, obotavljanja, ponavljanja, napačne začetke... Pogovor tudi ni sestavljen iz povedi v običajnem pomenu besede in ne vključuje ločil, ki bi ga razdelila na slovnične enote. Problem je tudi razpoznava govora, ki običajno ni stoodstotno pravilna. Napake pri razpoznavanju nastajajo tudi zaradi hrupov, ki se pojavijo med snemanjem pogovora, npr. kašljanje, smeh, treskanje vrat, zvonjenje telefonov..., in so lahko napačno razpoznani kot neka beseda. Naslednji problem je velika dinamičnost človeškega govora – pri hitrem govoru je odstotek napak pri razpoznavi večji. Za uspešno strojno simultano prevajanje govora se torej ne moremo zanašati na stoodstotno razpoznavo ali na sintakso, ki bi sledila enakim pravilom kot pri pisnem besedilu. Pot vidijo prej v semantično verodostojnih interpretacijah namena tvorca, v interpretaciji izjav, pri čemer bi ignorirali za prenos sporočila manj pomembne besede ali dele izjave.

Podobno ugotavljajo v projektu Verbmobil (http://verbmobil.dfki.de/ verbmobil/VM.English.Mail.30.10.96.html). Razpoznava pogovornega govora mora obvladovati značilnosti, kot so hmkanje, obotavljanja, netekočnosti, ponavljanja... Namesto ločil, ki bi delila slovnične enote povedi, se lahko zanaša samo na intonacijo in premore med govorom. Navajajo primer, da je mogoče izjavo v nemškem jeziku »Ja zur Not geht es auch am Samstag« odvisno od intonacije prevesti kot: »Da, če je treba, bo sobota v redu.« ali »Da, če je treba. Je možno tudi v soboto?«.

Nadalje se mora strojno simultano prevajanje govora spopadati še z vsemi značilnostmi jezika, ki otežujejo tudi strojno prevajanje pisnega besedila. Ti problemi so torej skupni strojnemu prevajanju pisnih besedil in strojnemu simultanemu prevajanju govora. Izhajajo predvsem iz kontekstne umeščenosti jezika, zaradi česar lahko marsikaj v jeziku ostane implicitno, saj se v medčloveški komunikaciji pomen posreduje tudi s kontekstom. (Kay, Gawron, Norvig, 1994: 11-36) navajajo več primerov, kjer situacijska umeščenost jezika predstavlja velik problem za strojno prevajanje.

V projektu LC-STAR obravnavajo probleme strojnega simultanega prevajanja govora, ki izhajajo iz značilnosti pogovora, na kratko (Ueffing et al., 2002): težave strojnega simultanega prevajanja govora v veliki meri povzroča razpoznava govora, kjer nastajajo napake, in značilnosti pogovornega govora, kjer so sintaktične strukture različne od struktur v pisnem besedilu. Sistem strojnega simultanega prevajanja govora mora biti robusten za take napake. Pot za dosego robustnosti vidijo v podatkovno vodenih metodah in statističnih pristopih, ki temeljijo na velikih korpusih. Z jezikovnimi pravili bi po mnenju konzorcija LC-STAR težko obvladovali lastnosti pogovornega govora.

Natančna raziskava pogovornega govora v luči strojnega simultanega prevajanja govora je bila narejena za jezikovni par španščina-angleščina v okviru projekta Artwork (Wiebe et al., 1996; Wiebe et al., 1997), ki je potekal na državni univerzi v Novi Mehiki (New Mexico State University). Namen projekta je bil raziskovanje procesiranja spontanega govorjenega diskurza v strojnem simultanem prevajanju govora, torej zelo soroden ciljem te naloge, vendar širše zastavljen. V prvem letu so primerjalno raziskovali razlike med govorjenim in pisnim besedilom (Wiebe et al., 1994) na primerih 25 pogovorov dogovarjanja za poslovni sestanek, ki so jih posneli v studiu in so bili simulirani. Pregledali so številne probleme, povezane s strojnim prevajanjem (ne samo govora, ampak tudi pisnih besedil), in jih poimenujejo tako: netekočnosti, narečne posebnosti (tudi kalki), anafora, elipse, glagolske oblike, sintaksa, diskurzivne strategije. V nadaljevanju se osredotočijo predvsem na probleme, ki so značilni zlasti za strojno simultano prevajanje govora. To so po njihovih ugotovitvah označevalci diskurza, implicitnost in preeksplicitnost, netekočnosti, konvencionalne rabe, dvoumnosti, anafore. V naslednjih fazah projekta (Wiebe et al., 1996; Wiebe et al., 1997) razvijejo tudi konkretne rešitve, kako obravnavati navedene značilnosti in kako to implementirati v sistem strojnega simultanega prevajanja govora.

Pri razvoju sistemov strojnega simultanega prevajanja govora torej raziskovalci ugotavljajo podobne probleme, ki izhajajo iz značilnosti pogovora. Sodelovanje z jezikoslovjem (ali v obliki vključevanja pravil ali gradnje in označevanja korpusov) pri premoščanju teh problemov prinese večjo učinkovitost, s tem da so novejše raziskave bolj naklonjene korpusnim pristopom kot pravilom (npr. LC-STAR).


3.3Simultano tolmačenje


Vse naštete značilnosti pogovornega govora mora obvladovati tudi simultani tolmač – človek.

Kot poudarja (Markič, 1999: 171), »tolmačenje ni prevajanje besede za besedo. Tolmačenje govora v izvirnem jeziku pomeni prenašanje semantične, konotativne in estetske vsebine v drug jezik in pri tem uporabljanje leksikalnih, sintaktičnih in stilističnih sredstev drugega (ciljnega) jezika.« Za to delo mora imeti tolmač dobro razvit dolgoročni in kratkoročni spomin ter izredno sposobnost koncentracije. Sposoben mora biti poslušati govor v izvirnem jeziku, ga podajati v ciljnem jeziku ter hkrati poslušati in preverjati sebe, včasih pa mora ob poslušanju tudi brati besedilo. S stališča večopravilnosti, ki poteka ob simultanem tolmačenju, ima stroj prednost pred človekom. Prav tako je pri stroju več možnosti za enostavnejši prenos na nova komunikacijska področja, kjer danes tolmačenje ni običajno. Ker je človeški tolmač zelo drag, je namreč tolmačenje običajno le v nekaterih situacijah, čeprav se tudi spisek teh vse bolj daljša. Tradicionalne vrste tolmačenja so ob poslovnih srečanjih, v sklopu sodnega postopka in tolmačenje za potrebe skupnosti (v upravi, šolah, bolnišnicah...). Tolmač ne more kar tako prevzeti tolmačenja področja, s katerim se pri svojem poklicnem delu pred tem še ni srečal, pač pa se mora prej seznaniti s področjem in usvojiti terminologijo (s pomočjo enciklopedij, literature s tega področja, podatkovnih baz, interneta). Pa tudi za področje, ki ga običajno pokriva, mora nenehno ažurirati terminologijo, zbirati fraze, izgovorjavo lastnih imen ipd. (Popović, 1999).


3.4Raziskave spontanega govorjenega diskurza v slovenščini


Sodelovanje tehnoloških ved in jezikoslovja pri razvoju govornih tehnologij se v glavnem opira na tradicionalno jezikoslovje. Vendar moramo pri procesiranju pogovornega govora vedeti, da je »/z/godovinski razvoj jezikoslovja /.../ malone v celoti minil v proučevanju pisnih oblik jezikovne rabe. Po drugi strani tradicionalna lingvistika jezik večinoma obravnava kot specifičen sistem pravil, pri čemer je njegova raba najpogosteje drugotnega pomena.« (Vitez, Zwitter Vitez, 2004: 3) Zato je temeljna teza te disertacije, da se je treba pri razvoju govornih tehnologij, ki bi uspešno procesirale pogovorni govor, nasloniti na tiste veje jezikoslovja, ki preučujejo spontan govorjeni diskurz, in to v vsakdanji jezikovni rabi. Širše gledano največ teh raziskav najdemo znotraj raznolikega področja analize diskurza. V nadaljevanju tega poglavja predstavljam pregled teh raziskav za slovenski jezik.


Do devetdesetih let 20. stoletja se je o govorjenem jeziku razmišljalo predvsem s stališča uresničevanja knjižne norme. Primer take razprave je med drugim v (Kaluža, 1977a; Kaluža, 1977b), kjer se kritično opredeljuje do nezbornih prvin stavčnofonetične in pravorečne narave v govoru radijskih novinarjev in napovedovalcev. Druge vrste raziskav govorjenega jezika so potekale v okviru dialektologije, ki pa se spet osredotoča predvsem na jezikovno podobo (glasoslovno, oblikoslovno, manj sintaktično in semantično ali besediloslovno). Raziskave spontanega govorjenega diskurza v slovenščini s pristopi analize diskurza se začnejo širše v devetdesetih letih prejšnjega stoletja.

Precej prispevkov o analizi diskurza je zbranih v tematski številki Uporabnega jezikoslovja (Kovačič, 1994a). Od teh le en raziskuje pogovor (Kovačič, 1994b), in sicer je v središču zanimanja odzivnost kot eno izmed osnovnih gibal v poteku pogovora in hkrati temelj ene najpogosteje obravnavanih analitičnih enot pogovora, bližnjih parov. Vendar primere navaja delno iz leposlovja (Shakespeare), delno iz tuje strokovne literature.

Naslednja publikacija, kjer je posebno poglavje posvečeno tudi analizi diskurza, je zbornik Jezik za danes in jutri (Štrukelj, 1998). Govorjeni diskurz je analiziran v prispevku (Schlamberger Brezar, 1998), ki je usmerjen v raziskavo usmerjevalcev (konektorjev) v diskurzu in temelji na analizi avtentičnih govorjenih diskurzov (simulacije pogajanj in televizijske okrogle mize); v (Sivec, 1998) je predstavljena razčlemba utemeljevalnega diskurza v razredu z metodami retorike, teorije argumentacije, jezikovne pragmatike in kritične analize diskurza, analiza pa temelji na učni uri, posneti leta 1996 na Škofijski gimnaziji; v (Kranjc, 1998b) pa je z metodo konverzacijske analize (angl. conversation analysis) analiziran govor predšolskih otrok, pri čemer je pozornost usmerjena v razlike med obliko in pomenom izrekov. Ta prispevek se navezuje na obširnejše raziskave govora predšolskih otrok oz. jezikovne zmožnosti predšolskih otrok, kot se kaže v njihovem spontanem govoru z odraslimi ter otroki, narejene v (Kranjc, 1995) in (Kranjc, 1998a) ter v izdaji (Kranjc 1999). Te raziskave poleg koverzacijske analize vključujejo tudi raziskave slovnične zmožnosti na besedotvorni, oblikoslovni, skladenjski in besediloslovni ravnini. Gradivo za analize je bilo zbrano s kombinacijo etnografske in prilagojene eksperimentalne metode (Kranjc, 1999: 32), posneto z diktafonom in videokamero ter nato fonetično prepisano.

V zadnjih nekaj letih so raziskave govorjenega diskurza vse pogostejše: (Pirih Svetina, 1999/00) analizira šolsko uro pouka književnosti glede na lingvistične enote dejanje, korak, vloga, izmenjava in transakcija, za gradivo vzame videoposnetek učne ure književnosti v osmem razredu osemletke; v (Ilc, 2001/02) najdemo diskurzivno analizo športnega komentarja z vidika tematskih elementov in prozodije, analiza je narejena na posnetkih dveh različnih športnih komentarjev istega dogodka; v (Verdonik, 2003) je bila narejena analiza nesporazumov v komunikaciji z metodami jezikovne pragmatike na primeru štirih soočenj gostov v dnevnoinformativni televizijski oddaji.

Raziskave govorjenega diskurza se usmerjajo tudi v govor politikov v mestnih občinah, parlamentu in javnih medijih. (Krajnc, 2004) analizira besedilnoskladenjske značilnosti govorjenega jezika na gradivu s sej Mestnega sveta Mestne občine Maribor. Loči skladenjske modifikacije besedilnega povezovanja (nedokončane skladenjske zgradbe, spremembe besednega reda, paralelizem), situacijsko odvisne modifikacije skladenjskih zgradb in modelne skladenjske zgradbe, vračanja in kopičenja. (Hribar, 2001/02) analizira skladenjsko zapletenost povedi v govorjenem jeziku politikov, (Modrijan, 2004) pa skuša na podlagi korpusne metodologije ugotoviti določene vzorce v rabi oblik zaimkovnega in nominalnega naslavljanja med slovenskimi politiki.

Za strojno simultano prevajanje govora zanimive so na tem področju raziskave prozodije slovenskega govora, med drugim predstavljene v (Vitez, Zwitter Vitez, 2004), in skladnje spontanega slovenskega govora (Smolej, 2004b idr.). V (Vitez, Zwitter Vitez, 2004) avtorja ugotavljata diskurzne vloge posameznih kazalcev intonacije, tj. tonske višine, jakosti, spremembe v trajanju posameznih segmentov, premorov. Na podlagi intonacijskih kriterijev zamejita osnovno enoto analize, govorjeni odstavek, in razčlenita njegova glavna sestavna dela, preambulo in remo. Raziskava skladnje spontanega govora v (Smolej, 2004b) prinese v slovenskem prostoru novo in zanimivo razlago spontano tvorjenih struktur s stališča sintagmatske in paradigmatske osi (glej tudi 4.4).

Sklenemo lahko, da so bile raziskave narejene ali za diskurz v razredu ali javni diskurz prek medijev ali za diskurz politikov ter za otroški govor. Hkrati s to raziskavo pa se že pojavljajo širše raziskave spontanega govorjenega diskurza tudi v drugih vsakdanjih situacijah (Smolej, 2004b; Vitez, Zwitter Vitez, 2004). Pogosto so raziskave usmerjene v različne pragmatične, diskurzne vidike, nekajkrat je v središču zanimanja skladenjski vidik. Nobena od navedenih raziskav analize diskurza ni narejena z vidika uporabnosti v strojnem simultanem prevajanju govora ali širše v govornih tehnologijah.


3.5Cilji raziskave


Zgornje razmisleke in preglede lahko strnem v naslednje točke:


Ti sklepi spodbujajo osrednjo tezo te raziskave, da se je pri razvoju tehnologije za strojno simultano prevajanje smiselno opreti na raziskave analize diskurza. Stična točka so lahko ustrezno označeni korpusi ali jezikovna pravila, vendar novejši trendi kažejo na večjo uspešnost korpusnih pristopov. Gradnja sistemov strojnega simultanega prevajanja govora je v začetku smiselna samo za omejeno komunikacijsko področje, v tej nalogi bo to telefonsko posredovanje informacij v turistični agenciji, turistični pisarni in hotelski recepciji. Področje je izbrano glede na mednarodne usmeritve na področju strojnega simultanega prevajanja govora, ki se naslanjajo na usmeritve in potrebe v gospodarstvu, glede na usmeritve v razvoju lokalnega okolja in glede na razpoložljive jezikovne vire (predvsem pridobitev jezikovnih virov v projektu LC-STAR). Temeljna cilja nadaljnje raziskave sta naslednja:

4ANALIZA DISKURZA


V tem poglavju skušam uresničiti prvi del ciljev. Analiza diskurza je poimenovanje za zelo raznovrstne pristope, zato najprej naredim kratek pregled tega področja, pri tem v podpoglavju o diskurzu razjasnim tudi nekatera osnovna terminološka vprašanja. V nadaljevanju predstavim v skladu z zastavljenimi cilji in izbranimi usmeritvami izbrane koncepte: strukturo pogovora, kot jo razišče konverzacijska analiza, diskurzne označevalce ter popravljanja.


4.1Pregled področja


Analiza diskurza (angl. discourse analysis ali discourse studies) ni enotna metoda, pač pa prej skupno ime za številne izredno raznovrstne metode v različnih družboslovnih in humanističnih vedah, katerih skupna točka je preučevanje diskurza. Razvijati so se začele v šestdesetih letih dvajsetega stoletja znotraj različnih vej znanosti: filozofije, sociologije, jezikoslovja, literarne teorije, ter se kasneje nadaljevale tudi v drugih vejah: antropologiji, komunikologiji, pedagogiki, psihologiji... Analiza diskurza tako pomeni večdisciplinarne in meddisciplinarne pristope, kar je po eni strani njena moč, po drugi pa lahko tudi vzrok za zmedo. Za pričujočo raziskavo je variabilnost analize diskurza prednost, saj nudi širok izbor različnih metod, ki izhajajo iz različnih vej humanističnih in družboslovnih znanosti, med katerimi lahko iščemo najustreznejše za analizo s ciljem podpore sistemom strojnega simultanega prevajanja govora.


4.1.1Diskurz


Tudi v vsakdanjem življenju uporabljamo termin diskurz v delno različnih pomenih. Slovar slovenskega knjižnega jezika definira diskurz kot pogovor, zlasti o kaki pomembnejši temi. Jezikovna raba kaže drugače: da se termin diskurz pogosto nanaša na obliko jezikovne rabe, obliko javnega govora (javni diskurz, politični diskurz, filozofski diskurz, teoretski diskurz, moški diskurz, diskurz v medijih...) in nikakor ne vključuje samo govora, ampak tudi pisna besedila. Lahko pa se nanaša tudi na ideologijo, ki je običajno posredovana in propagirana z neko jezikovno rabo: npr. marksistični diskurz, konzervativni diskurz, neoliberalistični diskurz...

Analiza diskurza najpogosteje definira diskurz kot jezikovno rabo, torej rabo jezika v aktualiziranem kontekstu – s tem ne mislimo samo jezikovnega konteksta, ampak tudi nejezikovni kontekst (mentalni, fizični in socialni svet, prenosnik itd. (prim. Verschueren, 2000). Slovenski avtorji poleg umeščenosti diskurza v kontekst v definiciji diskurza omenjajo, da gre za preučevanje jezikovnih dogajanj na nadpovedni jezikovni ravni, npr. (Kovačič, 1994a: 5; Kranjc, 1999: 61). Bolj natančna je definicija van Dijka (van Dijk, 1997a), ki poveže diskurz z govornim dogodkom. Tej definiciji sledim v tej nalogi. Meje diskurza so povezane z mejami govornega dogodka (čeprav obstajajo tudi dvomljivi primeri, npr. dolge parlamentarne razprave o neki temi, ki se lahko razvlečejo tudi na več dni). Diskurz po njegovem vključuje tri dimenzije govornega dogodka – jezikovno rabo, kognicijo in interakcijo v družbenih razmerjih. Analiza diskurza pogosto raziskuje prav razmerja med temi ravninami.

Termin govorni dogodek izhaja iz etnografije govora (njegov avtor je Hymes, povzeto po (Coulthard, 1985)) in pomeni največje jezikovne enote, za katere lahko ugotovimo jezikovno strukturo. Ne sovpada nujno z govorno situacijo, saj se v isti situaciji lahko zgodi več govornih dogodkov. Razmerje med govornim dejanjem, kot izhaja iz dela Austina (Austin, 1990) in Searla (Searle, 1969), in govornim dogodkom je hierarhično: govorni dogodek lahko sestoji iz več govornih dejanj, vendar iz najmanj enega. Hymes ni ponudil nobenega podobnega spiska za govorne dogodke, kot je Searle za govorna dejanja, tako si večina raziskovalcev glede na trenutne potrebe tvori posamezne kategorije govornih dogodkov. Govorni dogodek je npr. telefonski pogovor, šolska ura, razgovor za službo, med obiskom v zdravniški ordinaciji ipd.

Naslednje pomembno vprašanje za definicijo diskurza v okviru analize diskurza je, ali naj se termin nanaša samo na govorni prenosnik ali naj podobno kot v vsakdanji rabi vključuje tudi pisnega. Avtorji se glede tega odločajo različno. Nekateri celo postavijo besedilo in diskurz kot protipomenki, pri čemer se prva nanaša na pisni prenosnik in druga na govornega. Tukaj tega ne razumem tako (glej spodaj definicijo besedila). Navezava diskurza na govorni dogodek sicer ne vključuje pisnega prenosnika, vendar je lahko tudi to oblika interakcije (sploh nekatere zvrsti, npr. dopisovanje), z novimi elektronskimi mediji pa se meja med govornim in pisnim prenosnikom zabrisuje, npr. komunikacija prek pisnega prenosnika sprejema lastnosti govornega prenosnika (spontanost, hitra odzivnost, pogovorna zvrst jezika...). To govori v prid razširitve termina tudi na pisni prenosnik, kar je pogosta praksa, vendar ima taka razširitev tudi pasti: meja med diskurzi je potem še manj jasna (npr. članki v enciklopediji ali zborniku: je to en diskurz ali več diskurzov?), interakcija skozi knjige, revije ipd. je manj očitna (toda enako velja za radijski in televizijski diskurz, kjer je meja med govornim in pisnim prenosnikom lahko zabrisana v nasprotni smeri: govor je vnaprej napisan). V tej nalogi sledim definicijam, po katerih lahko poteka diskurz prek govornega ali pisnega prenosnika in ustrezno ločim govorjeni in pisni diskurz.

Pogovor (tudi konverzacija, angl. conversation) je običajno definiran kot vrsta diskurza, ki lahko poteka samo prek govornega prenosnika in pri katerem sodelujeta najmanj dve osebi (Kranjc, 1996/97; Kovačič, 1994a). Nekateri raziskovalci ločijo neformalni vsakdanji pogovor (npr. klepet s prijatelji) od institucionalnega pogovora v okviru institucij (npr. predstavitev dokazov na sodišču) (Pomerantz in Fehr, 1997: 64) ter prištevajo k pogovorom samo neformalni pogovor. Podobno, čeprav še bolj določno (Kranjc, 1999: 62) navaja, da je treba pri definiciji pogovora upoštevati javnost oziroma zasebnost komunikacije in socialno razdaljo med govorcema ter njun status in vlogo v družbi. Pogovor je torej ena od diskurznih vrst in podpomenka diskurza, pa tudi spontanega govorjenega diskurza. Ker v pričujoči raziskavi analiziram telefonske pogovore, zlasti v analizah pogosto uporabljam to podpomenko.

Nazadnje še opozorimo, da se termin diskurz lahko nanaša tudi na druge vrste komunikacij (s sliko, glasbo), zlasti kadar so prepletene z jezikovno.

V razmerju do diskurza je treba definirati še besedilo. Besedilo se zgodi v govorjeni ali pisni obliki, v obliki poslušanja ali branja. Če je besedilo produkt govorjenega diskurza, govorim o govorjenem besedilu, če je nastalo v pisnem diskurzu, pa o pisnem besedilu. Govorjeno besedilo je običajno spontano tvorjeno (je spontano besedilo), pisno besedilo pa je običajno nespontano tvorjeno, čeprav obstajajo tudi mejni primeri (branje, nekatere vrste komunikacije prek svetovnega spleta...). Ko besedila analiziramo, imamo pred seboj produkt procesa diskurza. Izraz besedilo (tekst) se ponavadi nanaša na ta produkt, in sicer najpogosteje na besedilo v pisni obliki, ker je ta jasneje zaznavna (Kranjc, 1996/97).


4.1.2Temeljni pristopi k analizi diskurza


Vrnimo se nazaj k pojmu diskurz in trem temeljnim dimenzijam, ki jih vključuje – jezikovna raba, kognicija in interakcija v družbenih razmerjih. V nadaljevanju povzemam po (van Dijk, 1997a).


Če se osredotočimo na jezikovno dimenzijo diskurza, lahko tudi pri analizi diskurza začnemo z opazovanjem posameznih elementov jezika, način, kako je jezik uporabljen pri pisanju ali govorjenju in kako je to povezano z diskurzom. Tako npr. preučujemo izgovorjavo, poudarke, intonacijo v diskurzu. Posebno pozornost lahko namenimo vlogi nejezikovnih zvokov in nejezikovne aktivnosti, ki spremlja jezikovno komunikacijo, v diskurzu.

Nadalje lahko opazujemo slovnično strukturo in obliko, način, kako si sledijo besede, besedne zveze, stavki ali izjave... Vendar gre v nasprotju s tradicionalnim jezikoslovjem analiza diskurza pri tem preko meje povedi in opazuje, kako na strukturo in oblike izjav vpliva aktualiziran kontekst – jezikovni (sobesedilo) in nejezikovni (okoliščine). Zaradi tega je tako imenovana slovnična pravilnost v analizi diskurza relativen pojem, saj je lahko v nekem sobesedilnem okolju povsem ustrezna ali vsaj nemoteča.

Eden osrednjih pojmov diskurznega opisa je tudi pomen. Vendar je termin pomen problematičen in se mu raziskovalci raje izogibajo, saj je zelo dvoumen in lahko pomeni marsikaj. (van Dijk, 1997a) razlaga raziskave semantike v okviru analize diskurza s pomočjo termina propozicija, ki se nanaša na aktualizirani pomen izreka. Raziskave se osredotočijo na razmerja med elementi znotraj propozicije in na razmerja med propozicijami in diskurzom. Eden osrednjih pojmov pri tem je koherenca (smiselna povezanost besedila (Beaugrande, Dressler, 1992)). Analiza diskurza npr. preučuje vrste in načine pomenske povezanosti enot v diskurzu, npr. z referiranjem, z razporeditvijo znanega in novega (tema – rema), na makro ravni opazuje topike diskurzov ipd.

Redkeje se analiza diskurza osredotoči tudi na slog, npr. na način, da primerjajo različna besedila o isti temi in ugotavljajo variacije med besedili, npr. kateri izrazi so izbrani, kakšne so intonacija in druge prozodične lastnosti, kako so strukturirane izjave...

In nenazadnje lahko opazujemo tudi celotno formalno strukturo diskurza, določimo običajne komponente in njihove značilnosti. Običajno hitro prepoznamo začetek in zaključek diskurza in ju ločimo od preostalega dela diskurza: nagovor in slovo v pogovoru, naslov v časopisni novici...


Druge veje znotraj analize diskurza raziskujejo bolj družbeno dimenzijo diskurza in ga opazujejo kot akcijo in interakcijo. Diskurz je treba videti tudi kot družbena dejanja, ki jih opravljamo, ko komuniciramo, komunikacija pa poteka v družbeni situaciji.

Eden takih pristopov temelji na teoriji govornih dejanj (Austin, 1990), ki je pri nas od pristopov analize diskurza med bolj pogostimi. Teorija govornih dejanj trdi, da je med sporazumevanjem temeljno dejanje vplivanje na naslovnika in da človek uporablja jezik kot sredstvo za izražanje in posploševanje svojega interesa (Gnamuš Kunst, 1983: 8). Npr. govorec namerava storiti nekaj (recimo se opravičiti) in verjame, da bo s tem zadovoljil naslovnika.

S tem ko se začne diskurz opazovati kot dejanje, akcija in interakcija, se opazijo tudi druge vrste dejanj, ki jih opravljamo med komunikacijo, ne samo zgoraj opisana govorna dejanja. Udeleženci v pogovoru si npr. menjavajo vloge, napadajo drug drugega, se branijo, prepirajo, strinjajo ali ne strinjajo drug z drugim, odzivajo na prejšnje izjave ali pripravljajo naslednje izjave, učijo, sledijo vljudnostnim konvencijam, ustvarjajo in ohranjajo dober vtis ipd. Mnoga od teh dejanj lahko opravljajo naenkrat. Veliko tega je bilo raziskanega na širokem področju konverzacijske analize (angl. conversation analysis) in v ostalih vejah analize diskurza na meji s sociolingvistiko, etnografijo in sociologijo.

Opazovanje diskurza iz družbenega vidika ne pomeni, da analize diskurza, ko opazuje diskurz kot akcijo in interakcijo, ne zanima jezikovna dimenzija diskurza. Predmet preučevanja je lahko tudi tukaj katerikoli jezikovni element na katerikoli jezikovni ravni, vendar vedno kot del tega, kar uporabniki jezika delajo ali dosežejo kot udeleženci v diskurzu, torej kot del jezikovnih aktivnosti, ki so usmerjene k doseganju družbenega dejanja.


Razumevanje, sporazumevanje, interakcija in podobni pojmi ne pripadajo samo družbeni dimenziji, ampak tudi mentalni – kogniciji. Če govorimo o besednem redu, pomenu izjav, koherentnosti, govornih dejanjih, interakciji, predpostavljamo, da imajo uporabniki jezika vedenje. Poznajo pravila, ki vladajo takim strukturam, poznajo strategije in kontekst, v katerem se uporabijo. Uporabniki jezika imajo verjetja, izražajo svoja mnenja, posredujejo ali ustvarjajo ideologije... Te mentalne dimenzije diskurza preučuje predvsem kognitivna psihologija, in sicer preučuje mentalne procese in predstavitve v spominu uporabnika. Ti procesi in predstavitve so po eni strani edinstveni pri vsakem posamezniku, po drugi si uporabniki jezika delijo splošno vedenje o slovnici, diskurznih pravilih, vrednotah, pravilih komunikacije, vedenje o svetu ipd. Poleg individualne kognicije torej obstaja socio-kulturna kognicija.

Mentalne predstave, ki nastajajo ob interpretaciji besedila, niso enostavno kopije besedila in njegovega pomena v aktualiziranem kontekstu, ampak neke vrste mentalni modeli, shematske predstavitve dogodkov, akcij, stanj, verjetij..., o katerih govori diskurz. In obratno, ko hočemo kaj sporočiti, ti modeli služijo za izhodiščno točko. Podobno velja za interakcijo: udeleženci v interakciji aktivirajo, gradijo in nadgrajujejo model trenutnega konteksta in akcij, ki potekajo v njem, aktivnih ali pasivnih. Interpretacija besedila (govorjenega ali pisnega) torej vključuje konstrukcijo modelov, ki temeljijo na pomenu kot semantični predstavitvi, posredovanem jezikovno, na interakcijskih pomenih in funkcijah, na splošnem vedenju in mnenjih itd. To so – za ilustracijo – samo nekateri vidiki kognitivne dimenzije diskurza.


Večina študij analize diskurza je po (van Dijk, 1997a) usmerjena v katero od zgoraj opisanih dimenzij: jezikovno, družbeno, kognitivno. Ker raziskava v tej nalogi poteka z namenom podpore razvoju tehnologij strojnega simultanega prevajanja govora, je smiselno, da se usmeri v tisto, kar je v diskurzu čimbolj merljivo, oprijemljivo, materialno, torej predvsem v jezikovno dimenzijo diskurza, po možnosti celo samo v površinsko besedilo (»besede, kot jih dejansko slišimo ali vidimo« (Beaugrande, Dressler, 1992: 12)). Vendar kot navaja že (van Dijk, 1997a) in kot se kaže skozi analize, je pretirano ločevanje med jezikovno, družbeno in kognitivno dimenzijo nasilno in osiromaši celostno razumevanje delovanja preučevanih elementov v kontekstu, zato pri analizah vključim tudi širši diskurzivni vidik.





4.2Struktura pogovora


Ko skušamo človeški pogovor prevesti skozi tehnologijo, ga moramo, da lahko obvladujemo to nalogo, najprej znati razdeliti na manjše strukturne enote. Največ raziskav strukture pogovora najdemo v okviru konverzacijske analize (najbolj znani avtorji konverzacijske analize so Sacks, Schegloff, Jefferson, Pomerantz in drugi). Konverzacijska analiza je empirični pristop, ki uporablja v glavnem indukcijske metode in išče ponavljajoče se vzorce v najrazličnejših posnetkih človeških pogovorov.


4.2.1Zunanja zgradba


Telefonski pogovori so bili pogosto predmet raziskav konverzacijskih analiz in imajo zelo prepoznavno zunanjo zgradbo (Levinson, 1983: 308-318).

Uvodne sekcije telefonskih pogovorov so običajno zelo podobne: po zvonjenju telefona praviloma spregovori prvi tisti, ki je klican, ne klicatelj (tisti, ki kliče). Konverzacijska analiza razlaga, da zato, ker je že zvonjenje telefona prvi akt pogovora, klicani pa nanj odgovori (ali tudi ne). Na zvonjenje se pogosto odzove s pozdravom, lahko tudi s predstavitvijo (pove ime podjetja, svoje ime ipd.). Zatem praviloma prevzame vlogo klicatelj, običajno odzdravi, se predstavi. Nato pojasni razlog za klic.

S tem preide v prvi tematski sklop (angl. first topic slot) in v jedrni del pogovora. Prvi tematski sklop, ugotavlja konverzacijska analiza, je privilegiran, saj ni odvisen od prejšnjih tem in ima govorec večjo svobodo pri izbiri. Vsebina prvega tematskega sklopa je običajno razumljena kot glavni razlog za klic, vsaka naslednja tema (angl. topic) pogovora se prednostno sklada s predhodno. Nova tema tako pogosto čaka na primerno mesto v pogovoru, kjer jo lahko vključimo kar najbolj »naravno«, tako da so teme med seboj povezane, prehodi med njimi pa čim manj ostri. Temo (angl. topic) konverzacijska analiza definira z nanašanjem: sogovornika govorita o isti temi, če govorita o istih stvareh oziroma o istih ali povezanih konceptih (Levinson, 1983: 313-314). (Levinson, 1983: 314-315) opozarja, da je takšna definicija pretirana poenostavitev, tematska koherenca se oblikuje skozi vloge z vzajemnim sodelovanjem sogovornikov in treba je podrobneje raziskati, kako so nove teme uvedene, kako se razvijajo in zaključijo ter preidejo v novo. V tej raziskavi posameznih tem znotraj jedra in prehodov med njimi ne analiziram.

Zaključna sekcija telefonskega pogovora je podobno razpoznavna kot uvodna, vendar zelo delikatna. Vljudnostne konvencije sogovornike vzpodbujajo, da umestijo zaključek tako, da se nobeden od sogovornikov ne čuti prisiljenega končati pogovor. (Levinson, 1983: 317) povzema neslednjo zelo splošno shemo, kako sogovorniki izpeljejo prehod v zaključno sekcijo: najprej zaključijo tematski sklop, sledi prehod s predzaključnimi elementi (v analizah jih uvrstim med diskurzne označevalce), kot so okej, v redu, torej itd., če je primerno, sledi zahvaljevanje in na koncu pozdravi. Po mnenju Levinsona sta ključni točki diskurzni označevalci okej, v redu ipd. ter zaključni pozdravi. Da se sogovornika strinjata o končanju pogovora, običajno preverita tako, da potem ko prvi sogovornik z diskurznimi označevalci ali zahvaljevanjem nakaže, da nima več kaj dodati k pogovoru, počaka, da tudi njegov sogovornik na podoben način izrazi isto.



4.2.2Menjavanje vlog


Raziskave menjavanja vlog za tehnologije strojnega simultanega prevajanja telefonskih pogovorov na prvi pogled niso posebej zanimive, saj taki sistemi snemajo govor enega in drugega govorca na ločena kanala, torej večinoma nimajo problemov pri razpoznavanju govorcev, zaznavanju mej med vlogami, pa tudi morebitni hkratni govor tako za sistem na videz ne obstaja.5 Ker pa menjavanje vlog ni izolirano od ostalega pogovora, ga ne smemo povsem odstraniti iz polja našega zanimanja: sistem menjavanja vlog je namreč eden temeljnih procesov, ki potekajo med pogovorom, in seveda vpliva med drugim tako na rabo diskurznih označevalcev kot na strukturo izjav, zato tukaj na kratko predstavljam ta koncept.

Menjavanje vlog (angl. turn-taking) je dokaj očitna lastnost pogovora. Vloga (angl. turn) »je vse, kar govorec reče, preden začne govoriti drugi govorec« (Kranjc, 1999: 63). Lahko je sestavljena iz različnih enot: samostojnih leksikalnih izrazov, besednih zvez ali izjav. Meje med vlogami so manj jasne, ko hkrati govorita dva ali več govorcev, tj. tako imenovani hkratni ali simultani govor oz. prekrivanje govora (angl. overlapping speech). (Kranjc, 1999: 67) po Foxu povzema, da obstajata dve vrsti hkratnega govora: tekmovalni in netekmovalni. Netekmovalni hkratni govor »je prekrivanje na koncu ene in na začetku druge enote«. Tekmovalno prekrivanje je, »ko sogovorec začne svojo vlogo, preden lahko prepozna mesto možnega prehoda« (Kranjc, 1999: 67). Sama izločim obliko hkratnega govora, pri kateri sogovornik med daljšo vlogo govorca potrjuje svojo pozornost ali strinjanje s t. i. opornimi signali6 (npr. z besedicami mhm, ja, aha, tako), vendar ne prevzame in tudi ne izrazi namena prevzeti vlogo. Takih primerov ne štejem za hkratni govor in so pri transkripciji označeni kot posebna vrsta dogodka. Mesto v govornem nizu, kjer pride do zamenjave vlog, imenujemo prehod (Kranjc, 1999: 67).

Raziskovalce sistemov menjavanja vlog preseneča sposobnost sogovornikov, da prepoznajo primerno mesto za menjavo vloge brez veliko hkratnega govora ((Levinson, 1983: 296) navaja, da ga je manj kot 5 %) in brez daljših molkov. Razlagajo (povzeto po Coulthard, 1985; Levinson, 1983), da sogovorniki ne čakajo, da bo govorec dokončal svojo vlogo, saj je vedno mogoče še kaj dodati, pač pa so pozorni na točke v govoru, kjer je mogoče prevzeti vlogo. Te točke so lahko konec sintaktičnih enot (stavek, poved, besedna zveza itd.), ki so hkrati intonacijsko in prozodično označene. V tej raziskavi tem enotam približno ustreza koncept izjave (glej 4.2.4).

4.2.3Bližnji pari


Konverzacijska analiza (povzeto po Coulthard, 1985: 69-73) ugotavlja, da so nekatere vloge bolj povezane kot druge, in jih poimenujejo bližnji pari (angl. adjacency pairs). Značilnosti bližnjih parov so, da:

Prvi deli bližnjega para so lahko: vprašanje, pozdrav, izziv, ponudba, prošnja, pritožba, povabilo, naznanilo. Drugi deli bližnjega para so lahko recipročni (npr. pozdravu sledi pozdrav), lahko je samo ena vrsta drugega dela primerna (vprašanju sledi odgovor), lahko pa so prvemu delu ustrezni različni drugi deli (pritožbi lahko sledi opravičilo ali pritožba). Po mnenju konverzacijskih analiz so bližnji pari ena temeljnih strukturnih enot pogovora.

Seveda ni težko odkriti na primer vprašanja, ki mu ne sledi odgovor. Konverzacijska analiza argumentira, da pripadajoči drugi del bližnjega para ni zapovedan, vendar ima prednost pred drugimi vrstami. (Levinson, 1983: 307) navaja, da je treba to prednost razumeti ne v psihološkem, ampak strukturnem smislu in bolj ustreza jezikoslovnemu terminu zaznamovanost – nezaznamovanost. Drugi deli bližnjega para, ki imajo prednost, so nezaznamovani, medtem ko so ostali zaznamovani in jih govorec posreduje ali po kratkem molku, z ustreznim diskurznim označevalcem (npr. no), z obrazložitvijo, zakaj ne more odgovoriti s prednostno vrsto drugega dela bližnjega para ipd.

V praktičnem delu raziskave v tej nalogi zaradi omejitve na primeren obseg bližnjih parov sicer ne označujem in ne analiziram posebej, vendar smatram, da je koncept lahko zanimiv za strojno simultano prevajanje govora, pa tudi za druge vrste govornih tehnologij, npr. sisteme dialoga.

4.2.4Izjave


Vloge lahko razdelimo na izjave (angl. utterance) oz. izreke. (Žagar, 1990: 163) definira izjavo kot »vsakokratno udejanitev te abstraktne konstrukcije /tj. stavka, op. pis./ v govoru«. Nekateri avtorji so namesto termina izjava uporabljali termin izrek, definirajo ga kot »poved s komunikacijsko funkcijo« (Bešter, 1994; Kranjc, 1996/97: 307). Podobne definicije (povzeto iz Schiffrin, 1994: 39-41) lahko zasledimo tudi pri nekaterih tujih avtorjih, čeprav drugi tudi nasprotujejo, češ da so povedi in izjave bistveno različni med seboj. (Schiffrin, 1994: 39-41) sama ugotavlja, da je izjava vse prej kot jasen pojem, nazadnje pa se vseeno zadovolji z ugotovitvijo, da so izjave enote tvorjenja besedila (govorjenega ali pisnega), ki so same po sebi kontekstualizirane. Ali in kako so povezane s povedmi, ne želi razpravljati (Schiffrin, 1994: 39-41). Tudi večina drugih avtorjev se vprašanju izjave kot enote diskurza izogiba.

Tukaj ji posvetim nekaj pozornosti iz metodoloških in predvsem praktičnih razlogov, saj je izjava kot temeljna strukturna enota pogovora tudi temeljna enota pri transkribiranju govornih korpusov (ki so med drugim eden temeljnih jezikovnih virov za govorne tehnologije) in zaželeno je, da so enote označevanja kolikor mogoče nedvoumno določene. Vzpostavljanje razmerja med povedjo in izjavo, ki predpostavlja, da je poved besedilni jezikoslovni koncept, izjava pa njegova sporazumevalna uresničitev – kar lahko razberemo iz zgornjih definicij – je na nek način eklektična definicija in ob transkribiranju in analiziranju pogovora povzroča nejasnosti, namesto da bi jih pomagala odpravljati. Namreč to, kar bi označili kot osnovno enoto v pogovoru – zanjo prevzemam termin izjava – večkrat ne sovpada s tem, kar vsaj v slovenistični tradiciji poznamo kot stavek in poved,7 na primer:


[TPma42.trs]

K39: ker[+SOGOVORNIK_ja] jim nikoli[nik/o:l] nič ni dobro[d/o:b@r] in vedno najdejo pač dlako v kupu sena in vedno bojo nergali

K39: in zato če že pridejo v Slovenijo kjer še #nikoli#[nik/o:l] niso bili[bl/i:]

K39: želim res poiskat[*] nekaj[n/e:ki]

K39: ni finančno ni nikakršnih okvirov oziroma ne() nikakršnih problemov

K39: zato jim želim poiskat[*] res nekaj[n/e:ki]

K39: naj[n/e:][IZG] imajo[m/a:j][IZG] tisti[t/i:zd] deluxe[+tujez] naj[n/e:j][IZG] imajo[m/a:jO][IZG] tisti[t/i:st] da bojo enostavno videli[v/i:dl] da tudi[t/u:d] v Sloveniji [.] imamo[m/a:mO] malo[m/a:l] pojma o turizmu in ponudbi[+SOGOVORNIK_ja]

K39: zato[+SOGOVORNIK_ja] pa kličem na vas da mi lahko

K39: ker[k@r] zdaj[z\@j] ne morem reči[r*E:tS] da bi jih[iG][IZG] bomo kar[k\@r] peljali[pEl/a:li] v na degustacijo v Vinag ali[al] pa na Betnavo


V tem primeru je navedena precej dolga vloga istega govorca, ki jo pri transkribiranju razdelimo na več izjav. Če bi se pri tem prepisovalec opiral na koncept povedi, se lahko zelo različno odloči: morda bo v povedanem prepoznal eno, dve, tri ali več povedi. Če se opira na koncept stavka, pa bi moral vsaj nekatere od enot, ki so v zgornjem primeru označene kot izjave, še dodatno razčleniti.

Zakaj je torej delitev na izjave v zgornjem primeru takšna, kot je, ali drugače: kaj je torej izjava? Praviloma gre za enoto govora, izgovorjeno med premoroma, običajno tudi med vdihoma govorca. Vendar tega ne smemo razumeti povsem tehnicistično: premori med govorom so lahko zelo različno dolgi – pri hitrem govoru kratki, izjave pa daljše, pri počasnem tempu govora pa so lahko tudi znotraj izjave daljši premori. Poleg tega lahko govorec kadarkoli naredi premor, ker npr. išče ustrezno besedo, ostali elementi prozodije (npr. intonacija) in skladenjsko-semantične strukture pa kažejo na povezanost obeh delov govora v eno enoto:


[HOha50.trs]

K39: in sicer ponudbe vašega hotela [.] za zelo petične goste


Vseeno lahko rečemo, da je izjava predvsem prozodična enota govora. Tudi raziskave prozodije spontanega govora kažejo, da prozodija, natančneje intonacija, zaznamuje enote govora (Vitez, Zwitter Vitez, 2004). Vendar je v citiranem članku ta enota večja od enote, ki jo v analizi diskurza običajno pojmujemo kot izjavo, in sicer avtorja govorita o govorjenem odstavku, ki ga poimenujeta »po analogiji z definicijo tega pojma v pisanju« (Vitez, Zwitter Vitez, 2004: 10).

Izjava je pogosto tudi skladenjsko-semantično zaokrožena enota govora in običajno sovpada s prozodičnimi kazalci mej med izjavami:


[TPma42.trs]

Ama1: to področje je zelo[zl/o:] znano po vinih in to tudi tržimo največ ne?

Ama1: [SOGOVORNIK_mhm] eee in sicer oni znajo res v redu[r/e:ju] pripravit imajo[m/a:jO] pa tudi #izbiro# kaj bi oni želeli

Ama1: eee recimo tudi hrana zraven vina ne?

Ama1: kakšni narezki in to lahko izberejo[zb*E:rEjO] oni

Ama1: imajo[m/a:jO] tudi malo dražje za bolj ugledne goste ne?

Ama1: večinoma[+SOGOVORNIK_mhm] se pa tako[t/a:k] odločijo za čisto[tS/i:st]ne vem vzorec vina samo ne?


Vseeno to vedno ne velja. V spodnjem primeru je meja med izjavama postavljena glede na prozodične kazalce, predvsem premor in intonacijo:


[HOha50.trs]

K39: in sicer da kar[k\@r] povem situacijo sama pričakujem obisk tam nekje konec maja oziroma sredini maja

K39: eeem treh ali[al] pa štirih Nemcev to zaenkrat še ne vem sss se pravi oni[+SOGOVORNIK_mhm] so pač iz Nemčije[+SOGOVORNIK_mhm]


Skladenjsko-semantične enote pa bi za ta primer segmentirali drugače, npr. tako:


K39: in sicer da kar[k\@r] povem situacijo

K39: sama pričakujem obisk tam nekje konec maja oziroma sredini maja

K39: eeem treh ali[al] pa štirih Nemcev to zaenkrat še ne vem

K39: sss se pravi oni[+SOGOVORNIK_mhm] so pač iz Nemčije[+SOGOVORNIK_mhm]


Vprašanje segmentiranja govora na osnovne enote segmente (kar ustreza konceptu izjave, predstavljenemu tukaj) se odpira tudi pri urejanju govornih korpusov za razvoj govornih tehnologij. V Sloveniji se v času pisanja te naloge razvijata vsaj dva večja korpusa v ta namen, oba istega tipa, tj. Broadcast News (Žgank et al., 2004; Žibert, Mihelič, 2004). Ker se ti viri razvijajo v povsem praktične namene, je takšno tudi reševanje vprašanja segmentov. Za razvoj tehnologij je pomembno, da je segment akustično homogen, kar pomeni, da vključuje isti način govora enega govorca, isti kanal, homogeno ozadje... Med dvema segmentoma mora biti dovolj dolg premor, da lahko postavimo mejo, ne da bi odsekali konec zadnjega fonema prejšnjega segmenta ali začetek prvega fonema novega segmenta, meje med segmenti so lahko torej samo ob premorih. Po drugi strani pa predolge enote močno otežijo procesiranje zaradi kompleksnosti računanja, zato je zaželeno, da večinoma ne presegajo dolžine 15 do 20 besed.

Glede na vse navedene pomisleke in premisleke ter praktične izkušnje s segmentiranjem govora razumem izjavo kot enoto govora s sporočilno vlogo, ki je zamejena s premori v govoru istega govorca in označena z intonacijo (padajočo).

4.3Diskurzni označevalci


Razlog, da sem v pričujoči raziskavi med drugim velik del namenila analizi diskurznih označevalcev, je, da navidezna kaotičnost spontanega govorjenega besedila, pri kateri se zdi, da premnogokrat krši vsa sistematična načela »pravilnega« besedila, in ki povzroča največ težav pri razvoju strojnega simultanega prevajanja govora, kliče po iskanju oprijemljivih točk v spontanem govorjenem diskurzu, ki bi kazale, kako je besedilo smiselno organizirano in povezano. Analiza diskurza poudarja, da je bistvena vpetost besedila v kontekst. Teorija diskurznih označevalcev opozori na posebno skupino izrazov, ki kažejo na povezanost diskurza s kontekstom, dodatno spodbudno je, da v precejšnji meri temelji na raziskavah govorjenega diskurza.


Precejšen del raziskav analize diskurza v tujini se v zadnjih dveh desetletjih posveča izrazom v diskurzu, poimenovanim diskurzni označevalci (angl. discourse markers). Nanje med prvimi opozori (Levinson, 1983: 87-88): »Veliko besed in besednih zvez v angleščini in brez dvoma v večini jezikov označuje razmerje med izjavo in prejšnjim diskurzom. Primer so rabe besed toda, zato, da povzamem, nasprotno, vendarle, kakorkoli, torej, poleg tega, pravzaprav, tako, konec koncev in podobnih na začetku izjav. Zdi se, da te besede označujejo, pogosto na zelo kompleksen način, na kak način je izjava, ki jih vključuje, odgovor na nek del prejšnjega diskurza ali nadaljevanje prejšnjega diskurza.«8 Vendar teh izrazov ne poimenuje in jim tudi ne posveti večje pozornosti.

V splošnih pregledih raziskav diskurznih označevalcev, kot sta (Schourup, 1999) ali (Fraser, 1999), navajajo, da se pojavljajo tudi številna druga poimenovanja za to skupino izrazov, npr. diskurzni členki (angl. discourse particles), diskurzni operatorji (angl. discourse operators), diskurzni povezovalci (angl. discourse connectives), diskurzni deiktiki (angl. discourse deixies), pragmatični označevalci (angl. pragmatic markers), pragmatični operatorji (angl. pragmatic operators), pragmatični členki (angl. pragmatic particles), stavčni povezovalci (angl. sentence connectives) ipd. V slovenskem prostoru so raziskave izrazov, ki nastopajo v vlogi diskurznih povezovalcev, manj pogoste, vseeno jih je nekaj, vendar z različnimi poimenovanji in iz različnih zornih kotov: diskurzni označevalci (Kranjc, 1999), konektorji (Gorjanc, 1998), besedilni povezovalci (Smolej, 2004a), metabesedilni elementi (Pisanski, 2002). Različna poimenovanja doma in v tujini pogosto kažejo tudi na različna izhodišča in posledično (delno) različna opredeljevanja problema.

V nadaljevanju skušam najprej razjasniti uporabo in različne definicije termina diskurzni označevalci, potem pa skladno s predstavljenimi cilji (glej 3.5) zastaviti izhodišča za analizo diskurznih označevalcev v tej nalogi.


4.3.1Slovenske raziskave nekaterih elementov, ki jih lahko štejemo med diskurzne označevalce


Raziskave diskurznih označevalcev v slovenskem jeziku so do zdaj narejene za pisna besedila. Na diskurzne označevalce med prvimi na kratko opozori (Kranjc, 1999: 65), in sicer navaja, da diskurzni označevalci, npr. veš, ja, aha, »/o/pravljajo vlogo sredstva preverjanja pozornosti, hkrati pa so tudi sredstvo označevanja oziroma kazanja različnih vrst udeleževanja in pritrjevanja«.


Širša raziskava nekaterih elementov, ki jih lahko štejemo med diskurzne označevalce, je predstavljena v (Gorjanc, 1998). Izhaja iz razprave Teuna van Dijka iz leta 1977 in navaja: »Skupino tipičnih izrazov različnih skladenjskih oz. oblikoslovnih kategorij, ki v besedilu izražajo medstavčna in medpovedna razmerja ali razmerja med delom besedila in njegovim nadaljevanjem, imenujemo konektorji /.../.« (Gorjanc, 1998: 367) Ugotavlja, da se »kot jedrna /.../ izloči skupina, ki je glede na vlogo prvotno vezniška« (Gorjanc, 1998: 367). Konektorje ločuje na podkategorije glede na »oblikoslovno-skladenjske kategorije in z vidika vloge pri gradnji besedila« (Gorjanc, 1998: 367), v nadaljevanju pa natančneje predstavi oblikoslovno-skladenjsko tipologijo konektorjev: relativne, vezniške, prislovne in členkovne. Avtor torej ob upoštevanju besedilnega pomena predvsem nadgrajuje spoznanja tradicionalnega sistemskega jezikoslovja.


(Schlamberger Brezar, 1998) govori o povezovalcih v diskurzu predvsem skozi izhodišča t.i. ženevske šole v okviru diskurzivne pragmatike. Med povezovalce šteje besede ali morfeme, ki »povezujejo jezikovne enote na različnih ravneh. Po širši opredelitvi so to vse besede, ki zagotavljajo organizacijo besedila.« (Slamberger Brezar 1998: 194) Povezovalce deli na semantične, ki vežejo med seboj propozicije oz. sekvence propozicij, in pragmatične, ki se razlikujejo od semantičnih v tem, da izražajo odnose med govornimi dejanji, medtem ko jih semantični med danimi dejstvi. Pragmatične povezovalce po vzoru dela Rouleta in sodelavcev (Schlamberger Brezar 1998: 199) deli na »zaznamovalce ilokucijske funkcije (pobudne ali odzivne), kot so performativni glagoli, posredni zaznamovalci ali skladenjske strukture, zaznamovalce interakcijske funkcije oziroma zaznamovalce zgradbe konverzacije in interakcijske povezovalce«. Na gradivu avtentičnih diskurzov razvrsti med zaznamovalce zgradbe konverzacije izraze v bistvu, torej, zdaj, ne (ki so vsi proaktivni, z vnaprejšnjim delovanjem) in ja, hm, mhm, saj, no, ne (ki so vsi retroaktivni, izražajo odnos do izrečenega). Interakcijske povezovalce deli na argumentacijske povezovalce (ker, zakaj, kajti, sicer, saj...), posledične povezovalce (tako da, zato, zatorej...), protiargumentacijske povezovalce (kljub temu da, toda, ampak, a, vendar, marveč, temveč...) in reevalvacijske povezovalce (končno, skratka, vsekakor...).


Naslednji raziskavi sta usmerjeni v elemente, ki jih prav tako lahko štejemo k diskurznim označevalcem, besednovrstno pa so uvrščeni med členke. Na povezovalno vlogo členkov v slovenskem jeziku opozori (Skubic, 1999) in skuša vlogo, ki jo pri tvorbi kohezije igrajo členki, pojasniti s funkcijskim pristopom po vzoru Hallidaya.

Bolj diskurzivni pristop k raziskavi členkov kot besedilnih povezovalcev je predstavljen v (Smolej, 2004a). Temelj delitve, ki jo predstavi, je »predvsem preučitev besede kot nosilke pomena (pomensko razčlenjevanje besed in besednih zvez) in ne toliko skladenjsko in besedilnofunkcijsko vedenje« (Smolej, 2004a: 47). Členke najprej razdeli v dve osnovni nadskupini, ki pa se med seboj prepletata, in sicer na členke, ki opravljajo funkcijo modifikacije (modifikacijo razume kot omejitev in natančno določitev pomena/cilja sporočilne funkcije), in na členke, ki opravljajo funkcijo besedilnega povezovanja. Nekateri členki, npr. poudarjalni, lahko opravljajo obe funkciji. V nadaljevanju se osredotoči na drugo skupino. »Besedilni označevalci /.../ ne vstopajo v pomenska razmerja s stavčnimi členi oz. posameznimi deli povedi in tako niso nosilci modifikacijske vrednosti oz. moči. Besedilni povezovalci v besedilu opravljajo vlogo povezovalnih sredstev (besedilna vezniška sredstva), kar pomeni, da poleg besedilnega povezovanja opravljajo tudi vlogo izražanja logičnih odnosov med deli besedila oz. vlogo izražanja vrste razmerja med posameznimi besedilnimi polnopomenskimi enotami.« (Smolej, 2004a: 49) Členke v vlogi besedilnih povezovalcev razdeli na tri skupine:


Širši okvir raziskavam elementov, ki so lahko v vlogi diskurznih označevalcev, najdemo v slovenskem prostoru v raziskavah metabesedilnih elementov oz. metadiskurza in metateksta v delu Agnes Pisanski Peterlin (2001; 2002; 2005). Podobno kot bomo videli, da velja za diskurzne označevalce, ugotavlja avtorica (Pisanski, 2001) za metabesedilo: definicije različnih avtorjev se le delno ujemajo, vsaka od različnih klasifikacij metabesedilnih elementov pa je primerna predvsem za določeno vrsto raziskave. Avtorica sledi Hallidayevi (Halliday, 1994) ideji o treh meta- ali makrofunkcijah, ki se pojavljajo v jeziku: predstavni, medosebni in besedilni, na kateri, kot navaja (Pisanski, 2001), temelji koncept metabesedilnih elementov. To idejo so drugi raziskovalci prenesli na raven besedila (npr. raziskavi Hyland, 1998; Ifantidou, 2005). »V besedilu tako ločujejo med deli, ki izražajo propozicijsko vsebino (predstavna funkcija), in deli, ki ne prispevajo k vsebini besedila, temveč bralcu pomagajo vsebino organizirati in razložiti (besedilna in medosebna funkcija). Za dele besedila v besedilni in medosebni funkciji sta se v anglo-ameriškem jezikoslovju uveljavila termina metadiskurz in metabesedilo (metadiscourse in metatext).« (Pisanski, 2002: 183) Pri analizi sledi Hylandovi tipologiji, po kateri so metabesedilni elementi razvrščeni v deset kategorij (povzeto iz Pisanski, 2005): logični povezovalci (predvsem vezniki in prislovne besedne zveze), označevalci okvira (npr. najprej, nato, prvič, drugič, če zaključimo, moj namen je), endoforični označevalci (npr. glej spodaj, kot je bilo omenjeno zgoraj), dokazovalci (npr. citiranje), tolmači (npr. to se imenuje, z drugimi besedami), omejevalci in ojačevalci (npr. morda, možen, jasno), označevalci odnosa do vsebine (npr. žal, strinjam se), označevalci odnosa do bralca (npr. iskreno, bodite pozorni), označevalci osebe (npr. jaz, mi, moj, naš). Navedena klasifikacija je narejena na osnovi pisnega diskurza in direkten prenos na govorjeni diskurz ni ustrezen. Raziskave v (Pisanski Peterlin, 2001; 2002; 2005) so omejene na endoforične označevalce in označevalce odnosa do vsebine v medosebni funkciji v znanstvenih in poljudnoznanstvenih pisnih besedilih.


4.3.2Kratek pregled tujih raziskav diskurznih označevalcev


V slovenskem prostoru so raziskave elementov, ki jih prištevamo med diskurzne označevalce, torej narejene samo za pisni diskurz. Nasprotno termin diskurzni označevalec v tujini izhaja zlasti iz raziskav pogovora.

V tujini so se raziskave diskurznih označevalcev v večjem razmahu začele sredi sedemdesetih let 20. stoletja, najprej za angleški jezik. Dobra pregleda raziskav diskurznih označevalcev najdemo v (Fraser, 1999) in (Schourup, 1999). Oba vidita skupne tri oz. Fraser tudi četrto temeljno smer pristopa k analizi diskurznih označevalcev.


Prva smer se je začela s (Schiffrin, 1987) in povezuje diskurzne označevalce s koherenco. Zanima jo, na kak način diskurzni označevalci prispevajo k diskurzni koherenci. Tvorjenje in interpretacija besedila bistveno temeljita na identifikaciji koherentnih povezav med enotami besedila in diskurzni označevalci igrajo pomembno vlogo pri identifikaciji.

(Schiffrin, 1987) definira diskurzne označevalce kot »zaporedno odvisne elemente, ki razmejujejo enote govora« (angl. »sequentially dependent elements which bracket units of talk«) (Schiffrin, 1987: 31). Na korpusnem gradivu natančno analizira izraze and (sln. in), because (sln. ker), but (sln. toda), I mean (sln. mislim), now (sln. zdaj), oh (sln. aha), or (sln. ali), so (sln. torej), then (sln. potem), well (sln. no), y'know (sln. veš/veste). Predlaga, da je diskurz rezultat različnih medsebojno povezanih komponent, vsaka s svojo vrsto koherence: struktura menjavanja vlog (angl. exchange structure; odraža mehanizme menjavanja vlog v pogovoru), struktura dejanj (angl. action structure, odraža zaporedje govornih dejanj), okvir sodelovanja (angl. participation framework; odraža razmerje med tvorcem in naslovnikom ter odnos do izjav), predstavna struktura (angl. ideational structure; odraža razmerja med predstavami, idejami), informativnost (angl. information state; organiziranje vedenja in metavedenja, ki se razvije v diskurzu). Diskurzni označevalci po njenem označujejo posamezne ravni, in sicer posamezen označevalec običajno primarno označuje eno od ravni, hkrati pa lahko označuje še eno ali več ravni sekundarno. Npr. angleški oh primarno označuje informativnost (novost informacije), hkrati pa sodelovanje (označuje pripravljenost, sposobnost tvorjenja oz. interpretacije izjav) in dejanje (označuje npr. pojasnitev). Med lastnostmi diskurznih označevalcev navaja povezovalnost, pripadnost različnim besednim vrstam, sintaktično so ločeni od povedi, pogosto so rabljeni v začetku izjave, prozodično jih prepoznamo po poudarku, premoru ipd., nimajo pomena sami po sebi ali imajo dvoumen pomen oz. so refleksivni. Glede njihove bistvene lastnosti, povezovalnosti, pravi, da diskurzni označevalci kažejo na besedilo in udeležence pogovora. In sicer lahko označevalec kaže, da je izjava osredotočena na govorca ali naslovnika/sogovornika ali oboje. Oh npr. po njenem kaže osredotočenost na govorca – da je prepoznal in sprejel informacijo. Well kaže osredotočenost na govorca in sogovornika, saj se tisti, ki uporabi ta označevalec, odzove na pričakovanja prejšnjega govorca, ta pa mora spremeniti svoja pričakovanja o tem, kaj bo sledilo. Po drugi strani diskurzni označevalci hkrati kažejo tudi ali na predhodno besedilo ali na besedilo, ki bo sledilo, ali oboje. Oh se po ugotovitvah (Schiffrin, 1987: 323) nanaša na informacijo, ki je bila predstavljena, well pa na predhodno informacijo in na to, kar bo sledilo. Povzame, da so diskurzni označevalci v osnovi kontekstni usmerjevalci (angl. contextual coordinates): kažejo na bližnji kontekst, v okviru katerega so bile izjave tvorjene in v katerem naj bodo interpretirane.

Redeker prav tako izhaja iz preučevanja koherence in najde v (Schiffrin, 1987) pomanjkljivosti in predlaga popravke (povzeto po Schourup, 1999). Diskurzne označevalce definira kot besede ali fraze, ki so uporabljene s primarno funkcijo usmeriti naslovnikovo pozornost k posebni vrsti povezave med izjavo, ki bo sledila, in trenutnim diskurznim kontekstom. Izjavo pri tem razume kot intonacijsko in strukturno omejeno, običajno stavčno enoto. Po njenem mnenju diskurzni označevalci niso stavčni indikatorji diskurzne strukture, npr. naj vam povem zgodbo, kot sem rekel, ker je to tako, deiktični izrazi, ki niso rabljeni anaforično (zdaj, tukaj, danes), anaforični zaimki in samostalniške besedne zveze itd.


Druga smer so raziskave Brucea Fraserja. Kot pravi sam (Fraser, 1999: 936), se je približal vprašanju diskurznih označevalcev s slovnično-pragmatičnega stališča.

Diskurzne označevalce šteje za podskupino pragmatičnih označevalcev. Pragmatični označevalci ne prispevajo k propozicijski vsebini izjave, ampak signalizirajo različne vrste sporočil (Fraser, 1999: 936). V (Fraser, 1996) loči štiri vrste pragmatičnih označevalcev, ki ustrezajo štirim različnim tipom sporočila. Osnovni označevalci (angl. basic markers) določajo silo osnovnega sporočila, tj. sporočila, ki vzame stavčno propozicijo za svojo vsebino. Domnevno v Domnevno sem bil sprejet je po njegovem osnovni označevalec, ki signalizira, da je treba propozicijo sem bil sprejet razumeti kot domnevo, povedni naklon propozicije sem bil sprejet (ki je po Fraserju prav tako osnovni pragmatični označevalec) pa signalizira, da je treba propozicijo razumeti kot trditev ali verjetje. Komentarni označevalci (angl. commentary markers) izražajo komentar propozicije. Neumno v Neumno, Sara ni faksirala pravilnega obrazca pravočasno signalizira, da smatra govorec Sarino početje za neumno. Komentarni označevalci imajo tako predstavni (pomen, ki prispeva k predstavitvi vsebine izjave) kot proceduralni pomen (sporoča, kako obravnavati vsebino izjave). Vključujejo označevalce ocene (žalostno), načina govorjenja (odkrito povedano), poudarka (poudarjam), ublažitve (če dovolite), dokazovalne označevalce (gotovo), označevalce govoric (baje). Paralelni označevalci signalizirajo sporočilo, ki je dodano osnovnemu sporočilu (Natakar, prinesite mi prosim nove vilice; Daj že svoje presnete čevlje dol z mize).

Diskurzni označevalci (npr. konec koncev, poleg tega) so četrti tip znotraj pragmatičnih označevalcev. Po Fraserju (1999) so lahko to samo jezikovni izrazi (v nasprotju s (Schiffrin, 1987) torej ne šteje mednje nejezikovnih zvokov, kot je oh), ki: (1) ne prispevajo nič k predstavnemu pomenu izjave, pač pa samo k proceduralnemu pomenu, (2) signalizirajo razmerja med izjavo, katere del so, in ostalim diskurzom, ki jih namerava vzpostaviti tvorec. Od ostalih pragmatičnih označevalcev se ločijo po tem, da ne prispevajo nič k predstavnemu pomenu izjave.

Kot navaja (Schourup, 1999), Fraserjeva definicija ni bila splošno sprejeta, predvsem so raziskovalci kritizirali, da raziskovanje pragmatičnih označevalcev omeji na odnose med zaporednimi segmenti diskurza oz. znotraj izjave. Kritike so bile tudi, da je takšna definicija preveč vključujoča, ker npr. združi v isto skupino tako različne izraze, kot sta torej in to je. Zanimivo, po drugi strani izključi skoraj prototipska označevalca v angleščini oh in well, oh uvrsti med osnovne označevalce, well pa sploh izpade iz kategorije pragmatičnih označevalcev. Fraser svojih ugotovitev ne preverja na korpusu govorjenih diskurzov, zaradi česar lahko upravičeno podvomimo v na videz čisto in elegantno razvrstitev nepropozicijskih delov izjave v štiri skupine pragmatičnih označevalcev.


Tretjo smer raziskovanja diskurznih označevalcev predstavlja Diane Blakemore (povzeto po Frazer, 1999; Schourup, 1999). Izhaja iz teorije relevantnosti (angl. relevance theory) (Wilson, Sperber, 1986),9 ki ima korenine tudi v delu Gricea (1975). Predpostavlja, da naslovniki za vsako izjavo ugotavljajo, na kak način je relevantna v aktualiziranem kontekstu. Naslovniki torej verjamejo, da je vsaka izjava tvorjena z namenom, da je optimalno relevantna.

Diane Blakemore obravnava diskurzne označevalce kot vrsto konvencionalnih implikatur, kot jih definira Grice (1989). Po njenem mnenju diskurzni označevalci nimajo predstavnega pomena, ampak samo proceduralni pomen. Informacija v izjavi je lahko relevantna na štiri načine, izražene z diskurznimi označevalci:


(Fraser, 1999) navaja tudi četrto vrsto pristopa k diskurznim označevalcem, ki deluje znotraj diskurzne koherence. Od prve smeri se bistveno razlikuje po tem, da tukaj diskurzni označevalci niso v ospredju zanimanja, pač pa so raziskovalci preučevali različne vrste, različna razmerja diskurzne koherence in jih včasih utemeljevali tudi z uporabo različnih diskurznih označevalcev (ki jih poimenujejo označevalne fraze (angl. cue phrases)).


4.3.3Lastnosti diskurznih označevalcev


Iz predstavljenega hitro ugotovimo, da ni nobene splošne sprejete definicije diskurznih označevalcev in da tudi ni enotnega mnenja, kateri izrazi sodijo v razred diskurznih označevalcev in kateri ne. (Schourup, 1999) povzema, da večina definicij sicer vključuje lastnost povezovalnosti in nevplivanja na resničnost/neresničnost propozicije, hkrati pa ugotavlja razhajanja mnenj glede narave povezav, ki jih signalizirajo diskurzni označevalci, narave in obsega elementov, ki jih povezujejo, in slovnične kategorizacije diskurznih označevalcev. Posledično lahko nek izraz po eni definiciji sodi med diskurzne označevalce, po drugi pa je iz te skupine izločen. Kljub temu skuša v (Schourup, 1999) zbrati lastnosti diskurznih označevalcev, ki so bolj ali manj splošno sprejete:

  1. Najbolj izrazita in po mnenju nekaterih temeljna skupna lastnost diskurznih označevalcev je povezovalnost, saj signalizirajo razmerja med izjavami ali drugimi enotami diskurza oz. med izjavami in diskurzom, v katerem so uporabljeni.

  2. Naslednja skupna lastnost, ki jo navaja (Schourup, 1999), je neobveznost. Kot pravi, so diskurzni označevalci neobvezni v dveh pogledih: sintaktično in semantično. Sintaktično neobveznost utemeljujejo s tem, da lahko diskurzne označevalce izločimo iz izjave, ne da bi s tem sintaktično vplivali na izjavo, semantično neobveznost pa s tem, da tudi če jih odstranimo iz izjave, ostane semantično razmerje med dvema izjavama še vedno razvidno, vendar ne več eksplicitno pokazano. Vseeno pa nikakor ne smemo smatrati diskurznih označevalcev za nepotrebne ali odvečne, saj vodijo naslovnika k določeni interpretaciji oz. izločijo nezaželeno interpretacijo.

  3. Diskurznim označevalcem se pripisuje lastnost, da ne vplivajo na resničnost/neresničnost propozicije, izražene z izjavo (Schourup, 1999: 232), oz. da nimajo pomena sami po sebi (Schiffrin, 1987: 328). Povezovalnost, neobveznost in nevplivanje na resničnost propozicije štejejo običajno med obvezne lastnosti diskurznih označevalcev.

V nadaljevanju predstavljene lastnosti so manj konsistentne:

  1. Diskurzni označevalci so običajno sintaktično ločeni od izjave, tj. so zunaj sintaktične strukture izjave ali so le šibko povezani z njo.

  2. Sintaktična ločenost je v govoru običajno zaznamovana tudi v prozodiji s tako imenovano fonološko neodvisnostjo: lahko so poudarjeni, ločeni s premorom, označeni z intonacijo...

  3. Raziskovalci ugotavljajo, da se diskurzni označevalci običajno pojavijo v začetku enote diskurza, ki ji pripadajo. Vendar to ni nujno: redkeje se uporabijo tudi znotraj izjave ali ob koncu. Začetni položaj zato ni kriterij diskurznih označevalcev, vseeno pa se jih večina lahko uporabi v začetnem položaju, mnogi tudi večinoma v začetnem položaju.

  4. Raziskovalci običajno ugotavljajo, da so besednovrstno diskurzni označevalci iz različnih kategorij: vezniki (in, toda, zato), prislovi (zdaj, kakor koli), členki (pravzaprav, ja, ne), medmeti (aha, aja), glagoli (glej, vidiš, mislim, veš)...


4.3.4Izhodišča raziskave diskurznih označevalcev v tej nalogi


Poimenovanj za izraze, ki bodo v središču raziskave, je torej več. Tukaj izberem termin diskurzni označevalec. S tem sledim poimenovanju, ki ga uvede (Kranjc, 1999), čeprav so v slovenskem prostoru že uvedeni tudi termini konektor, pragmatični povezovalec, besedilni povezovalec in metadiskurz, ki pa izhajajo večinoma iz drugačnih izhodišč kot raziskava diskurznih označevalcev v tej nalogi. V razmerju do metadiskurza bi lahko bili diskurzni označevalci podkategorija (ki pa se ne ujema s kategorijami, povzetimi po Hylandu in predstavljenimi v (Pisanski Peterlin, 2005), ki so prilagojene za analizo pisnega diskurza, predvsem znanstvenih, strokovnih in poljudnoznanstvenih besedil). V razmerju do konektorjev (Gorjanc, 1998) lahko diskurzne označevalce določimo kot nadpomenko, čeprav kategorije niso povsem skladne. Najresnejša je dilema o poimenovanju besedilni povezovalci (Smolej, 2004a), diskurzni povezovalci (Schlamberger Brezar, 1998) ali diskurzni označevalci. Termin besedilni vidim v tem primeru kot manj ustrezen, saj ne gre samo za povezovalce besedilnih delov, ampak za povezovalce diskurznih delov (o razliki med besedilom in diskurzom glej 4.1.1). Kot vidimo pri analizah, pa vloga izrazov, ki jih analiziram, nikakor ni samo povezovanje, zato bi bil termin povezovalec nekoliko zavajajoč. Termin diskurzni označevalec tudi sovpada s poimenovanjem v raziskavi (Schiffrin, 1987).


V večini zgoraj predstavljenih raziskav avtorji ločujejo med dvema temeljnima ravnema diskurza, čeprav pri tem izhajajo iz različnih teorij in ravni niso povsem zamenljive: (Pisanski, 2001; 2002; 2005) v slovenski prostor po Hallidayu (1994) in Hylandu uvede ločevanje med metabesedilom in propozicijo; (Redeker, 1990) navaja, da je razlikovanje med propozicijo in komunikacijskimi vlogami staro že precej desetletij; (Fraser, 1996) loči izjavo na propozicijo in vse ostalo, napove, da ga zanima predvsem vse ostalo ter skuša to razvrstiti v okvir pragmatičnih označevalcev; Diane Blakemore (povzeto po Fraser, 1999) ločuje predstavni (angl. representational meaning) in proceduralni pomen (angl. procedural meaning); (Schiffrin, 1987) ločuje predstavno (angl. ideational) ravnino od strukture menjavanja vlog, strukture dejanj, okvira sodelovanja in informativnosti, ki pa jih lahko vse združimo v eno ravnino (kot predlaga Redeker, 1990).

Glede na to, da na razliko med dvema temeljnima ravnema diskurza opozorijo skoraj vsi navajani avtorji, jo sprejmem za izhodišče tudi v tej raziskavi. Predvidevam, da so nekatera jezikovna sredstva ali strukture v diskurzu predvsem v pragmatični vlogi: so manj pomembne za posredovanje vsebine, informacij, čeprav najbrž ne povsem nepomembne (npr. pri ločevanju metadiskurza gre bolj za funkcijsko ločevanje, opozarja (Pisanski, 2005)), po drugi strani pa so predvsem pomembne za razvijanje medosebnih odnosov med sogovornikoma/-i, za organizacijo diskurza, besedila ipd. Nasprotni pol imenujem propozicijska vsebina ali samo vsebina. Termin predstavni pomen uporabljam za označevanje semantične dimenzije analiziranih sredstev. Diskurzni označevalci so v tej delitvi tista jezikovna sredstva, ki imajo predvsem pragmatično vlogo.

Pri definiranju diskurznih označevalcev izhajam predvsem iz raziskav v (Schiffrin, 1987) in podobnih (glej 4.3.2). Po (Schiffrin, 1987) diskurzni označevalci kažejo na različne ravni pogovora, pri čemer izmed predstavljenih petih ravni ohranim razliko med označevalci, ki predvsem označujejo predstavno strukturo diskurza, in vsemi ostalimi, ki označujejo predvsem pragmatično strukturo. Podobno delitev iz (Schiffrin, 1987) izpelje (Redeker, 1990). Pri tem ne smemo spregledati njunih ugotovitev, da večina elementov, ki jih štejemo med diskurzne označevalce, pogosto kaže na obe ravni hkrati, vendar običajno predvsem na eno.

Iz njune delitve vidimo, da vlogo diskurznih označevalcev, ki označujejo predvsem predstavno strukturo, običajno opravljajo vezniki, navezovalni členki in nekateri prislovi. Povezovalna vloga teh sredstev v slovenskem jeziku ni novo odkritje (Toporišič, 2000; Gorjanc, 1998; Schlamberger Brezar, 1998; Smolej, 2004a), vendar izhaja predvsem iz raziskovanja pisnega diskurza (razen v Schlamberger Brezar, 1998) in ne vedno iz analize diskurza.

Drugi skupini diskurznih označevalcev, ki označujejo pragmatično strukturo, v slovenskem prostoru še ni bilo namenjene širše pozornosti, na kratko pa so med drugim predstavljeni v (Schlamberger Brezar, 1998). Kot navaja (Redeker, 1990), sta osnovni značilnosti teh označevalcev, da povezujejo predvsem druge ravni diskurza, ne samo predstavne, in da prispevajo predvsem k proceduralnemu pomenu. Tej skupini izrazov bom v raziskavi namenila več pozornosti (glej 6.2). Pri analizi teh izrazov ne izhajam iz nobenih dodatnih predpostavk, ki bi temeljile na kateri od predstavljenih teorij.


Zaželeno je, da so jezikovni koncepti, ki jih želimo uporabiti pri razvoju strojnega simultanega prevajanja govora, jasno definirani. Diskurzne označevalce v tej raziskavi določim tako, da najprej poiščem in naredim seznam izrazov, ki lahko nastopajo v vlogi diskurznega označevalca, ki označuje pragmatično strukturo. Seznam nikakor ni zaprt in dokončen, ampak velja za analizirano gradivo. Pri vsakem izrazu najprej analiziram, ali je lahko rabljen samo kot diskurzni označevalec ali pa je lahko rabljen tudi kot del propozicijske vsebine ter ali ima kakšne variante. Osrednji del analize vsakega izraza v vlogi diskurznega označevalca posvetim definiranju njegovih pragmatičnih vlog, pri čemer uporabljam predvsem kvalitativni pristop, in sicer skušam odgovoriti na vprašanje, kako je diskurzni označevalec v aktualiziranem kontekstu vplival na diskurz. Za uporabo v strojnem simultanem prevajanju govora so zanimivi tudi pogostost rabe diskurznih označevalcev, njihov položaj v izjavi in sopojavljanje. Pri tem uporabljam predvsem kvantitavini pristop. Natančen postopek analize je opisan v 6.2.


4.4Popravljanja


Tako rekoč na vseh področjih, ki se ukvarjajo z raziskovanjem pogovora, tudi pri strojnem simultanem prevajanju govora, opozarjajo na značilnosti, ki jih poimenujejo premori, zapolnjevalci vrzeli, podaljšani zlogi, napačni začetki, zatikanja, diskontinuitete, popravljanja, ponavljanja, nedokončane misli, spremembe začete strukture ipd. Navedene značilnosti povzročajo precej težav pri razvoju sistemov strojnega simultanega prevajanja govora, ki imajo ambicijo procesirati pogovorni govor. V tujini so navedene značilnosti pogovora v splošnem največ raziskovali znotraj dveh glavnih smeri: psiholingvistike in analize diskurza (najpogosteje konverzacijskih analiz), v slovenskem prostoru pa najdemo nekaj zanimivih misli o nekaterih od teh značilnosti v raziskavah skladnje slovenskega govorjenega jezika.


V novejšem času se s skladnjo slovenskega govorjenega jezika obširneje ukvarjata raziskavi (Krajnc, 2004) in (Krajnc, 2005) ter (Smolej, 2004b).

(Smolej, 2004b) predstavi v slovenskem prostoru nov pogled na tvorjenje diskurza s stališča sintagmatske in paradigmatske osi, ki temelji na (Blanche-Benveniste, 1991). Predpostavlja, da »vse osnovne stavčne strukture izhajajo iz enega in istega jezikovnoskladenjskega sistema« (Smolej, 2004: 423). Do navideznega skladenjskega razhajanja, navaja, prihaja predvsem zaradi številnih neizpeljanih (pretrganih, opuščenih) struktur. Te strukture razlaga kot posledico hkratnega tvorjenja spontanega govora na dveh ravneh, sintagmatski (vodoravna os) in paradigmatski (navpična os). Govorec posega po obeh ravneh, sintagmatski in paradigmatski, pri tvorjenju katerekoli vrste diskurza (spontano ali nespontano tvorjene), vendar je samo pri spontano tvorjenem diskurzu eksplicitno izražena tudi paradigmatska os. Razkrivanje paradigmatske osi vključuje večkratni izbor iste leksikalne ali slovnične enote, saj to pomeni, da tvorjenje/izpeljava stavčne strukture ostaja na istem mestu sintagmatske osi. Razkrivanje paradigmatske osi pa pomeni tudi izbor različnih leksikalnih ali slovničnih enot iste paradigmatske osi, ki nastopajo na istem mestu sintagmatske osi. Pri razkrivanju paradigmatske osi avtorica večkrat uporabi tudi termin popravljanje oz. popravek.

(Krajnc, 2005; Krajnc, 2004) predstavlja obširno in večstransko analizo besedilnoskladenjskih značilnosti javne govorjene besede. Gradivo, ki ga analizira (besedila s sej Mestnega sveta Mestne občine Maribor, v (Krajnc, 2004) tudi predavanje na fakulteti), večinoma ni povsem spontano, besedila so ali pripravljena vnaprej ali premišljena. Pri analizi nameni pozornost popisu skladenjskih značilnosti, tipičnih za govorjeno besedilo, prikazu skladenjskih struktur izrekov in popisu besedilotvornih sredstev. Stična točka s tukajšnjo raziskavo so skladenjske značilnosti govorjenega besedila, ki jih loči glede na tipologijo v (Muellerova, 1987): skladenjske modifikacije besedilnega povezovanja (nedokončane skladenjske strukture, kot so zamolk, preskok, izpust, samostojni odvisni stavek ..., spremembe besednega reda in paralelizem), situacijsko odvisne modifikacije skladenjskih zgradb (položajna deiktična sredstva, sredstva za vzpostavljanje in ohranjanje stika), modelne skladenjske zgradbe (vračanja in kopičenja). Za modelne skladenjske zgradbe navaja, da »so tiste modificirane skladenjske zgradbe, ki imajo značilnosti jasne sistemskosti« (Krajnc, 2004: 482). S konceptom vračanj se predstavljena tipologija stika s tukaj opazovanimi popravljanji: »Vračanja so tisti jezikovni pojavi, pri katerih G/P med tvorjenjem besedila pove ali izrazi eno sporočilo, dvakrat, eventualno večkrat, torej se k izgovorjenemu izrazu pridruži izraz, ki je ustreznejši ali bolj znan.« (Krajnc, 2004: 483) Loči slovnična vračanja oz. napake (npr. Štajerci smo zaskrbljeni nad tako odločitvijo, ki lahko ima som..., ki lahko ima samo politično ozadje. (Krajnc 2005: 74)) in pomenska vračanja oz. dopolnitve (npr. ... da spolnjujete sklepe Nadzornega ee, Mestnega sveta, ... (Krajnc, 2005: 75)). Za kopičenja bi v analizi diskurza približno ustrezal koncept ponavljanja.

Skladenjsko analizo povedi v govorjenem jeziku politikov predstavi tudi (Hribar, 2001/02), vendar se posveti samo skladnji stavka in povedi, torej ne obravnava značilnosti, ki jih tu imenujem popravljanja.


V nadaljevanju predstavljam nekaj bolj vplivnih tujih raziskav, ki izhajajo (tudi) iz analize diskurza in obravnavajo naštete značilnosti celostno.

V konverzacijskih analizah, ki jih tudi v drugih delih te raziskave vključujem kot aplikativno uporaben pristop pri razvoju strojnega simultanega prevajanja govora, sta eni najvplivnejših raziskav navedenih značilnosti (Schegloff et al., 1977) in (Schegloff, 1979), čeprav so jih seveda raziskovali tudi drugi avtorji, npr. (Jefferson, 1975; 1983).

(Schegloff, Jefferson, Sacks, 1977) ugotavljajo, da lahko ločimo samopopravljanje (angl. self-repair), kadar govorec sam spodbudi in izvede popravljanje, in popravljanje sogovornika (angl. other-repair), kadar na napako, pomoto, nejasnost ipd. opozori, jo spodbudi ali popravi nekdo drug, tj. sogovornik. Samopopravljanje ima prednost pred popravljanjem sogovornika in je tudi veliko bolj pogosto. Pa tudi če na napako, pomoto, nejasnost ipd. v govoru govorca opozori sogovornik, jo pogosteje popravi ponovno govorec sam. Sogovornik torej da možnost govorcu, da se popravi sam. Iz tega sklepajo, da samopopravljanje in popravljanje sogovornika nista alternativni možnosti.

Nadalje opozorijo, da se popravljanje ne nanaša nujno na napako v govoru, pač pa se govorec popravi tudi, ko sicer v govoru ne bi zaznali nobene napake, nejasnosti ali podobnega, npr. »Dejan je prišel in rekel 'rad bi' ... 'Bernice' je rekel 'pojdiva na kavo'«. Zato namesto angleškega termina correction uvedejo termin angl. repair. V slovenščini lahko oba pomena prevajamo s popravljanje.

Ločijo med sprožitvijo popravljanja (angl. repair initiation) in izvedbo popravljanja (angl. repair solution, repair outcome). Tisti, ki sproži popravljanje, namreč ni nujno tudi tisti, ki izvede popravljanje (lahko sproži popravljanje sogovornik, izvede pa ga prvotni govorec, npr.: A: Je Al danes tukaj? B: Je ja. A: Ja? eee ... B: No bil je.). Za strojno simultano prevajanje govora je zlasti zanimivo, kako razpoznavati mesto v pogovoru, kjer se pojavi popravljanje, zato poglejmo natančneje, kaj (Schegloff et al., 1977) navajajo kot sredstva za sprožitev popravljanja. Popravljanje lahko sprožimo z raznimi neleksikalnimi motnjami, npr. odrezanimi besedami, podaljšanimi glasovi, uh (v slovenščini bi ustrezal eee), premorom. Če popravljanje sproži sogovornik, lahko to stori z: heee?, kaj? in drugimi vprašalnicami, npr. kje?, kdaj?, kako?, lahko poleg vprašalnice ponovi del problematične enote govora, uporabi izraz y'mean (sln. misliš) in možno interpretacijo problematične enote govora ipd. Popravljanje se seveda izvede v bližini izvora težav, najpogosteje kar znotraj iste izjave in iste vloge (torej samopopravljanje).

Raziskava v (Schegloff, 1979) je neke vrste nadaljevanje razprave (Schegloff et al., 1977) in v njej skuša avtor umestiti popravljanje v sistem, vzporeden pogovorni skladnji (angl. syntax-for-conversation). Njegovo sklepanje poteka tako:

1. Popravljanje lahko vpliva na strukturo izjave, v kateri se pojavi, tj. spremeni že začeto strukturo.

2. Prednostno mesto popravljanja je znotraj iste vloge, v kateri je problematična enota govora, zato ker je naslednja vloga prednostno rezervirana za sekvenčno implicirano nadaljevanje, z drugimi besedami za drugi del bližnjega para. Ker je znotraj iste vloge konec izjave vedno mesto, kjer je večja verjetnost za zamenjavo vloge, ima prednost popravljanje znotraj iste izjave, v kateri je problematična enota, saj bo konec izjave lahko tudi konec vloge. Integriteta (lahko bi rekli tudi kohezivnost) izjave je zato podrejena drugim sekvenčnim zahtevam.

3. Ugotavlja, da je popravljanje lahko sistematično relevantno za katero koli izjavo v pogovoru.

4. Enote samopopravljanja imajo določen red, sistem. (a) Pobuda za samopopravljanje ima omejeno število pojavnih oblik: lahko je prekinjena beseda – ta običajno spodbudi popravljanje že začetega elementa, popravljanje v tem primeru je torej običajno usmerjeno nazaj. Če je pobuda za popravljanje nakazana med besedami, je to lahko narejeno s premorom ali angl. uh (v sln. bi ustrezal eee) ali obema skupaj – v tem primeru je bolj pogosto popravljanje izvedeno na elementu, ki bi sledil, je torej usmerjeno naprej. (b) Obstajajo tudi mesta v govoru, kjer je popravljanje pogostejše. To je: kmalu po začetku izjave ali malo pred koncem izjave, hitro za težavnim mestom v govoru, običajno v območju dveh besed, v določenih kontekstih pa lahko obstajajo posebna pravila popravljanja, navede primer t. i. pivotnih elementov (npr. don't say that i'm exa-just say i'm a liar dZ od exaggerate govorec uporabi kot dZ v just).


(Schegloff, 1979: 277) zaključi, da v govoru obstaja sistematična alternativa skladenjsko koherentnemu nadaljevanju govora, in ta alternativa je pobuda za popravljanje. Drugače povedano, na katerem koli mestu v govoru lahko govorec namesto nadaljevanja začete strukture tako, da bo skladenjsko koherentna, vključi popravljanje. Popravljanje je torej sistematična alternativa pogovorni skladnji, s katero govorci premoščajo težavna mesta v pogovoru, uspešno popravljanje pa pomeni napredovanje k rešitvi.


(Levelt, 1983) je zelo pogosto citiran in vpliven članek, ki ponuja izdelano taksonomijo popravljanj na podlagi govorčevih motivov, ki ga vodijo pri popravljanju, in izhaja iz psiholingvistike. Loči pet temeljnih kategorij:

    1. D-popravljanja (iz angl. Different): govorec se premisli in odloči, da bo rekel nekaj drugega, kot je sprva nameraval, npr. gremo naravnost naprej ali ... pridemo od rdeče in gremo naravnost k zeleni (ta in naslednji primeri so povzeti iz (Levelt, 1983), iz korpusa spontanih govorjenih besedil, kjer so morali govorci opisovati določene vizualne vzorce).

    2. A-popravljanja (iz angl. Appropriate): govorec spozna, da mora vsebino nameravanega sporočila modificirati, da bo primerna glede na kontekst. Znotraj te kategorije loči štiri podkategorije:

      1. AA-popravljanja: odpravljajo dvoumnost vsebine, npr. začnemo na sredi z ... na sredi papirja z modrim krogcem,

      2. AL-popravljanja: dodajo natančnejše, podrobnejše informacije, npr. z modro piko, z modrim krogcem na zgornjem koncu,

      3. AC-popravljanja: uskladijo vsebino s prejšnjo, tako da je besedilo koherentno, npr. greš eno navzgor, je eee prideš na rumeno,

      4. ALC-popravljanja: kadar ni jasno, ali je govorec dodajal natančnejše informacije ali vzpostavljal koherenco.

    3. E-popravljanja: govorec odkrije in popravlja napako v tem, kar je rekel. Loči tri podkategorije:

      1. EL-popravljanja: govorec popravi napako na ravni besede, npr. naravnost k rdeči, oziroma pardon, naravnost k črni,

      2. ES-popravljanja: govorec popravi začeto skladenjsko strukturo, npr. obrneš levo pri modri, k modri točki,

      3. EF-popravljanja: govorec popravi izgovorno, fonetično napako, npr. enata, enota iz rumene točke.

    4. C-popravljanja (iz angl. Covert): govorec prekine govorni niz s posebnim elementom (najpogosteje diskurzni označevalec, npr. eee, no ...) ali ponovi eno ali več besed, brez da bi karkoli spreminjal, dodajal, izpuščal, npr. potem desno eee sivo ali in na desni strani oranžna pika, oranžna pika. (Levelt, 1983) meni, da so ta popravljanja dokaz neke vrste notranjega govora govorca, govorec popravi nameravano besedilo, še preden ga izreče.

    5. R-popravljanja (za angl. Rest): ostala popravljanja, ki jih ni mogoče razvrstiti v prejšnje štiri kategorije (v njegovem gradivu je teh le 2,5 %).


(Allwood et al., 1990) govorijo o upravljanju govora (angl. speech management). Ta koncept se nanaša na jezikovno in drugo ravnanje, ki kaže na to, kako posameznik upravlja svoj govor. To ravnanje so prav premori v govoru, posebni izrazi ali fraze, ponavljanja, spremembe že začete strukture ipd., torej značilnosti, ki jih (Levelt, 1983) in (Schegloff, 1979) označita kot popravljanja. Študija izhaja iz jezikovnopragmatičnega pristopa. Pri tem združujejo psihološko in sociološko perspektivo.

Pogled na razmerja med upravljanjem govora in drugimi jezikovnimi strukturami v (Allwood et al., 1990) lahko vzporejamo s Hallidayevo funkcijsko delitvijo jezika na tri ravni: predstavno, medosebno in besedilno (Halliday, 1994: 32-36). Ločijo namreč osrednje sporočilo (angl. main message), ki se nanaša predvsem na skladnjo in besedje in je primerljivo s predstavno ravnijo pri Hallidayu, interakcijo (angl. interactive functions), kar se nanaša na menjavanje vlog, odzivanje ipd. in je primerljivo z medosebno ravnijo pri Hallidayu. Upravljanje govora je nadrejeno osrednjemu sporočilu in interakciji in primerljivo s Hallidayevo besedilno ravnijo.

Predstavljena razmerja so zanimiva predvsem zato, ker z njimi opazovane značilnosti uvrstijo v sistem jezika in jih v nadaljevanju tudi obravnavajo kot podsistem, ki opravlja določene diskurzivne vloge, ima značilne strukturne elemente in pravila rabe. In sicer ločijo štiri diskurzivne vloge: izbiranje (angl. choice related), zamenjavo (angl. change related), kombiniranje izbiranja in zamenjave. Zadnja vloga nekoliko odstopa od ostalih, poimenujejo jo proces upravljanja govora (angl. process speech management) in se nanaša predvsem na premor in ponovitev, uvedejo pa jo zato, ker tudi upravljanje govora tako kot tvorjenje govora zahteva čas.

Za opravljanje teh diskurzivnih vlog ima govorec v sistemu na izbiro različne strukture:

A. Enostavne strukture:

  1. osnovni izrazi upravljanja govora:

      1. premor,

      2. enostavni izrazi (npr. eee, mmm...),

      3. eksplicitne fraze (npr. kako se reče),

      4. drugi glasovni zvoki (vzdih, tleskanje z jezikom, sikanje ipd.);

  1. osnovni procesi upravljanja govora:

      1. podaljševanje glasov, zlogov,

      2. prekinitev (npr. torej en ... ja tako tako ja),

      3. ponovitev (npr. izbran je samo ... samo zato ker bo).

B. Sestavljene strukture:

  1. holistični postopki – zgrajene iz dveh osnovnih procesov upravljanja govora, prekinitve in ponovitve, z dodatnim/-i elementom/-i, to pa je/so lahko:

    1. izbris – govorec prekine govor, nato ponovi del prvotnega sporočila, vendar pri tem enega ali več elementov izpusti (npr. toda to je saj veš ... je nevarno),

    2. vstavitev – pri ponovitvi govorec vstavi enega ali več novih elementov (npr. tako da se bo hitro v ... se bo odločil v nekaj sekundah),

    3. nadomestitev – pri ponovitvi govorec nadomesti enega ali več prvotnih elementov z novimi (npr. zgleda kot ... zgleda da je izbran samo zato),

    4. preureditev – pri ponovitvi govorec zamenja besedni red prvotnih elementov (npr. toda potem sem jaz ... jaz sem potem preskočil);

  2. integrirani postopki – podaljšan holistični postopek: z osnovnim izrazom upravljanja govora govorec označi vlogo, ki bi lahko ostala neoznačena, npr. iskanje izraza (primer: da ne bi ... da bi ohranili nekatere pridelke);

  3. povezani postopki – prav tako podaljšan holistični postopek, kjer se zaporedoma ponavljajo enostavne in sestavljene strukture upravljanja govora (npr. ne toda zadene veš ... lahko zadene takšna področja kjer).

(Allwood et al., 1990) predstavijo tudi shemo, ki prikazuje, katere strukture lahko govorec uporabi za doseganje posameznih diskurzivnih vlog upravljanja govora, torej za izbiranje, zamenjavo, kombinacijo obeh in za proces upravljanja govora. Iz nje je razvidno, da se npr. osnovne strukture rabijo predvsem pri izbiranju, pri zamenjavi pa večinoma sestavljene strukture.


4.4.1Izhodišča analize v tej nalogi


Implicitna ali eksplicitna predpostavka velike večine raziskav popravljanj je, da so popravljanja odmik od idealnega, na nek način pomanjkljivost spontanega govorjenega diskurza. Ta predpostavka sicer ne vpliva nujno na samo raziskavo, čeprav tudi lahko, vseeno pa opozarjam, da moramo dopustiti, da imajo morda popravljanja določene pragmatične vloge. Morda omogočajo pristnejši, bolj oseben stik med sogovornikoma – govorec (tudi) s popravljanji delno razkriva procese, ki potekajo ob tvorjenju govora (kot med drugim izhaja iz raziskave Smolej, 2004b), ne samo končnega produkta teh procesov.

Poleg termina popravljanje zasledimo pogosto termin netekočnosti (angl. disfluencies) (Lickley, 1994; Tseng, 1999; Shriberg, 1994; Clark, 2002), za katerega raziskovalci menijo, da je bolj nevtralen, označuje pa podobne značilnosti, s tem da je pomensko nekoliko širši in bolj odprt. V slovenskem prostoru najdemo pri (Kranjc, 1999) izraz tekočnost govora. Menim, da netekočnost ni posebno posrečen termin, saj implicira, da te značilnosti delajo diskurz netekoč; kar pa velja predvsem za skladenjsko raven, kot smo o njej navajeni razmišljati v tradicionalnem jezikoslovju, na pragmatični ravni pa lahko imajo te značilnosti prav nasproten učinek, npr. omogočajo, da diskurz kontinuirano teče. Termina tudi nista povsem sopomenska, netekočnost lahko razumemo širše. V tem delu raziskave se omejim na tiste značilnosti spontanega govorjenega diskurza, ki jih lahko enoznačno definiramo kot popravljanja ali še natančneje kot samopopravljanja.


Ker je pričujoča raziskava namenjena v podporo razvoju sistemov strojnega simultanega prevajanja govora, bom skušala v praktičnem delu analizirati samo tiste vidike popravljanj, ki so zanje najbolj kritični.

Enako kot pri diskurznih označevalcih želimo tudi za popravljanja imeti jasno določene kriterije, po katerih jih lahko označujemo na primer v korpusu, zato jih bom skušala definirati. Vsaj zelo na splošno skušam tudi razjasniti njihovo vlogo v diskurzu, za morebitno avtomatsko razpoznavanje popravljanj pa je lahko v pomoč tudi poznavanje njihove strukture. Zgoraj predstavljene raziskave pri tem nudijo nekaj dovolj zanesljivih opornih točk za izhodišče:

Natančnejši postopek analize je opisan v 6.3.

4.5Sklep


Pri obvladovanju problemov pri procesiranju pogovornega govora, ki izhajajo iz značilnosti spontanega govorjenega diskurza, se lahko naslonimo na nekatere koncepte konverzacijskih analiz. Te so med drugim veliko raziskovale strukturo pogovorov, na podlagi česar lahko govorjeno besedilo razdelimo na manjše smiselne in za tehnologijo obvladljive enote: sekcije, tematske sklope, vloge, izjave... Koncept izjave definiram natančneje, saj gre za temeljno enoto pri segmentiranju govornega korpusa. Opozorim tudi na tipskost uvodnih in zaključnih sekcij v telefonskih pogovorih, tematskih sklopov pa ne obravnavam podrobneje. Koncept bližnjih parov samo na kratko predstavim in ga ne raziskujem podrobneje v praktičnem delu, pri tehnologiji namreč vodi v semantično interpretacijo, tukaj pa želim kolikor mogoče ostati pri značilnostih, ki jih lahko tudi kar najbolj enostavno strojno razpoznavamo z obstoječo tehnologijo. Vseeno je lahko nadaljnje raziskovanje tematskih sklopov in bližnjih parov zanimivo ne samo za strojno simultano prevajanje govora,10 ampak še bolj za sisteme dialoga ipd.

Pri nadaljnjem raziskovanju iščem, ali lahko v izjavah ločimo jezikovna sredstva ali strukture, ki so manj pomembna za posredovanje (predstavnega) pomena. Oprem se na raziskave diskurznih označevalcev in pri primerjavi teh opazim, da v različnih raziskavah ločijo med dvema temeljnima ravnema diskurza, ki ju sicer različno poimenujejo, tukaj prevzamem poimenovanji predstavna vloga oz. pomen in pragmatična vloga oz. pomen. Delitev je predvsem funkcijska. V luči uporabe pri razvoju sistemov strojnega simultanega prevajanja govora je zapeljiva misel, da bi lahko v besedilu ločili jezikovna sredstva in strukture, ki so v pragmatični vlogi, od tistih, ki so v predstavni vlogi, vendar kasneje (v analizah) vidimo, da na ravni besedila natančno ločevanje ni mogoče. Vseeno pa lahko ločimo nekatera jezikovna sredstva in strukture, ki so običajno rabljeni predvsem v pragmatični vlogi, in tem posvetim pozornost v nadaljevanju: (1) Koncept diskurznih označevalcev zajame veliko za spontan govorjeni diskurz značilnih izrazov, katerih vloga je v tradicionalnem jezikoslovju malo raziskovana. Ti izrazi pogosto »izstopajo« iz govorjenega besedila, saj so sintaktično-semantično le ohlapno vpeti vanj, po drugi strani pa jim raziskovalci pripisujejo pomembno kontekstno-povezovalno vlogo. (2) Popravljanja nam pomagajo pojasniti značilnosti strukture izjav. Z označevanjem dela besedila, ki je popravljeno, lahko izločimo tudi tisti del, ki ni potreben za posredovanje predstavnega pomena.

5GRADIVO ZA ANALIZO


Za praktični del te raziskave sem uporabila korpus telefonskih pogovorov v turizmu Turdis-1 (v nadaljevanju tudi samo korpus), ki smo ga v obdobju od konca februarja 2004 do konca junija 2004 predvsem za namene te raziskave snemali na Fakulteti za elektrotehniko, računalništvo in informatiko v Mariboru (FERI). Oznaka 1 za imenom pomeni prvo verzijo, ki ne vključuje vseh posnetih pogovorov. V tem poglavju predstavim način snemanja pogovorov, način transkribiranja in nekaj osnovnih statističnih podatkov o korpusu.


5.1Snemanje pogovorov


Kratek pregled nekaterih večjih korpusov pogovorov, ki so jih uporabljali za razvoj komponent strojnega simultanega prevajanja govora, je že vključen v poglavje 2.2. Ena od skupnih značilnosti teh jezikovnih virov (Shum et al., 1994; Lavie et al., 1997; Kurematsu et al., 2000; Aiello et al., 1999), tudi korpusov pogovorov, uporabljenih v projektu LC-STAR (Arranz et al., 2004b), je, da so pogovori igrani in posneti v studiu. Govorci so običajno dobili vse potrebne podatke (koledar, informacije o hotelih, prevozih in drug informativni material iz hotelov, agencij ipd.). Edino v korpusih, posnetih za projekt Nespole! (Metze et al., 2002), v pogovorih sodelujejo profesionalni turistični delavci, vendar tudi tu zunaj svojega profesionalnega okolja. Kot navajajo (Arranz et al., 2004b), je govorce pri studijskem snemanju pogosto težko animirati, predvsem zahtevno je igrati vlogo turističnega delavca, ki posreduje informacije, čeprav ima govorec na voljo ves material.

Za potrebe te raziskave je nujno, da so pogovori kolikor se da realni in naravni, kar pri igranih pogovorih v studiu zelo težko dosežemo. Po drugi strani pa nikakor ne smemo prezreti etičnih vprašanj: s snemanjem resničnih pogovorov posegamo v govorčevo zasebnost, zato je prav, da ga o tej nameri predhodno obvestimo in prosimo za dovoljenje. Vendar to navadno sproži nezaželene posledice: govorci pred mikrofonom ali kamero se pogosto obnašajo drugače kot sicer. Če je le mogoče, je zelo dober kompromis med obema možnostma splošno dovoljenje, da govorca lahko snemamo, ne ve pa, kateri njegov pogovor natančno bo sneman. Temu smo se skušali približati pri snemanju korpusa Turdis.

Za sodelovanje smo prosili štiri turistične agencije (Sonček, Kompas, Neckermann Reisen in Aritours), dva hotela (Hotel Piramida, Hotel Habakuk) in mariborsko turistično pisarno (MATIC). Odgovorne osebe smo najprej zaprosili za splošno dovoljenje, da lahko za namene te raziskave njihove delavce, ki posredujejo informacije po telefonu, na delovnem mestu in v delovnem času kličemo prek sistema Turdis in posnamemo te pogovore. Prek odgovornih smo s to namero seznanili delavce in jih prosili za pisno dovoljenje za snemanje. Pri snemanju se je pokazalo, da se med množico ostalih telefonskih pogovorov, ki jih opravijo na delovnem mestu, turistični delavci običajno niso zavedali, kateri pogovori so snemani. Ker so zato reagirali povsem naravno, so tudi pozitivno vplivali na klicatelje.

Klicatelji so namenoma za snemanje baze klicali prek sistema Turdis izbrano turistično organizacijo. Večinoma so bili to študenti in zaposleni na Univerzi v Mariboru, v glavnem s FERI in s Pedagoške fakultete Maribor. Klicateljem smo pred snemanjem razložili, zakaj snemamo, in poudarili, da želimo, da bi bili pogovori čimbolj realni in naravni.

V projektu LC-STAR, na katerega se med drugim navezuje ta raziskava, so teme pogovorov določili takole (Arranz et al., 2004b):

Pri snemanju korpusa Turdis-1 smo se odločili, da so telefonski pogovori z železniško postajo ali letališčem za slovenske razmere, kjer ni velikih mednarodnih železniških postaj ali letališč, manj zanimivi, zato to komunikacijsko področje v Turdis ni zajeto. Pri ostalih treh vrstah pogovorov (pogovori s hotelsko recepcijo, turistično agencijo in turistično pisarno) pa smo pred začetkom snemanja turistične delavce, ki so sodelovali pri snemanju pogovorov, prosili, naj na kratko navedejo, o čem jih stranke po telefonu največ sprašujejo. Največje odstopanje v primerjavi s temami, izbranimi v projektu LC-STAR, je pri turističnih agencijah, saj pri agencijah, ki so sodelovale, rezervacija po telefonu sploh ni mogoča, ker je treba ob rezervaciji plačati tudi prvi polog. Po drugi strani pa klicatelji veliko sprašujejo o posameznih destinacijah in možnostih letovanja ali popotovanja ali organiziranja poti (predvsem z letalom), pri čemer je spekter različnih možnosti zelo širok: različnih destinacij in načinov letovanja, potovanja ipd. je veliko, tudi turističnih agencij je v primerjavi s hoteli ali turističnimi pisarnami več. Posledično smo v začetku predvideno enakomerno razmerje v številu pogovorov spremenili v 2 : 1 : 1 – približno polovica vseh pogovorov je s turističnimi agencijami, četrt s hoteli in četrt s turistično pisarno.

Ne glede na pridobljene informacije v turističnih organizacijah smo klicatelje najprej vedno spodbudili, naj premislijo, ali jih kakšne informacije, ki jih nudijo turistične agencije, turistična pisarna ali hoteli, res zanimajo, oziroma če ne, ali se spomnijo kakšnih pogovorov, ki so jih v preteklosti imeli s to vrsto organizacij. Predvsem za turistično agencijo so imeli klicatelji pogosto sami predloge, o čem se želijo pogovarjati. Za telefonske pogovore s turistično pisarno in hotelom pa je bilo treba večkrat pomagati ustvariti imaginarno situacijo (npr. za prijatelja iz tujine iščeš poceni namestitev v določenem terminu), vendar vedno skupaj s klicateljem, tako da je bila ta čim bližja njegovemu resničnemu življenju in izkušnjam.

Tehnično je bilo snemanje izvedeno na FERI. Za zajem govora smo uporabili ISDN-kartico, in sicer je moral klicatelj vedno zavrteti telefonsko številko sistema, ki je snemal govor, sistem pa je takoj poklical naprej telefonsko številko, ki je bila vnesena v program in smo jo lahko ročno spreminjali. Zvočni signal je tako v obe smeri potekal prek sistema. Kanala smo snemali ločeno in naknadno združili signala enega in drugega govorca v eno zvočno datoteko v formatu wav. Tako smo lahko pri transkribiranju korpusa po potrebi (predvsem pri hkratnem govoru) poslušali samo posnetek enega ali samo drugega govorca.




Slika 4: Shema poteka signala pri snemanju telefonskih pogovorov za Turdis.


Žal se je pri tej rešitvi pojavila nepredvidena težava – odmev. Predvsem pri klicanju na večje razdalje (zunaj Maribora) je zaradi zakasnitve skoraj pri vsakem klicu nastajal odmev, kar je bilo precej moteče za sogovornike. Zaradi tega je bilo močno oteženo doseganje ustrezne pokritosti glede na narečni izvor govorca. Za večjo uravnoteženost tega faktorja je treba zastaviti drugačno tehnično rešitev.


5.2Prepisovanje pogovorov in urejanje korpusa


Pogosto uporabljani in prosto dostopni orodji za urejanje posnetkov govora sta Praat (http://www.fon.hum.uva.nl/praat/) in Transcriber (http://www.etca.fr/CTA/gip/Projets/ Transcriber/-fr/user.html). Praat je prilagojen predvsem za fonetične analize govora: uporablja se za analizo govora, sintezo govora, učenje algoritmov, segmentiranje govora, urejanje posnetkov govora ipd. Orodje Transcriber so razvili za prepisovanje govornih baz tipa Broadcast News in ima večino funkcij, ki jih potrebujemo pri označevanju korpusa za analizo diskurza. Omogoča prepisovanje in segmentiranje posnetkov govora, označevanje sekcij, lastnosti govorca (narečje, spol ipd.), označevanje različnih negovornih zvočnih dogodkov ob signalu (šume v ozadju, smeh, vdih, kašelj ipd.) ter skoraj poljubno označevanje dogodkov v govoru (tuji izrazi ali govor v tujem jeziku, poljubne skupine besed, ki jih želimo raziskovati itd.). Žal ne omogoča ustreznega zapisa, kadar hkrati govorita več kot dva govorca, vendar pri prepisovanju telefonskih pogovorov v korpusu Turdis-1 ni primerov, kjer bi to funkcijo potrebovali. Za prepisovanje in segmentiranje korpusa Turdis-1 sem zato uporabila Transcriber.

Vsak posnetek pogovora, ki je del baze Turdis-1, je shranjen kot posebna zvočna datoteka v formatu wav, pripadajoči prepis posnetka s programom Transcriber je v datoteki z identičnim imenom in končnico trs. Imena datotek so v prilogi in v primerih v tej nalogi ohranjena kot oznaka pogovora in so so sestavljena iz naslednjih enot:

HO – hotel,

TA – turistična agencija,

TP – turistična pisarna,

ha – Habakuk,

pi – Piramida,

ko – Kompas,

ne – Neckermann Reisen,

so – Sonček,

ma – MATIC,

Pogovori so prepisani in segmentirani po načelih, ki deloma sledijo priporočilom EAGLES (http://www.ilc.cnr.it/EAGLES96/spokentx/) in nekaterim načelom prepisovanja govornih baz tipa Broadcast News (prim. Žgank et al., 2004). V nadaljevanju po alineah opisujem osnovna pravila prepisovanja in označevanja korpusa, podrobna razpredelnica oznak v transkribiranem korpusu in v ilustrativnem gradivu v tej nalogi pa je v tabeli 2.


  1. Pogovori so razdeljeni na tri osnovne sekcije: uvod, jedro, zaključek. Kadar je premor med pogovorom daljši kot 1,5 sekunde, je označen kot posebna sekcija (tišina ali drugo, če je v ozadju šum). Kadar klicatelj čaka na prevezavo, je ta odsek označen kot posebna sekcija prevezava.

  2. Kratek premor v izjavi je lahko označen z [.].

  3. Govorci so označeni vsak s svojo šifro. Za klicatelje je šifra sestavljena iz besede klicatelj in identifikacijske številke klicatelja, npr. klicatelj23, za turistične delavce pa iz imena podjetja, podčrtaja, besede informator in identifikacijske številke informatorja v tem podjetju, npr. Soncek_informator6.

  4. Pri lastnostih govorca imajo vsi turistični delavci oznako global name. Označen je spol govorca in narečna pripadnost glede na izvor (ločim: p-stajersko, p-panonsko, p-korosko, p-mariborsko, p-ljubljansko, p-gorenjsko, p-dolenjsko, p-primorsko, p-rovtarsko; p je dodan kot oznaka, ki omogoča ob morebitni primerjavi z ostalimi podobnimi jezikovnimi viri (npr. Broadcast News (Žgank et al., 2004) razločevanje, saj govorci praviloma govorijo pogovorno zvrst z nekaterimi značilnostmi narečja, iz katerega izvirajo, ne čistega narečja).

  5. Poleg menjavanja govorcev je lahko govor istega govorca razdeljen na več manjših enot – segmentov, ki označujejo meje med izjavami. Pri določanju mej sledim načelom, predstavljenim v poglavju 4.2.4.

  6. Hkratni govor je označen samo v tistem delu signala, kjer dejansko govorita oba govorca hkrati, ne glede na meje med izjavami. Ker je pri tem velikokrat presekana izjava enega ali drugega govorca, je del, kjer je izjava prekinjena zaradi začetka ali konca hkratnega govora enega govorca, označen z [1] na koncu, del, kjer se ta ista izjava nadaljuje, pa z [2] na začetku. Prekinjena izjava, označena z [1], se vedno nadaljuje s prvim naslednjim segmentom, označenim z [2]. Če sredi hkratnega govora ni mogoče postaviti meje med izjavami v govoru enega govorca, pa bi bilo to primerno, je meja med izjavami označena s [P], npr.:

Api3 [prekr]: štirinajst[St\@rnajz] dni prej bi že bilo[bl/o:] fajn[+NERAZUMLJIVO]

K19 [prekr]: mislim ka(k) ... [P] štirinajst[St@rn/a:jz] dni [1]

K19: [2] najmanj prej[+SOGOVORNIK_ja] no

Za hkratni govor ne šteje, kadar sogovornik potrjuje pozornost z opornimi signali. Ti so označeni kot posebna vrsta dogodka, pri čemer je opisano, kateri oporni signal je sogovornik uporabil in ali je pri tem prekrival govor drugega govorca (npr. [+overlap_mhm]) ali ne ([overlap_ja]). V drugem primeru je ta dogodek običajno umeščen v poseben segment.

  1. Besedilo je ortografsko prepisano, skladno s knjižnim standardom – to pomeni, da so tudi pogovorno, narečno, površno ipd. izgovorjene besede zapisane tako, kot je predvideno po knjižnem standardu, ne tako, kot so dejansko izgovorjene. To velja tudi za primere: kako[k/a:k] (npr. kako ste rekli), tako[t/a:k] (npr. tako da), koliko[k/o:k], noter[n/o:t]...

  1. Besede, ki niso izgovorjene do konca, so označene z okroglima oklepajema na mestu, kjer so prekinjene, npr. samo malo da po().

  2. Zarekanja so označena s [+pron=lapsus]. Gre za primere, ko je v aktualiziranem kontekstu izgovorjena beseda očitno lapsus, npr. te bi v bistvu ta dva dni kot[+pron=lapsus] je konferenca bi sigurno tu prespali.

  3. Številke so vedno izpisane z besedo.

  4. Medmeti so zapisani z naslednjimi znaki: eee, hm, mhm, aha, ah, eh (izgovorjeno s širokim e), eeh (izgovorjeno s polglasnikom). S tremi istimi črkami, ki najbliže ponazarjajo izgovorjeni glas, so lahko označeni nejasno artikulirani glasovi npr. ob popravljanju, obotavljanju ipd. (npr. eee nnn običajno naredimo).

  5. Kratice so zapisane s samimi velikimi črkami. Če so izgovorjene črkovano, so označene s krivuljo, npr. ~GMX, sicer pa z znakom @, npr. @FERI.

  6. Kadar govorec navaja svoje osebne podatke, so samo opisani z vrsto podatka, npr. [ime], [priimek], [~P ~R ~I ~I ~M ~E ~K] (pri črkovanju priimka), [ulica] itd.

  7. Vse besede razen pravih lastnih imen, tudi na začetku izjave, so prepisane z malo začetnico. Lastna imena so označena na dva načina: z veliko začetnico, kadar gre za pravo lastno ime (npr. Habakuk), ali z narekovaji (»agencija sonček«).

  8. Tuje besede so označene z dogodkom lang in jezikom, iz katerega izhajajo, npr. [lang=Engl-]coffee breaki[-lang=Engl].

  9. Kadar je izgovorjena beseda slabo slišna, je sicer prepisana, če je še razpoznavna, vendar označena z dogodkom [+pron=pi], če ni razpoznavna in zato tudi ni prepisana, pa je na mestu izgovorjene besede ali besed oznaka [pron=pi]. Polglasen govor, ki je sicer lahko razumljiv, vendar je stišan, je označen z [pron=pif-] govor [-pron=pif].

  10. Nekatere besede so izrazito poudarjeno izgovorjene, te so označene z znakom # pred besedo in za njo, npr. #do# štiri ure.

  11. Podaljšan fonem je označen z [:] za črko, ki označuje ta fonem. Običajno je to zadnji fonem besede.

  12. Pri prepisovanju niso uporabljena ločila, razen dveh izjem: nestične tri pikice (...) označujejo nedokončane izjave, npr. kaj mi lahko vi ... , nestični vprašaj pa rastočo intonacijo (stični vprašaj nakazuje rastočo intonacijo diskurznega označevalca, glej 6.2.3).

  13. Kadar se med pogovorom pojavijo izraziti šumi v ozadju, npr. zvonjenje telefona, so označeni kot ozadje (funkcija background v Transcriberju).

  14. Z možnostmi za označevanje dogodkov (funkcija event v Transcriberju) so označeni razni šumi, ki jih med govorjenjem povzroča govorec ali njegov sogovornik: vdih, izdih, smeh, kašljanje ...

  15. Ostale posebne oznake so dodane za potrebe te raziskave.


Format transkripcij je v osnovi XML, kot ga tvori Transcriber. Po potrebi je mogoča pretvorba transkripcije v skladu s kakimi drugimi standardi (npr. TEI). Za ilustrativno gradivo v tej nalogi so oznake, tvorjene v programu Transcriber, pretvorjene v razumljivejšo, berljivejšo in krajšo obliko, nekatere pa so izpuščene.

V ilustrativnem gradivu v tej nalogi so:




Oznaka v programu Transcriber

Oznaka v ilustrativnem gradivu v nalogi

Komentar




[+pron=*]


Oznaka ni potrebna, saj je posebna izgovorjava vidna že iz fon. prepisa.

[+lex=*]

[*]

Pogovorna oblikoslovno-skladenjska raba oz. pogovorni izraz.

[+pron=izg]

[IZG]

Slaba izgovorjava.

[+pron=lapsus]


Zarekanje.

...

...

Nedokončana izjava.

bes()

bes()

Nedokončana beseda.

?

?

Rastoča intonacija izjave.

[:]

[:]

Predhodni fonem je podaljšan.

[.]

[.]

Kratek premor v govoru.

Nova sekcija tisina.

[TIŠINA]

Tišina ob daljšem premoru v govoru.

Nova sekcija prevezovanje.

[PREVEZOVANJE]

Čakanje na sogovornika.

Nova sekcija drugo.

[DRUGO]

Šumi v ozadju ob daljšem premoru v govoru.

Nova sekcija uvod.

[UVOD]

Začetek uvodne sekcije.

Nova sekcija jedro.

[JEDRO]

Začetek jedrne sekcije.

Nova sekcija zakljucek.

[ZAKLJUČEK]

Začetek zaključne sekcije.

Besedilo [1]

Besedilo [1]

Začetek hkratnega govora sredi izjave.

[2] besedilo

[2] besedilo

Nadaljevanje zadnje izjave, ki se konča z [1].

besedilo [P] besedilo

besedilo [P] besedilo

Meja med izjavama/segmentoma sredi hkratnega govora.

~GMX

~GMX

Črkovana kratica.

@SI

@SI

Kratica izgovorjena kot beseda.

Oporni signali:



[+lex=overlap_ja]

[+SOGOVORNIK_ja]

Oporni signal se prekriva z govorom govorca.

[lex=overlap_ja]

[SOGOVORNIK_ja]

Oporni signal je izgovorjen v premoru med govorom govorca.

Tujke:



[lang=English-]

[angl-]

Začetek govora v tujem jeziku, če je to več kot ena beseda (primer za angleščino).

[-lang=English]

[-angl]

Konec govora v tujem jeziku (angleščina).

[+lang=English]

[+angl]

Prejšnja beseda je tujka (angleška).


[+latin], [+tujez]

Namesto angl je latin za latinsko in tujez za vse ostale jezike.

Slabo slišen govor:



[+pron=pi]

[+NERAZUMLJIVO]

Prejšnja beseda je slabo razumljiva.

[pron=pi-]

[NERAZUMLJIVO-]

Začetek slabo razumljivega govora.

[-pron=pi]

[-NERAZUMLJIVO]

Konec slabo razumljivega govora.

[pron=pi]

[NERAZUMLJIVO]

Govor na tem mestu ni razpoznaven.

[+pron=pif], [pron=pif-], [-pron=pif]

[+TIHO]

Govor je razumljiv, vendar stišan – bolj govorjenje samemu sebi. Ostalo enako kot za nerazumljivo.

Šumi:



[i]


Vdih govorca.

[+e]

[+IZDIH]

Izdih govorca hkrati z govorom.

[e]

[IZDIH]

Izdih govorca.

[rire]

[SMEH]

Smeh govorca.

[+rire]

[+SMEH]

Smeh govorca hkrati z govorom.

[rire en fond]

[+SMEHsogo]

Smeh sogovornika, hkrati z govorom govorca.

[indicatif]

[SUM]

Nedoločljiv šum v premoru med govorom.

[+indicatif]

[+SUM]

Nedoločen šum, prekriva se z govorom govorca.

[+tx], [tx]

[+KASELJ], [KASELJ]

Kašelj govorca, hkrati z govorom ali v premoru.

Diskurzni označevalci:



[+lex=marker] [lex=marker-]

[-lex=marker]



Diskurzni označevalec.

[+lex=marker?] [lex=marker?-]

[-lex=marker?]


Diskurzni označevalec z rastočo intonacijo.

Popravljanja in ponavljanja:



[lex=ipon]


Ponavljanja med vlogami.

[lex=bpon]


Ponavljanje besed znotraj iste vloge.

[N-]

[N-]

Začetek dela besedila, ki je popravljeno.

[-N]

[-N]

Konec dela besedila, ki je popravljeno, do točke, kjer je prekinjen.


Tabela 2: Oznake v programu Transcriber in v ilustrativnem gradivu v nalogi.


5.3Nekaj statističnih podatkov o korpusu TURDIS-1


V prvi fazi snemanja korpusa Turdis smo posneli okoli pet ur pogovorov. Iz tega gradiva sem glede vrsto turistične organizacije, v okviru katere poteka pogovor, ter glede na spol in narečni izvor govorcev kolikor mogoče uravnoteženo izbrala 28 posnetkov, ki vključujejo 30 pogovorov: v dveh posnetkih namreč agent v turistični agenciji klicatelja preveže k drugemu sogovorniku, kar označim kot nov pogovor.

V nadaljevanju predstavljam nekaj osnovnih podatkov o izbranem gradivu, ki ga poimenujem Turdis-1.


Število vseh izjav: 2459

Število vseh izmenjanih vlog: 1.474

Število vseh besed: 15.163

Število različnih besed: 2.735

Skupna dolžina pogovorov: 106,21 minute

Povprečna dolžina pogovora: 3,5 minute





Št. pog.

Dolž. pog./min.

Št. pog. klic. moški/ženska

Dolž. pog. klic. moški/ženska

Turistična agencija

14

53,33

7/7

25,35/27,98

Turistična pisarna

8

28,1

6/2

14,32/13,78

Hotelska recepcija

8

24,38

4/4

14,8/9,58

Skupaj

30

106,2

17/13

54,47/51,34

Tabela 3: Število in dolžina pogovorov glede na različne kriterije.




Število klicateljev

Število agentov

Skupaj

Moški

14

3

17

Ženske

10

17

27

Skupaj

24

20

44


Tabela 4: Število govorcev glede na spol.




Število klicateljev

Število agentov

Skupaj

mariborsko

9

16

25

štajersko

4

1

5

ljubljansko

1

3

4

panonsko

6

0

6

koroško

2

0

2

primorsko

2

0

2

dolenjsko

0

0

0

gorenjsko

0

0

0

rovtarsko

0

0

0

Skupaj

24

20

44

Tabela 5: Število govorcev glede na narečni izvor.



Klicatelj

Narečje

Spol

Št. pogovorov

Skupna dolž. pog.

klicatelj2

panonsko

Ž

1

2:35

klicatelj3

panonsko

M

1

1:53

klicatelj4

štajersko

M

1

1:21

klicatelj5

panonsko

M

1

2:33

klicatelj6

koroško

M

1

1:44

klicatelj7

panonsko

M

1

6:39

klicatelj8

mariborsko

M

2

2:38

klicatelj11

mariborsko

Ž

1

8:30

klicatelj12

mariborsko

Ž

1

1:50

klicatelj15

koroško

M

1

1:34

klicatelj17

panonsko

M

2

4:56

klicatelj19

mariborsko

M

2

7:40

klicatelj23

primorsko

M

2

10:26

klicatelj24

štajersko

Ž

1

3:33

klicatelj25

mariborsko

Ž

2

9:11

klicatelj29

štajersko

Ž

1

3:08

klicatelj30

ljubljansko

M

1

5:28

klicatelj31

mariborsko

M

1

1:39

klicatelj33

mariborsko

M

1

3:03

klicatelj35

panonsko

M

1

2:54

klicatelj36

primorsko

Ž

1

0:49

klicatelj38

mariborsko

Ž

1

1:29

klicatelj39

štajersko

Ž

2

14:56

klicaetlj44

mariborsko

Ž

1

5:20

Tabela 6: Nekatere značilnosti posameznih klicateljev.



Agent

Narečje

Spol

Št. pogovorov

Skupna dolž. pog.

Habakuk_receptor1

mariborsko

Ž

1

4:42

Habakuk_receptor3

mariborsko

Ž

1

1:29

Piramida_receptor1

mariborsko

Ž

1

1:40

Piramida_receptor2

mariborsko

M

2

8:03

Piramida_receptor3

mariborsko

Ž

2

7:40

Piramida_receptor6

mariborsko

Ž

1

0:49

Matic_informator1

mariborsko

Ž

6

21:30

Matic_informator2

mariborsko

Ž

2

7:36

Kompas_informator1

mariborsko

Ž

3

14:53

Kompas_informator2

mariborsko

Ž

1

7:36

Kompas_informator3

mariborsko

Ž

1

0:15

Kompas_informator4

mariborsko

Ž

1

2:54

Neckermann_informator1

mariborsko

Ž

1

5:20

Sonček_informator1

ljubljansko

Ž

1

8:30

Sonček_informator3

mariborsko

M

1

0:43

Sonček_informator5

mariborsko

M

1

1:34

Sonček_informator6

ljubljansko

Ž

1

1:21

Sonček_informator7

ljubljansko

M

1

6:39

Sonček_informator9

štajersko

Ž

1

1:44

Sonček_informator12

mariborsko

M

1

1:50

Tabela 7: Nekatere značilnosti posameznih turističnih agentov.

6ANALIZE IN REZULTATI


V tem poglavju s koncepti, predstavljenimi v poglavju Analiza diskurza, analiziram gradivo v korpusu Turdis-1, in tako izpolnim drugi del zastavljenih ciljev. Analize ločim v tri večje skupine: najprej analiziram uvodne in zaključne sekcije pogovorov, v osrednjem delu po posameznih poglavjih analiziram najpogostejše izraze v vlogi diskurznega označevalca (ja, mhm, aha, aja, ne?, no, eee, dobro/v redu/okej/prav, glejte/poglejte, veste, mislim, zdaj, oporni signali), nazadnje analiziram popravljanja.

Natančen postopek analize je opisan v začetku vsakega sklopa. Za vse analize je značilna kombinacija kvalitativnega in kvantitativnega pristopa. Analize in rezultati so predstavljeni skupaj z ilustrativnim gradivom iz korpusa.


6.1Struktura telefonskega pogovora


Kot navajam v 4.2.1, imajo telefonski pogovori zelo prepoznavne uvodne in zaključne sekcije, saj lahko v njih najdemo ponavljajoče se vzorce jezikovne rabe, kar močno olajša strojno razpoznavo govora in prevajanje govorjenega besedila, hkrati pa sta uspešen uvod in zaključek nujen del pragmatično uspešnega pogovora. Iz teh razlogov jima v analizah posvetim nekaj pozornosti. Tematskih sklopov in bližnjih parov ne analiziram.


Postopek analize uvodnih in zaključnih sekcij je naslednji:


6.1.1Uvodne sekcije


Prva izjava v uvodnih sekcijah brez izjeme vedno pripade klicanemu, v korpusu je to vedno ali turistična agencija, turistična pisarna ali hotelska recepcija. Turistični delavec v teh ustanovah v prvi izjavi vedno (z imenom) predstavi ustanovo, ki jo zastopa:


[HOpi36.trs]

Api2: "hotel piramida"


zelo redko tudi samo sebe:


[TAso16.trs]

Aso1: dober dan [ime] pri telefonu


kar nekajkrat pa najprej ustanovo, nato pa še sebe:


[TAne77.trs]

Ane2: Neckermann Reisen [ime]




Pogost del uvodnih izjav turističnega delavca je tudi pozdrav:


[TAko43.trs]

Ako1: dober dan želim "kompas" izvolite


Sicer lahko sledi šele po pozdravu klicatelja:


[HOpi36.trs]

Api2: "hotel piramida"

K30: dober dan [ime] [priimek] pri[p@r] telefonu

K30 [prekr]: jaz[j\@s] imam[m/a:m] [1]

Api2 [prekr]: dober dan

K30: [2] pa eno vprašanje in sicer


V nekaj uvodnih sekcijah (7 od 30) turistični delavec ne izreče pozdrava »dober dan«, pač pa v teh vedno v prvi uvodni izjavi uporabi prosim. S pragmatičnega stališča lahko prosim v teh rabah opišemo kot fatični signal, ki po eni strani nadomešča pozdrav, hkrati pa izraža pripravljenost govorca, da prisluhne sogovorniku, v splošnem torej pripravljenost na komunikacijo:


[HOpi24.trs]

Api1: "hotel piramida" prosim

K17: dober dan [priimek] tu iz Maribora

Api1: izvolite[izv/o:ltE]

K17: ja mene zanima za eee naslednji vikend eee sobo za dve osebi ne?


Za predstavitvijo in pozdravom je poleg prosim pogosta tudi fraza izvolite:


[TAko43.trs]

Ako1: dober dan želim "kompas" izvolite

K29: eee dober dan


Pragmatična vloga prosim ali izvolite v teh rabah je lahko zelo sorodna, čeprav izvolite verjetno v manjši meri prevzema tudi vlogo pozdrava (v nobenem primeru v korpusu ni rabljen namesto pozdrava). Na to kaže tudi nekaj (sicer redkejših) rab prosim in izvolite v isti uvodni sekciji. V teh primerih ima prosim bolj fatično vlogo, izvolite pa poziva k dejanju:


[HOpi24.trs]

Api1: "hotel piramida" prosim

K17: dober dan [priimek] tu iz Maribora

Api1: izvolite[izv/o:ltE]


Drugih pogosteje ponavljajočih se uvodnih fraz turističnega delavca v posnetem gradivu ni. Halo na primer je v uvodnih sekcijah rabljen samo enkrat, v specifičnem kontekstu, kjer je treba opraviti fatično funkcijo samo v tehnicističnem smislu:


[TAko40.trs]

Ako1: "kompas" malo je za počakat prosim hvala

[PREVEZOVANJE]

Ako1: halo ?

K23: dober dan

K23 [prekr]: lep pozdrav

Ako1 [prekr]: dober dan


Pri predstavitvi je lahko dodana fraza pri telefonu ali na drugi strani, vendar v korpusu Turdis-1 redko:


[TAso11.trs]

Aso7: (dobe)r dan "agencija sonček" [ime] na drugi strani izvolite[izv/o:ltE]


[TAso16.trs]

Aso1: dober dan [ime] pri telefonu


Klicatelj vedno prevzame drugo zaporedno vlogo v pogovoru, po uvodni identifikaciji in (opcijsko) pozdravu turističnega delavca. Brez izjeme začne klicatelj svojo vlogo s pozdravom dober dan, ki pa je še kar pogosto uveden z diskurznim označevalcem ja (5-krat v skupno 30 pogovorih) ali eee (6-krat):


[TPma42.trs]

Ama1: Matic prosim

K39: ja dober dan želim


[TPma27.trs]

Ama1: Matic prosim

K8: eee dober dan


Opcijsko, v korpusu v dobri polovici primerov, pozdravu sledi predstavitev klicatelja, lahko samo z imenom, z imenom in priimkom, samo priimkom, dodan je lahko kraj, od koder kliče, ali samo pri telefonu ali tukaj ipd., kar lahko pragmatično interpretiramo tudi kot dokazovnje verodostojnosti klicatelja:


[HOha61.trs]

Aha3: recepcija hotela Habakuk dober dan

K38: dober dan [ime] [priimek1] [priimek2] pri telefonu


[HOpi24.trs]

Api1: "hotel piramida" prosim

K17: dober dan [priimek] tu iz Maribora


[HOpi71.trs]

Api6: recepcija "hotela piramida" dober dan

K36: dober dan [ime] pri telefonu


V enem primeru klicatelj po pozdravu nagovori klicanega z gospa:


[TAko47.trs]

Ako3: dober dan "kompas" prosim

K25: ja dober dan gospa


Posebnost v tem sklopu je, ko klicatelj po pozdravu prosi za točno določenega sogovornika, potem ko iz predstavitve sogovornika (in verjetno tudi glasu – ženski : moški glas) spozna, da ne govori s tisto osebo, s katero želi:


[TAso09.trs]

Aso3: "sonček" [ime] prosim

K8: eee dober dan gospoda [ime] prosim


Če so uvodne izjave predstavljanja in pozdravljanja uspešno izmenjane, klicatelj preide v pojasnitev razloga za klic, sicer se lahko kak del ponovi:




[HOpi36.trs]

Api2: "hotel piramida" prosim

K2: dober dan [ime] [priimek] pri telefonu

K2 [prekr]: "hotel piramida" ?

Api2 [prekr]: [NERAZUMLJIVO-]dober dan[-NERAZUMLJIVO]

Api2: ja

K2: dober dan


S tem ko klicatelj pojasni razlog za klic, preide pogovor v prvi tematski sklop in s tem v jedro. Pojasnitev klicatelj vedno uvede oz. napove, in sicer v več kot polovici primerov pri tem uporabi glagol zanimati v raznih jezikovnih kontekstih (zanima me, mene (pa) zanima, jaz bi se (pa) (po)zanimal...), nekoliko redkeje tudi glagol vprašati (vprašal(a) bi, jaz imam (pa) eno vprašanje, imel(a) bi nekaj vprašanj, eno vprašanje bi imel(a)...) in še redkeje samostalnik informacija (jaz bi rabil(a) nekaj informacij, eno informacijo če bi lahko...) ali druge oblike.


6.1.2Zaključne sekcije


Za zaključne sekcije poleg ponavljajočih se vzorcev jezikovne rabe velja, da morajo biti kar se da primerno umeščene v pogovor, da se nobeden od sogovornikov ne čuti oškodovanega.

Govorci (v analizirani zvrsti pogovorov to praviloma stori klicatelj, ne klicani) lahko nakažejo željo, da bi pogovor zaključili, potem ko je bil zadnji tematski sklop obravnavan v vsaj eni izmenjavi in ko smatrajo, da nimajo več kaj dodati k temu sklopu niti ne želijo začeti novega tematskega sklopa. Zaželeno je, da sta takega mnenja oba sogovornika, ni pa vedno tako. V korpusu je nestrinjanje glede zaključevanja najbolj izrazito v naslednjem primeru, kjer v zadnji tretjini pogovora klicatelj kar nekajkrat nakaže, da bi želel končati, klicani pa mu želi prej posredovati še dodatne informacije:


[TAko47.trs]

Ako1: pol[*] pa imate[m/a:tE][+SOGOVORNIK_mhm] recimo štiri zvezdice Akaba Gulz ne?[+SOGOVORNIK_ja]

Ako1: sto[+SOGOVORNIK_ja] štiriindvajset[St\@rindv/a:js] tristo dvajset

Ako1: [SOGOVORNIK_aha]

Ako1 [prekr]: je pa [1]

K25 [prekr]: dobro

Ako1: [2] preverjeno [.] eee čista dežela varna dežela[+SOGOVORNIK_mhm] zelo so se zadovoljni vračali

K25: mhm

K25: dobro gospa eee najlepša [1]

K25 [prekr]: [2] hvala ne? jaz[+NERAZUMLJIVO] bom[+NERAZUMLJIVO] ...

Ako1 [prekr]: zdaj pa še Egipt da [1]

Ako1: [2] vam povem ceno ne?[+SOGOVORNIK_aha]


Sicer pa v analiziranih pogovorih govorci zelo sledijo vljudnostnim konvencijam, zato sogovornik praviloma kmalu potem, ko klicatelj signalizira, da bi zaključil pogovor, tudi sam signalizira, da se s tem strinja. Signal za končanje pogovora je v analiziranih pogovorih dveh vrst: to so diskurznimi označevalci dobro, v redu, okej ali prav in zahvaljevanje (hvala, najlepša hvala, lepa hvala itd.). Vendar moramo biti pri diskurznih označevalcih dobro idr. pozorni: ti lahko signalizirajo tudi prehode med tematskimi sklopi. Zahvaljevanje je nasprotno v korpusu vedno znak, da želi govorec zaključiti pogovor, in pogosto kar sledi diskurznemu označevalcu:


[TAne77.trs]

K44: dobro [1]

K44 [prekr]: [2] v redu najlepša hv() ...

Ane2 [prekr]: recimo imate[m/a:tE] dve odrasli [1]

Ane2: [2] pa dva otroka tudi[t/u:t] tako[t/a:k] so ležišča notri predvidena ne?


V korpusu Turdis-1 je praviloma klicatelj (in ne klicani) tisti, ki prvi signalizira zaključek, razen če je soglasje o zaključevanju pogovora dovolj jasno iz predhodne propozicijske vsebine:


[TAko40.trs]

K23 [prekr]: pet dva pet [1]

Ako2 [prekr]: eee poštno številko mi dajte

K23: [2] šest dva tri nič

Ako2: [TIHO-]šest dva tri nič[-TIHO]

Ako2 [prekr]: Postojna

K23 [prekr]: Postojna

[zaključek]

Ako2: okej [ime]

K23 [prekr]: no najlepša hvala

Ako2 [prekr]: imate[m/a:tE] to jutri doma

Ako2: kakorkoli[k/a:k@rk/o:li] pa se mogoče pol[*] čujeva ne?

Ako2 [prekr]: okej hvala vam živjo[+NERAZUMLJIVO]

K23 [prekr]: no prav hvala

K23: na svid(enje)


V analizirani zvrsti pogovorov je klicatelj tisti, ki mu je treba ugoditi, torej privilegiran govorec, in klicani (turistični agent) tisti, ki klicatelju streže.

Običajno klicatelj uporabi oba načina za zaključevanje pogovora: najprej diskurzni označevalec (vedno razen v dveh zaključkih), potem pa zahvaljevanje (vedno).

Klicani (turistični delavec) skoraj vedno (razen v 5 primerih) pokaže strinjanje, da se pogovor zaključi, z diskurznimi označevalci dobro, v redu, okej ali prav (približno tretjina primerov) oziroma z ja (naslednja tretjina primerov), redko (v korpusu 3-krat) uporabi v zaključku ja in hkrati še enega od označevalcev iz niza dobro:


[TAso16.trs]

K11 [prekr]: dobro

Aso1: ja

Aso1 [prekr]: prav gospa

K11 [prekr]: najlepša [1]

K11: [2] hvala za [1]

K11 [prekr]: [2] izčrpne informacije bomo malo razmislili pa še se [1]

Aso1 [prekr]: hvala lepa vam [P] no jaz upam da smo kaj ... [P] prosim

K11: [2] kaj oglasimo

K11 [prekr]: ja na svidenje

Aso1 [prekr]: prosim lepo ja hvala srečno


Redkeje (v korpusu 5-krat) pa je znak za strinjanje o končanju pogovora kar fatični signal prosim, ki je odziv na klicateljevo zahvaljevanje:


[TPma57.trs]

K31: dobro hvala

Ama1: prosim

K31: adijo

Ama1: na svidenje


Turistični delavec se sicer poleg prosim na klicateljevo zahvalo pogosto odzove prav tako z zahvalo (hvala, hvala vam, ni za kaj ipd.), kar je poleg diskurznih označevalcev prav tako znak, da se strinja z zaključevanjem pogovora:


[TPma27.trs]

K8: aha dobro potem bom pa pri[p@r] njih preveril[prEv*E:rO] jaz[+NERAZUMLJIVO] še ja

K8: najlepša hvala

K8 [prekr]: na svidenje

Ama1 [prekr]: dobro hvala vam

Ama1: na svidenje


Zadnje dejanje vsakega pogovora je pozdrav, ki pa je lahko tudi že zelo slabo slišen:


[TAko40.trs]

Ako2 [prekr]: okej hvala vam živjo[+NERAZUMLJIVO]

K23 [prekr]: no prav hvala

K23: na svid(enje)


Sicer pa pozdrav in zahvaljevanje v zaključku zelo pogosto potekata ob hkratnem govoru obeh sogovornikov (v uvodnih izjavah zasledimo hkratni govor zelo redko).


Redkeje zaključki vključujejo še druge vrste pragmatičnih dejanj, npr. nekajkrat obljubo, da se bo tema pogovora nadaljevala ali da se lahko na željo sogovornika nadaljuje v kakem drugem, prihodnjem pogovoru:


[TAso16.trs]

Aso1 [prekr]: prav gospa

K11 [prekr]: najlepša [1]

K11: [2] hvala za [1]

K11 [prekr]: [2] izčrpne informacije bomo malo razmislili pa še se [1]

Aso1 [prekr]: hvala lepa vam [P] no jaz upam da smo kaj ... [P] prosim

K11: [2] kaj oglasimo

K11 [prekr]: ja na svidenje

Aso1 [prekr]: prosim lepo ja hvala srečno


V primeru, kjer je klicatelj v pogovoru večkrat nakazal željo, da zaključi pogovor, dejanski zaključek omili z obljubo, da si bo dodatne informacije poiskal na internetu:


[TAko47.trs]

K25: dobro gospa najlepša hvala [1]

K25 [prekr]: [2] da ste se tako potrudili[pOtr/u:dli] [1]

Ako1 [prekr]: prosim lepo

K25: [2] ne?

K25: bom si jaz še na internetu [1]

K25 [prekr]: [2] pogledala ne? [P] ja

Ako1 [prekr]: izvolite prosim ja

K25 [prekr]: hvala na svidenje

Ako1 [prekr]: hvala na svidenje


Analiza uvodnih in zaključnih sekcij kaže, da te vključujejo precej standardizirana pragmatična dejanja in jezikovna sredstva, s katerimi govorci opravljajo ta dejanja. Za tehnologije pomeni poznavanje ponavljajočih se vzorcev jezikovne rabe pomoč v vseh fazah strojnega simultanega prevajanja govora. Uspešen uvod in zaključek sta zelo pomembna elementa pragmatično uspešnega pogovora, zato je pomembno, da sistem strojnega simultanega prevajanja govora v teh segmentih deluje s čim manj napakami.


6.2Diskurzni označevalci


V tem poglavju predstavljam podrobno analizo nekaterih najpogostejših izrazov v korpusu, ki lahko opravljajo vlogo diskurznega označevalca (prim. 4.3). Poglavje je precej obširno, saj je treba pragmatične vloge in rabo analizirati za vsak izraz posebej, le redko so razlike tako majhne, da lahko v eno podpoglavje združim analizo več izrazov.

V prvem koraku analize sem pregledala gradivo v korpusu in izločila tiste izraze, ki najmanj vplivajo na propozicijsko vsebino, zato predvidevam, da je njihova vloga predvsem pragmatična, in jih v tej vlogi imenujem diskurzni označevalci. V analizo vključim naslednje izraze, razdeljene po poglavjih, kot je prikazano tukaj (v zaporedju glede na pragmatične vloge, ki jih lahko opravljajo):

- ja,

- mhm, aha, aja,

- ne?, a ne?, ali ne?, jel?,

- no,

- eee, mmm...,

- dobro, v redu, okej, prav,

- glejte/poglejte, veste,

- mislim,

- zdaj,

- oporni signali: mhm, ja, aha, aja, dobro, okej, tako, tudi, seveda.


V nadaljevanju v analizah sledim naslednjemu postopku:


Ugotovitve analiz so povzete v daljšem sklepu na koncu tega poglavja.



6.2.1Ja


Izraz ja pritegne pozornost v okviru raziskav diskurznih označevalcev, ker se pogosto odmika od semantične vloge, še bolj pa zaradi pogostosti rabe: v analiziranih pogovorih je eden najpogostejših izrazov, rabljen je 323-krat in 226-krat kot oporni signal (glej 6.2.10), skupaj torej 549-krat, kar pomeni približno 3 odstotke vseh besed.

Slovar slovenskega knjižnega jezika (SSKJ) klasificira ja kot prislov, Slovenski pravopis 2001 (SP) pa kot poudarni, navezovalni in soglašalni členek. Zvrstno je uvrščen v pogovorno rabo. SSKJ v opisu gesla navaja za ja, da lahko izraža pritrjevanje, podkrepitev trditve, pričakovanje pritrditve, pa tudi samoumevnost povedanega, domislek ali obotavljanje in pomislek, pa tudi nasprotje prejšnji misli. Kot tretjo vrsto rabe navaja izražanje nejevolje, nestrpnosti ali začudenja in presenečenja. Členek ja obširno obravnava tudi (Smolej, 2001). Med drugim ugotavlja, da ima poleg pritrdilne še vrsto drugih vlog, značilnih predvsem za govorjeni jezik. V teh vlogah ja učinkuje kot govorni signal, s katerim govorec izraža sprejem in razumevanje sporočila, svoj odnos do sprejetega sporočila, nakazuje prevzem vloge, napoveduje nestrinjanje, izraža čustveno prizadetost, na koncu stavka poudarja vsebino sporočila itd., lahko pa se približuje tudi vlogi modalnega členka ipd. (Schlamberger Brezar, 1998) uvrsti ja med pragmatične povezovalce, ki zaznamujejo zgradbo konverzacije in so retroaktivni (izražajo odnos do izrečenega, in sicer potrditev prejšnjih izrekov).

V analiziranih pogovorih lahko ja v večini rab pripišemo vlogo diskurznega označevalca. Ta opredelitev je vprašljiva edino v rabah, kjer je ja uporabljen kot pritrdilni odgovor na vprašanje, pragmatična vloga pa je manj izrazita, npr.:


[HOpi24.trs]

K17: aha prav v apartmaju je ?

Api1: ja

Api1: [SOGOVORNIK_aha]

Api1: soba je apartma za dve osebi


V analizo zaradi nejasne meje med rabami ja v vlogi diskurznega označevalca oz. kot del propozicijske vsebine vključim vse rabe ja v korpusu. Rabo diskurznega označevalca ja v položaju opornega signala obravnavam v poglavju (6.2.10).


6.2.1.1Pragmatične vloge ja


V rabah, kjer ja izraža pritrjevanje, pritrdilen odgovor na sogovornikovo vprašanje, je ja pomemben del propozicijske vsebine, njegov predstavni pomen lahko opišemo tudi z besedno zvezo tako je. Na delno pragmatično vlogo tudi v teh rabah pa kaže, da govorec poleg ja še z drugimi besedami (običajno ponovi del vprašanja) izrazi pritrjevanje – dejansko je torej pritrditev dvojna:


[HOpi36.trs]

K2: eee to je samo nočitev z zajtrkom ?

Api2: z zajtrkom ja nočitev

[TAko47.trs]

K25 [prekr]: kam v Jordanijo ?

Ako1: Jordanijo ja



V takih primerih je lahko ja tudi zaporedoma ponovljen:


[HOha50.trs]

K39: povejte kar se pa tiče zajtrka to je najverjetneje tam samopostrežni kjer je [.] široka ponudba

Aha1: ja ja[IZG] samopostrežni zajtrk je


V korpusu le s težavo najdemo primer, kjer govorec odgovori pritrdilno samo na kratko z ja. Take rabe je v strojnem simultanem prevajanju govora smiselno izločiti iz kategorije diskurznih označevalcev, sicer izgubimo pomemben del vsebine:


[TAko47.trs]

Ako1: samo Egipt vas[+SOGOVORNIK_ja] zanima ?

K25: ja

K25: eee eee no [1]

K25 [prekr]: [2] ali pa ...


Menim, da sta vsaj dva razloga za to, da govorec pritrdilni odgovor izrazi še z drugimi besedami, ne samo na kratko z ja: tak odgovor je bolj nedvoumen; odgovorjanje samo s kratkim ja/da ali ne je manj vljudno in si ga lahko sogovornik interpretira kot nezainteresiranost govorca za pogovor.


V naslednji skupini primerov rabe ja opazimo rahel pomenski premik od pritrjevanja (ki se nanaša na dejstva) k strinjanju (ki se nanaša na bolj osebni odnos med sogovornikoma, na njuna mnenja) – predstavni pomen ja v teh rabah lahko opišemo s strinjam se. Te primere ločim kot posebno skupino tudi zato, ker se ne uporabljajo več v izjavah, ki so odgovor na vprašanje, ampak gre pri izražanju strinjanja bolj za odziv na sogovornikovo izjavo, torej v delih pogovora, kjer pari vprašanje-odgovor preidejo v izmenjavo mnenj, izkušenj, predlogov ipd. Še eno razliko opazim: pri strinjanju se diskurzni označevalec ja pogosto rabi v paru z diskurznim označevalcem ne?, pri pritrjevanju pa se v izjavi, ki je vprašanje, ne? rabi redkeje:


[TPma42.trs]

K39: no pa sploh zdaj[zd\@j] v okolici Maribora oziroma sploh v Mariboru eden[*E:dn] izmed takšnih edinih naslovov ki mogoče res malo[m/a:l] [.] ki ima[m/a:] vso to[+SOGOVORNIK_ja] ponudbo pod eno streho ne?

Ama1: ja tako[t/a:][IZG] kot[kO][IZG] ste rekli ja


[TAko40.trs]

Ako2: da se vse pri[p@r] nas s tem da je zdaj[z/a:j] tako[t/a:k]bom rekla ne? zdaj so cene dejansko kot vidite so grozljive ne?

K23 [prekr]: ja to so itak[+NERAZUMLJIVO]

Ako2 [prekr]: eee ...

Ako2: ja [SMEH] jaz verjamem oziroma koliko[k/o:k] smo se malo[m/a:l] pogovarjali ko smo bili[bl/i:] s kolegi skupaj da da pač vsi srčno upamo da bojo cene malo[m/a:l] začele padat ne?


[TAso09.trs]

Aso3 [prekr]: ponedeljek [1]

K8 [prekr]: no ...

Aso3: [2] je on tukaj

K8: aha dobro

K8 [prekr]: bom potem ...

Aso3 [prekr]: pa najboljše da [1]

Aso3: [2] nadaljujeta ne?

K8: ja




[TAko47.trs]

K25: dobro gospa eee najlepša [1]

K25 [prekr]: [2] hvala ne? jaz[+NERAZUMLJIVO] bom[+NERAZUMLJIVO] ...

Ako1 [prekr]: zdaj pa še Egipt da [1]

Ako1: [2] vam povem ceno ne?[+SOGOVORNIK_aha]

K25: ja dobro prosim ja

Seveda ni mogoče vedno enoumno ločiti, ali gre za pritrjevanje ali strinjanje:


[TAso17.trs]

Aso12: zdaj[z/a:j] konkretno recimo Zaton ne?

K12: ja ja Zaton me zanima


Naslednja (večja) skupina primerov rabe diskurznega označevalca ja izraža potrditev razumevanja in pozornosti – ja je signal, da je bilo sporočilo sprejeto in razumljeno. V teh primerih bi lahko predstavni pomen ja opisali z razumem:


[HOha50.trs]

Aha1: to se piše ~A pika normalno ?

K39: kar[k\@r] ~A pa [1]

K39 [prekr]: [2] potem pika ločilo

Aha1 [prekr]: ja pika ja

K39: ~A pika zdaj pa moj priimek ki je [priimek] [~P ~R ~I ~I ~M ~E ~K]

Aha1: [priimek] ja

[TAne77.trs]

Ane2: bencin to s() to je vaš strošek ne?

K44: to je naš strošek ja

[TAso16.trs]

Aso1: oni imajo[m/a:jO] takrat višek sezone #skoz#[*]

K11 [prekr]: podaljšano torej ja

Aso1 [prekr]: ne? [P] tako podaljšano [1]

Aso1: [2] #zelo#


[HOpi34.trs]

Api3: eee samo potem da opozorijo da spadajo k ...

K19: r() tem ja ja

K19 [prekr]: kkk ddd v bistvu tej konferenci

Api3 [prekr]: k tem [.] tej zadevi ja k temu [1]

Api3: [2] dogodku ja


[TAne77.trs]

Ane2 [prekr]: recimo imate[m/a:tE] dve odrasli [1]

Ane2: [2] pa dva otroka tudi[t/u:t] tako[t/a:k] so ležišča notri predvidena ne?

K44: ja ja je [1]

K44 [prekr]: [2] odvisno potem [1]

Ane2 [prekr]: ne?

[TAne77.trs]

Ane2: eee to potem ko greste recimo to je za Skandinavijo no [.] to je značilno ne?

K44: ja aha to nudite ?


Za vse tri naštete tipe rabe lahko sklenemo, da ja sicer deluje kot pragmatični element, vseeno pa ima tudi predstavni pomen in ni zelo izrazito ločen od propozicijske vsebine. Sicer zaznamo manjše razlike v teh predstavnih pomenih (tako je, strinjam se, razumem), posplošeno pa lahko ugotovimo, da rabo ja močno uravnava njegov v osnovi pritrjevalen predstavni pomen.

Preden se pomaknemo k drugim rabam, kjer je pragmatična vloga ja bolj izrazita, še o pragmatični vlogi ja v zgoraj opisanih tipih rabe: ja vnaša zelo pozitivno vzdušje v diskurz – pozitivno v tem smislu, da izraža doseganje sporazuma med sogovornikoma, ki ga lahko označimo za nasprotni pol konflikta in nesporazuma, da torej vpliva tudi na medosebna razmerja med sogovornikoma.

V zgoraj analiziranih rabah je položaj ja lahko pogosto tudi na koncu izjave, ne samo na začetku, ki je sicer najznačilnejši položaj diskurznega označevalca ja.


V korpusu najdemo vrsto primerov rabe diskurznega označevalca ja, kjer je njegova vloga predvsem pragmatična, predstavni pomen pa skoraj povsem neizrazit. Do izraza pride povezovalna moč ja, in sicer vzpostavlja povezavo s predhodno vsebino – uvaja namreč izjave, ki se navezujejo na sogovornikovo/-e prejšnjo/-e izjavo/-e (zelo pogosto odgovor na vprašanje, ki pa ni tipa da/ne). Posledično je v teh rabah značilen položaj na začetku izjave:


[TPma27.trs]

K8: eee koliko[k/*o:kO] koliko[k/o:kO] pa vam pošiljajo to ?

K8: ker v eni izmed ta[*] velikih[v\@lkix] dvoran bi moglo[*] biti[b/i:t]

Ama1: ja recimo "dvorana Tabor" nam ne pošilja programa


[TAko40.trs]

K23: eee pa se da to nekako da je kakšno[k/a:SnO] informacijo zdaj zvem ? [.]

Ako1: prosim ?

Ako1 [prekr]: ja če boste še malo[m/a:l] počakali

K23 [prekr]: eee če bi zdaj lahko kaj zvedel ?


Povezovalno vlogo ja lahko razlagamo tudi iz spodnjega primera. Govorec lahko z ja izrazi pritrditev, strinjanje, razumevanje, nato pa nadaljuje vsebino, ki ne nadaljuje predhodne vsebine po pričakovanju. Tudi v tem primeru ja učinkuje kot povezovalni element:


[TAko47.trs]

K25: dobro [1]

K25 [prekr]: [2] gospa najlepša vam[+NERAZUMLJIVO] hvala

Ako1 [prekr]: ja Egipta imate[m/a:tE] dva [1]

Ako1: [2] čez prvi maj tisti ko sva[sma] rekle[r/e:kE][IZG][*] petindvajseti[p/e:tv/a:jsti][IZG] četrti drugi peti iz Ljubljane[lubl/a:nE] pol[*] pa imate[m/a:tE][+SOGOVORNIK_ja] še eno pose() tam imate[m/a:tE] in letovanje in potovanje variante[+SOGOVORNIK_ja]


Podobni so primeri, ko se sopojavljata ja samo:


[TPma23.trs]

Ama1 [prekr]: to se vse tam [1]

Ama1: [2] dogovori potem ne? [NERAZUMLJIVO-]v bistvu veste[-NERAZUMLJIVO] ker verjetno odvisno eeem ...

Ama1 [prekr]: eee ...

K17 [prekr]: ja samo zdaj[z/a:] [1]

K17: [2] me zanima ker eni[*] bodo imeli[m/e:li] otroke ne? s sabo


Poleg povezovalnosti je za ja izrazita že ugotovljena vloga vzpostavljanja pozitivnega odnosa med sogovornikoma. Menim, da je to dvoje razlog, da je ja zelo pogosto rabljen v uvodnih in zaključnih segmentih pogovora: od 30 uvodnih segmentov je v 8 uporabljen diskurzni označevalec ja, vedno kot odziv na prejšnjo izjavo sogovornika (v prvi izjavi pogovora ni nikoli nobenega diskurznega označevalca), najpogosteje v zvezi ja dober dan, pa tudi ja prosim in ja izvolite. V zaključnih segmentih se diskurzni označevalci uporabljajo bolj pogosto in različnejši. Ja je uporabljen v 16 zaključkih (od 30), najpogosteje v zvezah ja na svidenje, ja prosim, ja hvala, ja dobro, ja enako itd., redko tudi na koncu izjav, npr. hvala za vaš klic ja, ali kot oporni signal (8-krat).

Primeri (prva dva primera sta uvod v pogovor, tretji primer je zaključek pogovora):


[TAko47.trs]

Ako3: dober dan "kompas" prosim

K25: ja dober dan gospa


[TAso21.trs]

K15: dober dan [priimek] [ime] pri telefonu

Aso5: ja prosim [1]

Aso5 [prekr]: [2] gospod


[HOpi24.trs]

Api1: eee v ceni sobe je všteto samo zajtrk zjutraj je pa od pol sedme do desete ure

K17: [SOGOVORNIK_mhm][SOGOVORNIK_mhm]

K17: ja dobro

K17: v redu

Api1: prav?

Api1 [prekr]: ja prosim

K17 [prekr]: ja dobro

Api1 [prekr]: ja nasvidenje


Nadalje ja (pa tudi drugi diskurzni označevalci) po eni strani zagotavlja, da v pogovoru ne nastajajo molki, da je pogovor tekoč, po drugi pa govorec dobi čas za tvorjenje besedila in sogovornik za interpretacijo. Izraziteje na to pragmatično vlogo kaže naslednji primer, kjer govorec zavlačuje, ker ne ve takoj natančnega odgovora:


[HOpi34.trs]

K19: jaz bi rabil[r/a:bO][*] v bistvu bolj podatke koliko[k/o:k] časa moram jaz to rezervirat[*] prej ?

Api3: ja kakih [.] fff ...

Naslednji trije primeri rabe diskurznega označevalca ja so precej drugačni in nas opozorijo na smer, v katero delujejo diskurzni označevalci, posebni pa so tudi po svoji pragmatični vlogi. V teh primerih namreč ja označuje, da je govorec pripravljen pozorno poslušati, kaj bo povedal sogovornik, hkrati s tem tudi sporoča sogovorniku, naj prevzame vlogo oz. naj nadaljuje vlogo. Tudi tukaj torej ja potrjuje pozornost govorca, vendar jo zagotavlja vnaprej, je usmerjen v prihodnji diskurz oz. vzpostavlja povezavo s prihodnjim diskurzom, medtem ko je bil v vseh do zdaj obravnavanih rabah usmerjen nazaj, povezoval je v smeri preteklega diskurza. Kot bomo videli, da je značilno za diskurzni označevalec ne?, ima tudi ja v rabi, ko je usmerjen naprej, rastočo intonacijo:


[TAso07.trs]

Aso9: ja [1]

Aso9 [prekr]: [2] boste mi dal[*] številko ?

K6 [prekr]: s tem da zdaj cenovno ...

Aso9: ja?

Aso9 [prekr]: cenovno do [1]

K6 [prekr]: eee ...

Aso9: [2] koliko[k/o:lkO] ?






[TAso07.trs]

Aso9: kako ?

K6 [prekr]: druga polovica ? [P] aha mhm

Aso9 [prekr]: ja drugi teden novembra tu nekje[n/e:ki] [P] ja ja

K6 [prekr]: novembru druga polo() ...

Aso9 [prekr]: eee telefons() ...

Aso9: ja?

K6: telefonska je pa nič dva dvesto dvajset eee sedem[+SOGOVORNIK_ja] dva dva devet


Zanimivo pa je takšna raba ja? v korpusu zelo redka, pa še to kar v treh od štirih primerov pri istem govorcu. Morda jo govorci razumejo kot nekoliko pokroviteljsko in zato manj vljudno.


Naslednji (v korpusu edini tak) primer rabe ja? z rastočo intonacijo povsem sovpada z vlogami, ki jih sicer opravlja diskurzni označevalec ne? (glej 6.2.3):


[TPma42.trs]

Ama1: in eee eee "zavod za turizem" prireja tudi prireditve razne ja?

Ama1: eee[+SOGOVORNIK_ja] predse() predvsem[prEts/e:m] tisti dve ki sta p() povezani s staro trto


6.2.1.2Položaj ja v izjavi


Že iz analize pragmatičnih vlog ja smo videli, da ga najdemo predvsem na začetku izjav, in to predvsem tistih izjav, ki so ali odgovor na sogovornikovo vprašanje ali odziv na sogovornikovo izjavo.

Izraz ja (z varianto jaja), kadar ni v vlogi opornega signala, je rabljen v 259 izjavah, od tega 48-krat kot samostojna izjava (kar pomeni, da je govorec za ja naredil krajši premor in šele potem nadaljeval vlogo oz. je prekinil vlogo in po kratkem premoru z ja? prepustil vlogo sogovorniku). V ostalih primerih v veliki večini rab označuje začetek (140-krat) ali konec izjave (58-krat), od tega 8-krat začetek in konec iste izjave. V 6 izjavah sledi ja takoj za eee (npr. eee ja glejte v ...), ostane torej 15 izjav od vseh, v katerih se pojavi ja, ki ni na meji izjav. Sredi izjave najpogosteje izraža pritrjevanje:


[TAso06.trs]

Aso6 [prekr]: osmega ja zjutraj


lahko pa tudi nov začetek:


[TAko47.trs]

Ako1: [TIHO-]večerja veče()[-TIHO] ja polpenzioni so


Brez dvoma pa je osrednje mesto diskurznega označevalca ja ob mejah izjav. Če primerjamo rabo ja s številom vseh izjav v korpusu (2393), je v približno 10 % izjav na začetku ali koncu diskurzni označevalec ja. Slika 5 v odstotkih prikazuje položaj diskurznega označevalca ja v izjavah (ne vključuje rab ja v položaju opornega signala).

Slika 5: Položaj diskurznega označevalca ja v izjavi.


6.2.1.3Sopojavljanje ja z drugimi diskurznimi označevalci


Diskurzni označevalec ja je dokaj pogosto rabljen skupaj z drugimi diskurznimi označevalci. Običajno je v zaporedju dveh ali več diskurznih označevalcev prvi (ja dobro), ni pa nujno (aha dobro ja).

Zelo pogosto je skupaj z diskurznima označevalcema poglejte/glejte (v korpusu v 12 izjavah), kjer je vedno na prvem mestu:


[TPma42.trs]

Ama1: ja poglejte eee zdaj[z/a:j] v zvezi z Mariborom eee v bistvu mi eee organiziramo samo vodenja


[TAso06.trs]

Aso6: ja glejte[l*E:jtE] jaz sem vam preverila[prEv/e:rla] za karto


in skupaj z eee/eeem/mmm (v 12 izjavah), kjer je prvi ali drugi:


[HOpi34.trs]

K19: ja eee ena stvar še glede eee plakatov


[HOpi78.trs]

K30: eee ja v bistvu trideset nočitev bi bilo[bl/o:] ne?


Dokaj pogosto se druži še z dobro (6-krat, od tega 5-krat na prvem mestu):


[TPma23.trs]

K17: ja dobro hvala


in zdaj (7-krat, običajno na prvem mestu), s katerim pa lahko tvori tudi daljše nize zaporednih diskurznih označevalcev:


[TPma42.trs]

Ama1: ja poglejte eee zdaj[z/a:j] v zvezi z Mariborom eee v bistvu mi eee organiziramo samo vodenja



Ja je lahko ponovljen dva- ali večkrat zaporedoma, včasih izgovorjeno tako hitro skupaj, da štejem jaja za posebno varianto ja:


[HOpi78.trs]

K30: ja jaja


[TAko40.trs]

K23 [prekr]: ja ja ja poslušam


Lahko se rabi tudi na začetku in na koncu iste izjave (v korpusu 8-krat):


[TPma42.trs]

Ama1: ja tako[t/a:][IZG] kot[kO][IZG] ste rekli ja


Zanimiva je njegova povezanost z diskurznim označevalcem ne?. Nekajkrat se ista izjava začne z ja in konča z ne? (natančneje 6 izjav):


[HOpi78.trs]

Api2: ja saj to je vseeno ne?


še bolj značilno pa nastopata ja in ne? v paru, tako da se na govorčev ne? sogovornik pogosto odzove z ja (kot opornim signalom ali diskurznim označevalcem, ki uvaja menjavanje vlog) (glej še 6.2.1.1 in 6.2.3.1):


[HOpi78.trs]

Api2: eee se pravi za dva dni da bi imeli ne?

Api2: [SOGOVORNIK_ja]

Api2: zdaj[z/a:j][+SOGOVORNIK_ja] odvisno koliko[k/o:kO] bi bilo[bl/o:] tudi nočitev ne?

K30: eee ja v bistvu trideset nočitev bi bilo[bl/o:] ne?


Redkeje se ja uporabi poleg diskurznih označevalcev nič, aha:


[TAne77.trs]

K44: ja aha to nudite ?


[HOha50.trs]

K39: ja nič potem vas pa prosim če mi tole res pošljete



6.2.2Mhm, aha, aja


Mhm, aha in aja so v analiziranih pogovorih vedno rabljeni predvsem v pragmatični vlogi, torej kot diskurzni označevalec.

SSKJ uvršča mhm, aha in aja med medmete. Navaja, da mhm izraža obotavljanje, pomislek, dvom ali pa zadržano pritrjevanje, aha izraža zadovoljnost pri domisleku, dognanju, najdenju, aja pa izraža domislek, v pogovorni rabi pa zavrnitev. SP razvršča vse tri izraze med razpoloženjske medmete, aja pa še med nikalne členke. (Schlamberger Brezar, 1998) navede mhm kot primer pragmatičnih povezovalcev, ki zaznamujejo zgradbo konverzacije in so retroaktivni (izražajo odnos do izrečenega).

Pogostost rabe teh izrazov je manjša kot pogostost diskurznega označevalca ja. Pri tem je mhm zelo pogosto rabljen v položaju opornega signala, kar 212-krat od skupno 245-krat, menjavanje vlog uvaja redkeje (33 takšnih rab). Aha je obratno nekoliko manj pogosto oporni signal (72-krat) in večkrat uvaja menjavanje vlog (111 takšnih rab). Aja je v korpusu rabljen zelo redko, 4-krat kot uvod v izjavo in 1-krat kot oporni signal. Predvsem mhm (čeprav tudi aha in aja) je med temi izrazi izrazito značilen za spontan govorjeni diskurz. Je pa lahko precej nejasno artikuliran in je ob površni artikulaciji tudi za človeško uho hitro zamenljiv z aha, še veliko bolj pa to velja za strojno razpoznavo govora.


6.2.2.1Pragmatične vloge mhm, aha in aja


Diskurzni označevalec mhm je po rabah zelo soroden diskurznemu označevalcu ja. Tako tudi mhm izraža pritrditev, čeprav morda predstavni pomen pritrjevanja pri mhm ni tako izrazit kot pri ja:


[TAso11.trs]

Aso7: eeem tako[tk/o:] najboljše[n\ajb/o:lS] bi bilo[l/o:] pa seveda če ste za to vam lahko zapakiram ta katalog naš [.] pa vam ga pošljem

Aso7: si ogledate to

K7: eeem lahko ja [.] prosim

Aso7: lahko ?

Aso7: mhm[+SOGOVORNIK_ja] seveda


Najbolj značilna raba mhm je potrjevanje razumevanja in pozornosti (predstavni pomen mhm v teh rabah lahko opišemo kot razumem, pragmatično pa je na meji opornega signala):


[HOha50.trs]

Aha1 [prekr]: ja glejte skupine [1]

K39 [prekr]: [NERAZUMLJIVO]

Aha1: [2] nekje od dvajset naprej

K39: mhm ne ne toliko[t/o:k] toliko[t/o:k] jih pa ne bo

[HOpi36.trs]

K2: v redu [1]

K2 [prekr]: [2] se bom sprijaznila če tudi ne

Api2 [prekr]: načeloma so priključki

K2: mhm

K2: zdaj pa me zanima ker pridem z avtom imate[m/a:tE] vi tudi [.] parkirišče p() ker je to mislim da v centru Maribora ne?


[TAso11.trs]

Aso7: eee na primer pride pa cena sto sedemindvajset tisoč tristo ne?

K7: mhm po [1]

K7 [prekr]: [2] osebi ?

Aso7 [prekr]: eee ...

[TAso11.trs]

Aso7: pa naslov prosim gospod [ime]

K7: Mele osemnajst ~A

Aso7: mhm


[TAso16.trs]

K11 [prekr]: kako[k/a:k] pa je z[*] [1]

K11: [2] klimo v Osminah ker jaz sem bila[bl/a:] junija pa je takrat nismo potrebovali

Aso1: mhm [.] je pa tako v teh sobah delno tudi klima


Medtem ko obe zgornji vlogi mhm sovpadata z vlogami ja (prim. 6.2.1.1), pa je po drugi strani tudi nekaj razlik v rabi obeh diskurznih označevalcev. Tako je lahko v nekaterih rabah mhm tudi izrazit izraz govorčevega odnosa do vsebine, in sicer ga v lahko interpretiramo kot »ideja je vredna razmisleka, je zanimiva«,11 npr.:


[TAko40.trs]

Ako2: mogoče bi res bilo[bl/o:] lažje ta da vi ta katalog vidite

Ako2 [prekr]: ker jaz zdaj[z/a:j] sproti pač ...

K23 [prekr]: da bi ga videl[v/i:dO] mhm


Po drugi strani je nekaj rab, ki so značilne za ja, ne pa tudi za mhm: v korpusu ni mhm nikoli izgovorjen z rastočo intonacijo, ni rabljen pri zavlačevanju odgovora, prav tako ne v uvodih ali zaključkih.

Iz vsega navedenega sklepam, da mhm nima tolikšne pragmatične moči vzpostavljati pozitiven odnos med sogovornikoma kot ja, prav tako ima manjšo povezovalno moč, pač pa omogoča predvsem vzpostavljanje odnosa do (predhodne) vsebine. Enako kot ja je mhm usmerjen nazaj, v pretekli diskurz, prav tako imata zelo soroden predstavni pomen.


Primerjava pragmatičnih vlog je smiselna tudi med mhm in aha. Tukaj se sorodnost rab nadaljuje v drugo smer kot pri ja. Enako kot mhm tudi aha omogoča predvsem izražanje odnosa govorca do predhodne vsebine, vendar je opaziti rahel premik: medtem ko mhm večinoma izraža potrditev razumevanja, lahko aha izrazi tudi presenečenje – govorec smatra prejšnjo vsebino za visoko informativno oz. za bolj informativno, kot če uporabi mhm:


[TAne77.trs]

K44: eee ko ne vem vzameš samo[s/a:m] šotor in [1]

K44 [prekr]: [2] [.] potem ne vem tam nudijo pač eee ...

Ane2 [prekr]: ja ne ne teh ...

Ane2: ne

K44: aha [1]

K44 [prekr]: [2] nimate

Ane2 [prekr]: nnn





[TAne77.trs]

Ane2: ampak to je že bolj kot taki apartmajčki ne?

Ane2: to[IZG]

Ane2: ali[al] pa recimo ti avtodomovi ne?

Ane2: eee to potem ko greste recimo to je za Skandinavijo no [.] to je značilno ne?

K44: ja aha to nudite ?


[TPma42.trs]

K39: lahko[+SOGOVORNIK_mhm] krajša() krajšate ~S ~L pika

Ama1: aha okej


[TPma65.trs]

Ama2 [prekr]: in pa imamo[m/a:mO] še eee [.] [1]

Ama2: [2] vinske ceste mariborska podpohorska in pa gornjeslovenjegoriška[+SOGOVORNIK_aha]

Ama2: kjer so pa tudi[t/u:t] kolesarske steze[st*E:zE] označene

K33: aha eee kaj to eee je brezplačno ali[al] [1]

K33 [prekr]: [2] je treba plačat[*] ?


Izgovorjen z ustrezno intonacijo lahko izrazi tudi razočaranje nad vsebino in/ali sprijaznjenje z dejstvi:


[TPma27.trs]

Ama1: žal nimam tukaj nič informacij o tem

K8: nimate ? [.] aha


[TPma23.trs]

Ama1: eeem tako da najbolje da vam jaz dam telefonske številke pa se potem sami naprej [.] [SOGOVORNIK_aha] eee [.] pozanimate ker mi mislim ne delamo nobenih[dOb*E:nix] rezervacij pa in tega

K17: aha tako[t/a:k] da tele informacije koliko[k/o:lkO] so recimo cena hrane pa to tudi nimate


[TPma27.trs]

Ama1: ampak eeem [.] recimo "dvorana Tabor" ne pošilja

K8: aha dobro potem bom pa pri[p@r] njih preveril[prEv*E:rO] jaz[+NERAZUMLJIVO] še ja


[TAso09.trs]

Aso3 [prekr]: ni še tako[t/a:k] zgodaj ne?

K8 [prekr]: nismo se pa točno termina ...

Aso3 [prekr]: ponedeljek [1]

K8 [prekr]: no ...

Aso3: [2] je on tukaj

K8: aha dobro

K8 [prekr]: bom potem ...


Lahko izraža, da se je govorec (verjetno asociativno ob vsebini) spomnil nečesa/nekoga:


[TAso06.trs]

Aso6: dober dan "agencija sonček" [ime] prosim

K4: dober dan [priimek] pri telefonu

K4 [prekr]: vidim da ste me že ...

Aso6 [prekr]: aha dober dan gospod [priimek]


Primerjava s podobnim primerom, kjer pa govorec uporabi mhm:


[HOpi34.trs]

K19: eee jaz bi pa se pozanimal za tale poslovni klub ko[*] imate[m/a:stE] [1]

K19 [prekr]: [2] zdaj[z/a:j] na novo

Api3 [prekr]: mhm sva midva [1]

Api3: [2] dopoldan govorila[+SOGOVORNIK_ja] ne?


Ali pa izraža, da je govorec našel iskano (lahko bi ob tem izražal tudi veselje):


[TAso16.trs]

Aso1: [KASELJ][TIHO-]Faraon samo[s/a:m] en[*] tre() ... [-TIHO]

[TISINA]

Aso1: [TIHO] aha tule imam[m/a:m] Trpanj


Navedeni primeri kažejo, da sta mhm in aha sicer zelo sorodna, vendar aha izraža višjo intenzivnost odnosa do vsebine, ima večjo moč izražanja čustev govorca kot mhm.


Tako kot mhm tudi aha lahko izraža predvsem potrjevanje razumevanja:


[TAso21.trs]

Aso5: to je eee so "terme" recimo "hotel toplice" pa pridejo devetinštirideset tisoč petsto

K15: aha

K15: v redu


[TPma23.trs]

Ama1: dve štiri

Ama1: [SOGOVORNIK_ja]

Ama1: štiri štiri

K17: aha dobro


[TPma65.trs]

K33: tourism[+angl] je to ?

Ama2: ja po angleško[+SOGOVORNIK_aha] pika @SI

K33: aha okej hvala


Ne izraža pa pritrjevanja ali strinjanja.


Aja je v korpusu rabljen samo 4-krat, kar je premalo za resnejšo analizo rabe tega izraza:


[TAko47.trs]

Ako1: eee z() to je nočitev z zajtrkom za en teden[t/e:dn] ja

Ako1: pa je pet zvezdic

K25: aja nočitev za() zajtrkom je


[TAso16.trs]

Aso1: na na Braču[+SOGOVORNIK_mhm] eee [.] tale ...

Aso1: [TIHO-]kako[k/a:k] sem[-TIHO]

Aso1 [prekr]: Riu

K11 [prekr]: Bol ?

Aso1 [prekr]: eee čakajte[tS/a:ktE]

K11 [prekr]: aja

Aso1: eee ne ne


[TAso16.trs]

Aso1: se pravi Epidaurus poznate ne?

Aso1 [prekr]: eee aja ta je v tega ne poznate ja Slano poznate ste rekli ja

K11 [prekr]: eee ta je tega ne ker je čr() mhm Slano ja


[TAso16.trs]

Aso1: ne niso niso ni

Aso1: žal mi je klime tukaj[t/u:ki] #ni#

K11: aja ni je


Iz teh primerov bi lahko sklepali, da tudi aja lahko izraža odnos do predhodne posredovane vsebine. Ta odnos je verjetno nekoliko drugačen kot pri aha (ki izrazi presenečenje ali razočaranje ali sprijaznjenje), in sicer lahko aja izraža, da je govorec imel prej drugačno mnenje o stvareh ali je drugače razumel stvari, kot jih razume zdaj (potem ko mu je sogovornik odgovoril ali kaj razložil).

6.2.2.2Položaj mhm, aha in aja v izjavi


Mhm je pogosteje v položaju opornega signala (212-krat), le v 30 izjavah je označen kot diskurzni označevalec, ker uvaja menjavanje vlog oz. novo izjavo. Tudi v teh primerih je pogosto – 12-krat – izrečen s premorom pred nadaljevanjem vloge, zato je označen kot samostojna izjava:


[HOpi78.trs]

Api2: za en dan ja

K30: mhm

K30: eee kaj pa če bi se recimo eee da je opcija da se prespi namreč za dva dni eee[+SOGOVORNIK_mhm] bi imeli[m/e:li]


13-krat je označen kot začetek izjave:


[HOpi78.trs]

K30: mhm ne glede ali je večerja kosilo zajtrk ?


3-krat kot konec izjave:


[TAko40.trs]

K23 [prekr]: da bi ga videl[v/i:dO] mhm


Diskurzni označevalec aha je uporabljen v 101 izjavi, v večini primerov – 70-krat – na začetku izjave:


[TPma65.trs]

Ama2 [prekr]: aha lahko vam pošljemo


13-krat je označen kot samostojna izjava:


[TAso21.trs]

Aso5: na osebo

K15: aha

K15: pa verjetno še je prostor ?


10-krat je rabljen na koncu izjave:


[TAso11.trs]

Aso7: za dve osebi aha


4-krat pa v začetnem sklopu dveh ali več zaporednih diskurznih označevalcev:


[TAne77.trs]

K44: ja aha ker[k@] so tudi[t/u:t] sezone




Le v štirih primerih je rabljen sredi izjave, s tem da tudi v teh primerih loči skladenjsko zaokrožene enote besedila:


[TAso11.trs]

Aso7: začetku avgusta [NERAZUMLJIVO-]aha deseti sedmi do enaindvajseti[-NERAZUMLJIVO] osmi


[TAso11.trs]

Aso7 [prekr]: ste že bil[*] ? [.] ne aha ta otoček tako[t/a:k] eee recimo[r*E:tSmO] sredno[*] velik


[TPma44.trs]

K24: pika si aha bom pa tam tudi pogledala


[TPma49.trs]

Ama1: še vedno ja

K3: še[+SOGOVORNIK_ja] vedno aha tako je


Kot vidimo iz 6.2.2.1, je aja v vseh primerih v korpusu rabljen na začetku izjave.


Aha in mhm torej praviloma označujeta meje izjav, pogosteje stojita v premoru med izjavami oz. uvajata novo izjavo, kar je posledica tega, da sta usmerjena nazaj, tj. da se navezujeta na prejšnjo izjavo sogovornika.


6.2.2.3Sopojavljanje aha in mhm z drugimi diskurznimi označevalci


Diskurzna označevalca aha in mhm se lahko ponovita dva- ali večkrat zapored:


[TPma44.trs]

K24: osem pet aha aha


[TAso11.trs]

Aso7: mhm mhm južno od Splita v redu


Aha se v korpusu pojavi skupaj z zdaj, no, eee, dobro, okej, ja...:


[TAko43.trs]

K29 [prekr]: aha zdaj[z/a:j] pa me še za() ...


[TAko43.trs]

K29: aha no ker oni so rekli po radiu da da bomo rabili[r/a:bli][*] ...


[TAso09.trs]

K8: aha dobro


[TPma65.trs]

K33: aha okej hvala


[TAne77.trs]

K44: ja aha to nudite ?


[TPma65.trs]

K33: aha dobro ja

Mhm se manj druži z drugimi diskurznimi označevalci, v korpusu še največ z aha:


[TAso07.trs]

Aso9 [prekr]: druga polovica ? [P] aha mhm


V sklopih diskurznih označevalcev je – razen pri ja aha na prvem mestu.

6.2.3Ne?, a ne?, ali ne?, jel?


Beseda ne je v korpusu Turdis-1 (15.000 besed) rabljena 423-krat in je po frekventnosti ena najpogostejših. Vendar je, v nasprotju z ja ali mhm, aha in aja, le dobra polovica teh rab v vlogi diskurznega označevalca – v 227 izjavah (tj. 9,5 odstotka vseh izjav v korpusu) oziroma 253-krat (tj. dober odstotek in pol vseh besed v korpusu). Pri tem štejem tudi oblike a ne?, ali ne?, jel? (? označuje rastočo intonacijo teh besed v vlogi diskurznega označevalca), ki so nekajkrat rabljene v korpusu v povsem enaki vlogi kot ne?, gre samo za drugačno »materialno« podobo. V slabi polovici rab je ne pomemben del propozicijske vsebine, in sicer pri zanikanju:


Za vse v tem podpoglavju obravnavane besede v vlogi diskurznega označevalca je značilno, da imajo bolj ali manj izrazito rastočo intonacijo. Varianta ne? je daleč najpogostejša, ostale oblike so uporabljane bolj izjemoma, in sicer a ne? 2-krat, vedno pri isti govorki s širšega celjskega področja:


[HOha50.trs]

K39: in zdaj[zd\@j] bi jih ze() pač za takšne štiri[St/i:r] pet dni počitnic ki jih bojo imeli[m/e:li] v Sloveniji bi jim pač seveda rada [.] naredila[nard/i:la] nekaj[n/e:ki] naj() ali[al] pa vsaj ponudila[pOn/u:dla] nekaj[n/e:ki] izmed boljših stvari a ne?


[HOha50.trs]

K39: bi potem v bistvu Habakuk bil skorajda[sk/o:rda] najboljši naslov a ne?


Ali ne? in jel? pa sta rabljena po enkrat:


[TAso16.trs]

K11: in seveda vse so klimatizirane [1]

K11 [prekr]: [2] ali ne?

Aso1 [prekr]: tako


[TAso16.trs]

K11 [prekr]: ker to smo že tudi[t/u:t] jemali[*]

Aso1 [prekr]: to ste kar[k\@r] navajeni jel? [P] ja saj vem


V vseh ostalih rabah je vedno varianta ne?, tudi pri govorcih iz osrednje in zahodne Slovenije. Majhna vzorčna primerjava pogostosti rabe ne? pri dveh agentih v turistični agenciji v SV Sloveniji in dveh agentih v turistični agenciji v osrednji Sloveniji kaže naslednje: ob agenta iz osrednjeslovenskega prostora sta skupaj izrekla 1848 besed, od tega 20-krat diskurzni označevalec ne? in enkrat jel?. Oba turistična agenta iz SV Slovenije sta skupaj izrekla 2053 besed, od tega 32-krat diskurzni označevalec ne?. Večja primerjava na narečno uravnoteženem gradivu bi zato morda pokazala pogostejšo rabo diskurznega označevalca ne? pri govorcih iz SV dela Slovenije, čeprav so razlike v rabi zagotovo tudi individualno pogojene.

SSKJ in SP vloge ne? (z rastočo intonacijo) v rabah, ki jih tu imenujem pragmatična, ne omenjata posebej, pač pa besedico ne razlagata predvsem kot nikalni členek (SP) oz. prislov (SSKJ) ter kot veznik. Pač pa (Smolej, 2001) opozori med drugim tudi na rabo ne? v vlogi »konativnega vprašalnega signala, s katerim skuša govorec izzvati sprejemnikov signal pritrditve oz. zanikanja«. (Schlamberger Brezar, 1998) uvrsti ne (ni povsem nedvoumno, ali misli s tem ne z rastočo intonacijo) med pragmatične povezovalce, ki zaznamujejo zgradbo konverzacije in so lahko tako proaktivni (z vnaprejšnjim delovanjem) kot retroaktivni (izražajo odnos do izrečenega).


6.2.3.1Pragmatične vloge ne?


Diskurzni označevalec ne? funkcionira kot nasprotni par diskurznim označevalcem, ki so usmerjeni nazaj, najpogosteje ja, mhm, aha, in vsem diskurznim označevalcem v položaju opornega signala.

Govorec lahko uporabi ne? na koncu izjave, o kateri pričakuje od sogovornika potrditev (ali zavrnitev) vsebine ali strinjanje z vsebino, torej odgovor ali odziv. V teh primerih lahko sledi menjavanje vlog, v odzivu sogovornika pa je zelo pogosto uporabljen diskurzni označevalec ja (oz. ne pri zanikanju), pa tudi mhm ali besedi tako, tudi ipd.:


[HOpi34.trs]

Api3 [prekr]: mhm sva midva [1]

Api3: [2] dopoldan govorila[+SOGOVORNIK_ja] ne?

K19: ja pol[*] sem[sn] pa jaz bil leteč

[TAso07.trs]

Aso9 [prekr]: eee letošnjega [1]

Aso9: [2] leta ne?

Aso9: ja

K6: letošnjega leta ja


[TAso16.trs]

K11 [prekr]: tako[t/a:k] da teoretično lahko[l/a:xkO] imaš[m/a:S] [1]

K11: [2] celo

K11: pred potovanjem eee vse plačano [1]

K11 [prekr]: [2] če imaš[m/a:S] eee manj obrokov ne?

Aso1 [prekr]: tudi tudi tudi tudi je to možno

Aso1: tako imate[m/a:tE] prav


[TAso09.trs]

K8 [prekr]: bom potem ...

Aso3 [prekr]: pa najboljše da [1]

Aso3: [2] nadaljujeta ne?

K8: ja


Lahko pa se sogovornik odzove samo z opornim signalom (ja, tako ipd.):


[TAso06.trs]

Aso6 [prekr]: se pravi[pr/a:U] [1]

Aso6: [2] sedemnajst petinpetdeset iz Ljubljane

Aso6: [SOGOVORNIK_mhm]

Aso6: sedmi šesti ne?

Aso6: devetnajst[+SOGOVORNIK_tako][+SOGOVORNIK_ja] dvajset ste v Frankufrt


[HOpi36.trs]

Api2: eee smo rekli devetnajstega ne?

Api2: na[+SOGOVORNIK_ja] dvajseti četrti enkrat enoposteljna katero ime ?

Še več pa je rab, kjer govorec z ne? ne išče pritrditve ali strinjanja, pač pa samo preverja, ali še ima sogovorčevo pozornost in ali ga sogovornik razume. Dejansko govorec z ne? vzdržuje stik s sogovornikom, ga spodbuja k aktivnemu sodelovanju, preverja, ali je še zanimiv za sogovornika oz. verjetno tudi skuša ostati zanimiv za sogovornika, saj ne? na podoben način kot premori v govoru poudari predhodno vsebino. Sogovornik se tudi pri teh rabah pogosto, pa vseeno ne tako dosledno kot pri zgornjih primerih, odzove, vendar pogosteje z opornim signalom (ja, mhm, aha) kot s prevzemom vloge:


[TPma49.trs]

Ama1 [prekr]: čakajte[tS/a:ktE] vam takoj [1]

Ama1: [2] povedala[pOv/e:dla]

Ama1: glejte lani ne?

Ama1: eee[+SOGOVORNIK_ja] je bil tale ma() mali splav do trideset oseb ne?

Ama1: [SOGOVORNIK_aha]


[TPma37.trs]

Ama1: eee veste kje[k/i:] je to

Ama1: to se peljete po "partizanski cesti" ne?

Ama1: v[+SOGOVORNIK_mhm] Melje kar[k\@r]

[HOha61.trs]

K38: zdaj[zd/a:][IZG] pa [.] jaz še zdaj[z/a:j] točnega datuma ne vem ne?

K38: [SOGOVORNIK_ja]

K38: in eee [.] me zanima če lahko preko #interneta# jaz to rezerviram ?


[TAko47.trs]

Ako1: je zelo varna država mi smo imeli[m/e:li] zdaj[z/a:j][+SOGOVORNIK_ja] dosti[d/o:st] dosti[d/o:st] gostov

Ako1: ki[+SOGOVORNIK_ja] so sicer potovali tako[t/a:k] da smo imeli[m/e:li] i() let iz Budimpešte ne?

Ako1: [SOGOVORNIK_ja]

Ako1: in so bli vsi[fs/i:] zadovoljni


[HOpi24.trs]

K17: eee kaj pa te[*] potem še kakšne recimo kaka večerja posebna ?

Api1: je možno je odprta restavracija do desete ure to pa posebej potem še plačate ne?

Api1: [SOGOVORNIK_mhm][SOGOVORNIK_mhm]


Če npr. govorec rabi ne? pogosto, na koncu vsake ali vsake druge izjave, se sogovornik praviloma ne odzove na vsak ne?:


[TPma42.trs]

Ama1: če zdaj[z/a:j] govorim konkretno o Mariboru ne?

Ama1: to področje je zelo[zl/o:] znano po vinih in to tudi tržimo največ ne?

Ama1: [SOGOVORNIK_mhm] eee in sicer oni znajo res v redu[r/e:ju] pripravit imajo[m/a:jO] pa tudi #izbiro# kaj bi oni želeli


[TAne77.trs]

Ane2: [angl-]mobil home[-angl] ne? taki tudi tisti ne? to

Ane2: ampak to je že bolj kot taki apartmajčki ne?

Ane2: to[IZG]

Ane2: ali[al] pa recimo ti avtodomovi ne?

Ane2: eee to potem ko greste recimo to je za Skandinavijo no [.] to je značilno ne?

K44: ja aha to nudite ?


Lahko pa pri teh rabah sogovornik sicer prevzame vlogo, vendar se ne odziva posebej na diskurzni označevalec ne? ali vsebino, ki jo ta poudarja, saj je svojo pozornost in zainteresiranost za diskurz pokazal že s prevzemom vloge:






[TPma49.trs]

Ama1: eee[+SOGOVORNIK_ja] je pa tako[t/a:k] da[:] eee pač še bolj dobro da se najavi pač malo prej [1]

Ama1 [prekr]: [2] ne?

K3 [prekr]: eee [1]

K3: [2] pa veste mogoče povedat[pOv/e:jat] jaz to[*] mislim[*] neko slavje prirejat [NERAZUMLJIVO] za moj doktorat in po()


[HOha61.trs]

Aha3: eee prenočišče ?

K38: ja prenočišče ja sobo

K38: eee oziroma apartma ne? tudi če imate[m/a:tE] mogoče

Aha3: prvi teden v juliju

Aha3: potem je to[+SOGOVORNIK_ja] od prvega sedmega dalje

[TAko43.trs]

K29: eee če imate[m/a:tE] kake take bolj poceni karte ne?

K29: ali[al] imate[m/a:tE] ...

Ako1: samo za letalske vst() eee karte[+SOGOVORNIK_ja] ali[al] za aranžma ?


Primeri, kjer se sogovornik sploh ne odzove na diskurzni označevalec ne?, ne z opornim signalom ne s prevzemom vloge, so redki:


[TAko40.trs]

Ako2: ja da vam ga pošljem da si malo pogledate ne? ker jaz zdaj[z/a:j] malo skačem iz ene strani na drugo

Ako2: eee če želite rade volje in noter imate[m/a:tE] potem tudi dva direktna telefona odgovornih oseb ker[k@r] rezervacije grejo potem tako[t/a:k] in tako[t/a:k]


[TAso11.trs]

Aso7: eee zdaj[z/a:j] takole[tk/o:lE] ne? imam[m/a:m] tukaj[t/u:ki] ene zelo[zl/o:] dobre apartmaje

Aso7: sedemdnevni apartma na najem apartmaja


[TPma42.trs]

Ama1: ja poglejte zdaj[z/a:j] vam lahko kar[k\@r] na eee okvirno mogoče malo povem ne?

Ama1: eee v bistvu če imamo recimo mi vodenje po Mariboru eee včasih vključe() vključimo tudi degustacije eee vinske v vinski kleti Vinagovi


V korpusu je večina teh primerov iz dveh pogovorov, kjer klicatelja nasploh redko uporabljata oporne signale, povprečno število opornih signalov glede na število izjav v teh pogovorih je namreč 1 oporni signal na 7 izjav (natančneje 7,3 pri enem in 7,6 pri drugem pogovoru), medtem ko je statistično povprečje za celoten korpus 1 oporni signal na 4 izjave.


Pragmatična vloga ne?, da poziva sogovornika k aktivnemu sodelovanju v diskurzu, omogoča tudi rabo ne? v primerih, ko govorec ne najde primernih izrazov za dokončanje izjave:


[HOpi78.trs]

K30: aha aha [1]

K30 [prekr]: [2] to je tisti[+NERAZUMLJIVO] ...

Api2 [prekr]: eee tele[*] [1]

Api2: [2] papirji ne? veliki[v\@lki] ko[*] so

K30: ja jaja





ali iz kakega drugega razloga ne dokonča izjave:


[TAso16.trs]

Aso1: sicer glejte[l*E:jtE] [.] to je [.] saj veste da so pri[p@r] pri[p@r] [angl-]magic life[IZG][-angl][+SMEH] mislim pri[p@r] [angl-]magic lifih[-angl] pri[p@r] teh [angl-]all inclusivih[-angl][+SOGOVORNIK_jaja] je[+SOGOVORNIK_jaja] tudi[t/u:t] ljudi[lud/i:] odvisno kako[k\ak] ne? [+SOGOVORNIK_jaja]

K11: kako[k/a:k] naletiš ja[+SMEHsogo]


ali navede samo en element iz daljšega niza:


[TAso16.trs]

Aso1: kar se[:] tiče[:] ponudbe [.] no prehrane pa tega ne?

Aso1: mislim nikoli[nik/o:l] ni tako[t/a:k] [.] stoprocentno [.] kakor[k/o:k@r] bi si človek želel no


[TPma42.trs]

Ama1: pa tudi[t/u:ji] zaradi tega ker eee recimo imajo[m/a:jO] potem tudi možnost kopanja in vsega ne?

Ama1: welness[+angl] program je tam na na takem nivoju res


6.2.3.2Položaj ne? v izjavi


Diskurzni označevalec ne? je rabljen v 227 izjavah, od tega 185-krat kot zadnja beseda v izjavi. Položaj na začetnem mestu v izjavi je redek (8-krat). Večinoma se tudi tu ne? nanaša na vsebino prejšnje izjave istega govorca, le da je vmes naredil kratek premor:


[HOpi34.trs]

K19: [2] in #tujcev# ne? to se pravi Nemariborčanov[+SOGOVORNIK_ja] bi bilo[bl/o:] recimo[r*E:tsmO] tam nekje do petnajst [.] ne?

K19: [SOGOVORNIK_aha]

K19: ne? tako[t/a:k] da zdaj[z/a:j] [1]

K19 [prekr]: [2] kaj mi lahko vi ...

[HOpi34.trs]

Api3: ker[k@r] v edino v tem prostoru [.] edino v tej sejni sobi [.] je možno je različna možnost postavitev miz

K19 [prekr]: aha aha drugo je pa fiksno ?

Api3 [prekr]: ne? tako da lahko ali[al] šolsko ali[al]] [1]

Api3: [2] v obliki ~U ali [1]

Api3 [prekr]: [2]kakorkoli ja

K19 [prekr]: aha aha o super [1]


[TAko40.trs]

Ako2: eee[:] tudi[t/u:t] strani eee Slovencev

Ako2: ne? jaz #vidim# jaz sicer sama še nisem[n/i:sn] imela[m/e:la] primerov v Mariboru pač da bi kdo prijavil[prij/a:vu] kličejo ogromno


48-krat se rabi ne? sredi izjave, s tem da je od tega 11-krat na sredi in na koncu iste izjave. Tudi ko je uporabljen sredi izjave, pa večinoma ločuje skladenjsko zaokrožene enote, npr.:


[HOpi34.trs]

K19: potem pa poiščejo "piramido" ne?[NERAZUMLJIVO-]to je[-NERAZUMLJIVO] aha






[TAso11.trs]

Aso7: eee zdaj[z/a:j] takole[tk/o:lE] ne? imam[m/a:m] tukaj[t/u:ki] ene zelo[zl/o:] dobre apartmaje


[TPma23.trs]

Ama: to se vse tam dogovori potem ne? [NERAZUMLJIVO-]v bistvu veste[-NERAZUMLJIVO] ker verjetno odvisno eeem ...


[TPma42.trs]

Ama1: eee kaj[*] se tega tiče ne? eee cerkva in podobno


Le v par primerih je ne? rabljen tako, da razbije skladenjsko zaokroženo enoto:


[TAko47.trs]

K25: no sicer lahko že prej ne? kakšen termin ker v "rdečo[*] morje" se tako[t/a:k] lahko zdaj[z/a:j] kopamo že ne?


[TPma42.trs]

Ama1: jaz vam lahko eee čim več tega materiala ne? tudi pošljem da ...


[HOha61.trs]

K38: eee oziroma apartma ne? tudi če imate[m/a:tE] mogoče


7-krat je ne? označen kot samostojna izjava:


[TAso11.trs]

Aso7: eee da[+SOGOVORNIK_mhm] se največkrat eee splača kar[k\@r] vzet[*] hotel

Aso7: ne?

Aso7: ker mislim[m/i:sl@m] da glede razlike v samem[s/a:mu][IZG] najemu in potem v polpenzionu je tako[t/o:k] majhna da se v bistvu splača vzet[*] kakšen polpenzion v enem[*E:nmu] od hotelov




Slika 6: Položaj diskurznega označevalca ne? v izjavi.







6.2.3.3Sopojavljanje ne? z drugimi diskurznimi označevalci


V isti izjavi se ne? in variante običajno ne sopojavljajo z drugimi diskurznimi označevalci, tudi dveh ali več ne? zaporedoma govorci običajno ne uporabljajo, če že, pa z daljšim premorom vmes.

Analiza pragmatičnih vlog pa je pokazala močno povezanost ne? z diskurznimi označevalci ja, mhm, aha in ostalimi besedami v vlogi opornih signalov, tako da se na ne? v govoru govorca sogovornik pogosto odzove ali tako, da prevzame vlogo, ki jo lahko začne s katerim od naštetih diskurznih označevalcev, ali samo z opornim signalom.



6.2.4No


No bi lahko označili kot enega najbolj tipičnih diskurznih označevalcev in se rabi vedno samo v tej vlogi. Od propozicijske vsebine je ločen bolj kot večina ostalih diskurznih označevalcev.

Tradicionalni jezikovni pripomočki razvrščajo no različno: SSKJ ga klasificira kot medmet, ki lahko izraža spodbudo, poziv; zadovoljnost pri ugotovitvi; ne popolnoma prostovoljno privolitev; nejevoljo, zavrnitev. SP 2001 nasprotno uvrsti no med členke, in sicer spodbujalne, soglašalne in čustvovalne, slovnica (Toporišič, 2000) pa navaja primer z no samo med navezovalnimi členki. (Smolej, 2001) no kot členka ne obravnava posebej, v (Smolej, 2004a) pa ga navede med primeri delilnih signalov. (Schlamberger Brezar, 1998) uvrsti no med pragmatične povezovalce, ki zaznamujejo zgradbo konverzacije in so retroaktivni, in sicer no izraža zadržek do izrečenega.

No se v korpusu Turdis-1 rabi dokaj redko v primerjavi z drugimi diskurznimi označevalci: 51-krat v 47 izjavah, kar pomeni 0,34 % vseh besed v korpusu in v približno 2 % izjav.


6.2.4.1Pragmatične vloge no


Rabe diskurznega označevalca no so precej različne, zato si pri analizi pomagam tudi s tem, kdaj no ni rabljen. Morda je razlog za zelo različne rabe tudi skoraj povsem prazen predstavni pomen tega izraza.

No na primer v korpusu očitno ni preveč primeren za odziv na diskurzni označevalec ne? (v korpusu samo enkrat):


[TPma42.trs]

Ama1: eee v glavnem ne vem kader mi je tam tudi[t/u:ji] zelo[zl/o:] všeč in [.] meni[m*E:n] se zdi da je prava stvar za takšne[+SOGOVORNIK_mhm] goste ne?

K39: no pa sploh zdaj[zd\@j] v okolici Maribora oziroma sploh v Mariboru eden[*E:dn] izmed takšnih edinih naslovov ki mogoče res malo[m/a:l] [.] ki ima[m/a:] vso to[+SOGOVORNIK_ja] ponudbo pod eno streho ne?


Ni rabljen kot oporni signal (tudi če je izgovorjen sam, ga čutimo kot znak, da sogovornik želi nekaj povedati, ne kot potrditev pozornosti in razumevanja):


[HOpi34.trs]

K19: mi so mi [1]

K19 [prekr]: [2] ga pa kolegi [1]

Api3 [prekr]: no ...

K19: [2] priporočili[pripOr/o:tSli] ko so nekaj v tem stilu že delali[+SOGOVORNIK_tako]


in nikoli ni rabljen v uvodnih izjavah. Zato sklepam, da ne sodeluje pri razvijanju odnosa med sogovornikoma.

Pač pa lahko ima no (vsaj kadar je rabljen v začetku izjave, kar je v korpusu več kot polovica rab) močno povezovalno vlogo v smeri nazaj. Pri tem je na nek način nasprotni pol diskurznega označevalca ja: za tega sem ugotavljala, da zagotavlja pozitivno vzdušje v diskurzu, ker daje harmoničen vtis strinjanja med sogovornikoma (prim. 6.2.1.1). No ne izraža strinjanja in tudi ne uvaja izjav, v katerih bi govorec pritrjeval sogovorniku. O njegovi izrazito povezovalni vlogi sklepam, ker pogosto povezuje zaporedni izjavi, ki vsebinsko nista posebej trdno povezani:


[TAko47.trs]

Ako1 [prekr]: potovanje

K25 [prekr]: potovanje

Ako1: ja samo malo[+SOGOVORNIK_ja]

K25: eee no pol[*] pa bom še o tistem tudi mogoče če imate[m/a:tE] kake variante tam Sharm El Sheikh pa pa [1]

K25 [prekr]: [2] Hurgada pa [1]

Ako1 [prekr]: ja ja sa(j)

K25: [2] to ne?


[TAko47.trs]

Ako1: da se ne vozite ne vem kam

Ako1: no zdaj[z/a:j] pa mi je[+SOGOVORNIK_ja] Egipt[+SOGOVORNIK_ja] pobegnil[pOb/e:gnO]

[TISINA]


[TAso16.trs]

Aso1 [prekr]: poznate ?

K11 [prekr]: tega poznam ja

Aso1 [prekr]: no [1]

K11 [prekr]: ja

Aso1: [2] ta je [.] po mojem vseeno[vsE*E:n] na tem področju še eden[*E:dn][SOGOVORNIK_mhm] [.] tako[t/a:k] no [.] najboljših[+SMEH][+SOGOVORNIK_mhm] eee


[TAko40.trs]

Ako2 [prekr]: Postojna

K23 [prekr]: Postojna

Ako2: okej [ime]

K23 [prekr]: no najlepša hvala

Ako2 [prekr]: imate[m/a:tE] to jutri doma

Ako2: kakorkoli[k/a:k@rk/o:li] pa se mogoče pol[*] čujeva ne?


[TAko47.trs]

Ako1: v glavnem jaz vam to toplo priporočam ker ni tolikokrat[t/o:lkOkrat][+SOGOVORNIK_mhm] ko[*] Egipt Egipt [.] pravzaprav[+SOGOVORNIK_ja] imamo[m/a:mO] dostikrat

Ako1: v[f] taki ali[+SOGOVORNIK_jaja] drugačni varianti ne?

Ako1: to[+SOGOVORNIK_mhm] pa zdaj eee ...

Ako1: no jaz osebno bi se zdaj za to odločila[Odl/o:tSla] vi pa po[+SOGOVORNIK_jaja] svoje


Druga izrazita lastnost diskurznega označevalca no je, da lahko izraža odnos govorca do predhodne vsebine. Rabi se lahko na primer, ko želi govorec izraziti zadržanost do vsebine sogovornikove predhodne izjave ali celo nasprotovanje:


[TPma42.trs]

Ama1: jaz vam lahko eee čim več tega materiala ne? tudi pošljem da ...

K39: no zdaj[z\aj] ni treba pretiravat[*]

K39: mislite[+SOGOVORNIK_ja] tudi[t/u:t] še na poštnino ne? bom takoj dodala zraven


[TAko43.trs]

Ako1: [2] tega v potnem listu ne boste imeli[m/e:li] ampak jaz vam o tem ne morem zdaj[z/a:j] govorit[*] ker[k][IZG] uradnega[*] nimam pojma kaj bo

K29: aha no ker oni so rekli po radiu [1]

K29 [prekr]: [2] da da bomo rabili[r/a:bli][*] ...


Pa še v drugih primerih, kjer vrsta odnosa do vsebine ni tako jasna, na primer:







[HOha50.trs]

K39 [prekr]: v redu

Aha1 [prekr]: ja že pri nas bi [1]

Aha1: [2] bil problem pri pošiljanju [SMEH]

K39: no no no no v redu potem smo pa na enaki [.] stopnji


Z zmožnostjo izražanja odnosa do predhodne vsebine lahko razlagamo tudi rabe no v primerih, ko se govorec ne more spomniti (takoj) kakšne besede – takih primerov je v korpusu nekaj, npr.:


[HOpi34.trs]

K19: v tem eee smo rekli eee konferenčna dvorana ne? ?

K19: ne[+SOGOVORNIK_ja] najmanjša [.] [1]

K19 [prekr]: [2] no tale najmanjša dvora() [.] [1]

Api3 [prekr]: eee sejna dvorana

K19: [2] sejna dvorana


[TAso16.trs]

Aso1: jo kako[k/a:k] mi je v sekundi mi je iz glave [.] padel[p/a:dO] tisti[t/i:s][IZG] trenutek ko sem vam hotela[x*O:tla] razlagat [.] [TIHO-]začet čakajte[tS/a:ktE] da ga najdem[-TIHO] [.]

Aso1: eee eeen oziroma ne eee ta Bonaca no

Aso1: [SOGOVORNIK_mhm]

Aso1: hotel Bonaca ima[m/a:][angl-]all inclusive[-angl]


Zelo podobna tem rabam je zveza no s kazalnim zaimkom: tak no. Tudi ta je med drugim lahko znak, da govorec ne najde takoj ustreznih besed, čeprav bi mu lahko hkrati pripisali tudi izražanje odnosa govorca do vsebine (odvisno tudi od intonacije):


[TAso16.trs]

Aso1 [prekr]: tudi[t/u:t] ta je zelo v redu mislim[+NERAZUMLJIVO]

K11 [prekr]: mhm tega poznam

Aso1 [prekr]: poznate ?

K11 [prekr]: tega poznam ja

Aso1 [prekr]: no [1]

K11 [prekr]: ja

Aso1: [2] ta je [.] po mojem vseeno[vsE*E:n] na tem področju še eden[*E:dn][SOGOVORNIK_mhm] [.] tako[t/a:k] no [.] najboljših[+SMEH][+SOGOVORNIK_mhm] eee


[TPma42.trs]

Ama1: večinoma[+SOGOVORNIK_mhm] se pa tako[t/a:k] odločijo za čisto[tS/i:st]ne vem vzorec vina samo ne?

Ama1: da[+SOGOVORNIK_dobro] jih malo počasti[+tujez] ampak lahko pa se to naredi[nard/i:] tudi malo bolj tako[t/a:k] no

Ama1: malo bolj [1]

Ama1 [prekr]: [2] zahtevno

K39 [prekr]: se pravi ..


Ali tudi obratno, v zvezi no tako/tko:


[TAso16.trs]

Aso1: kako[k/o:k] vam naj rečem no tako[tk/o:]

Aso1: eeen eee nižje tak depandansni stil ali[al] pa španski stil ve() veste[+SOGOVORNIK_mhm] teh hišk ne?


Enkrat je no rabljen v zvezi z ja in izražata zadržano mnenje govorca o stvari, na katero se navezujeta:





[TAko47.trs]

Ako1: ta je možnost [1]

Ako1 [prekr]: [2] doplačila [1]

K25 [prekr]: ja no

Ako1: [2] za polpenzion je[IZG] štiriindvajset[St\@rndv/a:jz] devetsto šestdeset


Tudi v rabah na koncu izjave izraža no odnos govorca do vsebine te izjave in je usmerjen nazaj, v predhodni diskurz, ne naprej, kot je običajno za druge diskurzne označevalce, ki se rabijo na koncu izjave in imajo praviloma rastočo intonacijo.


[TAso11.trs]

K7: eee Pre() ja ~P

Aso7: ~P ~R ~E ~V ~EK

Aso7: pa naslov ?

K7: [priimek]

Aso7: [priimek] aha

Aso7: [SOGOVORNIK_mhm]

Aso7: se opravičujem no

Aso7: tule[tl*E:] imam[m/a:m] drenje[dr*E:nE][*][+NERAZUMLJIVO] in se zelo[zl/o:] slabo[sl/a:p] sliši[sl/i:S]


[TAne77.trs]

K44: eee ja[IZG] nekje konec avgusta

[TISINA]

K44: tako drugo polovico avgusta no

[TISINA]

Ane2: zdaj[z/a:j][*] spet odvisno kje[k/i:] boste ga prevzeli pa kaj ker so različne te najemne tam nekje od ...


[TAso16.trs]

Aso1: sicer je dražja ampak so res mislim res so zadovoljni s tem klubom njihovim no [+SOGOVORNIK_mhm] [SOGOVORNIK_mhm]

Aso1: eeemmmeee kaj[k/a:] pa vem


V okviru teh vlog lahko no poudari predhodno vsebino:


[TAso11.trs]

Aso7: eeem mogoče tudi[t/u:t] nekaj[n/e:ki] skal [.] skalnate ter eee nekaj[n/e:ki] mivke je tudi tam

Aso7: tako[tk/o:] da plaže so res različne in čudovite no

Aso7: tako[tk/o:] jaz vam tukaj[t/u:ki] priporočam ta hotel [.] sicer je samo me() mestu in ima eee majhno plažo kakšnih [.] eee sto metrov stran ali[al] pa do dvesto metrov stran od hotela


6.2.4.2Položaj no v izjavi


No je v korpusu 23-krat rabljen na začetku izjave:


[TAso06.trs]

K4 [prekr]: no saj ni [.] saj ni potrebno


5-krat je označen kot samostojna izjava:


[HOpi34.trs]

K19: mi so mi [1]

K19 [prekr]: [2] ga pa kolegi [1]

Api3 [prekr]: no ...

K19: [2] priporočili[pripOr/o:tSli] ko so nekaj v tem stilu že delali[+SOGOVORNIK_tako]


8-krat na koncu izjave:


[TPma42.trs]

K39: so mogoče kje kakšne take namestitve v kakšnih teh dvorcih in podobno ? ker[k@r] to bi bil njihov rang no


3-krat skupaj z aha no na začetku:


[TAko47.trs]

K25 [prekr]: aha no saj bom jaz to malo še na internetu pogledala


4-krat skupaj z eee no (od tega 2-krat eee eee no) na začetku izjave:


[TAko47.trs]

K25: eee eee no ali pa ...


3-krat sredi izjave, vendar ob skladenjskih mejah:


[TAne77.trs]

Ane2: eee to potem ko greste recimo to je za Skandinavijo no [.] to je značilno ne?


[TAne77.trs]

K44: no saj okvirno mi bom se jaz potem tudi[t/u:t] oglasila[Ogl/a:sla] no[NERAZUMLJIVO-]če bi[-NERAZUMLJIVO] ...


[TPma37.trs]

Ama1: eee tisto k() v bistvu se vi[:] no če se boste nonstop[*] desno držali ne? tiste boste[+SOGOVORNIK_mhm] videli[v/i:dli] za ribo se boste vozili[v/o:zli]


4-krat v zvezi tak no oz. no t(a)ko oz. no ja.

Razporeditev v odstotkih prikazuje slika 7.


Slika 7: Položaj diskurznega označevalca no v izjavi.





6.2.4.3Sopojavljanje no z drugimi diskurznimi označevalci


V analizi smo že videli, da lahko v nekaterih rabah nastopa skupaj s kazalnim zaimkom tako ali skupaj z ja ali je ponovljen dva- ali večkrat zaporedoma, odvisno od tega, kaj želi govorec izraziti.

Sicer pa se no le redko rabi skupaj z drugimi diskurznimi označevalci. Skupaj z eee je v korpusu 4-krat – kot prvi ali zadnji:


[TAko47.trs]

K25: eee eee no ali pa ...


skupaj z aha 3-krat – za njim:


[TAko47.trs]

K25 [prekr]: aha no saj bom jaz to malo še na internetu pogledala


skupaj z zdaj 2-krat – pred njim:


[TPma42.trs]

K39: no zdaj[z\aj] ni treba pretiravat[*]



6.2.5Eee, mmm ...


Eee (s tem označujem zavlečen polglasnik) in njegove variante niso tipični diskurzni označevalci.

Tradicionalno so eee, mmm in podobni »izrazi« imenovani mašila in niso posebej obravnavani: v slovnici (Toporišič, 2000) in slovarjih (SSKJ, SP2001) niso zabeleženi. Raziskovalci se, ko prepisujejo spontani govor, odločajo za nekoliko različne zapise teh izrazov: najpogostejši je verjetno narobe obrnjen e, ki označuje polglasnik, zaradi omejitve na nabor znakov, ki jih vključuje ASCII, v pričujoči nalogi uporabljam eee, nekateri avtorji uporabljajo tudi dva ee (npr. Krajnc, 2005). Posebne obravnave tega izraza pri drugih avtorjih ne zasledim, edino (Kranjc, 1999: 62) za vlogo mašila predlaga termin zapolnjevalec vrzeli in navaja, da lahko poleg medmetov to vlogo opravljajo tudi kompleksni izreki. Ker je eee značilen element spontanega govora, mu tukaj vseeno posvetim nekaj več pozornosti in ugotavljam, da ni njegova edina vloga zapolnjevanje vrzeli.

Čeprav je varianta eee najpogostejša, so dejanske glasovne uresničitve v korpusu opisane še kot: mmm, nnn, eeen, eeennneee, eeemmmeee, kar naj bi kolikor mogoče natančno opisalo dejansko izgovorjavo, ki je lahko pri tem glasovnem nizu zelo variabilna. Frekventnost eee in glasovnih variant je naslednja:


eee 533

mmm 14

nnn 7

eeeh 2

eeef 1

eeen 1

eeennneee 1

eeemmmeee 1

SKUPAJ 560


Pogostost rabe eee v korpusu je torej približno enaka kot pogostost rabe ja in znaša dobre 3 % vseh besed. V nadaljevanju vse variante obravnavam kot eee, s pragmatičnega stališča posebej obravnavam edino na eeef in eeeh.


6.2.5.1Pragmatične vloge eee


Eee lahko interpretiramo (tudi) kot znak, da želi govorec (še) nekaj povedati, zato ga nikoli ne štejem za oporni signal. Eee je tako pomemben instrument menjavanja vlog. Sogovornik z eee nakaže govorcu, da je pripravljen na prevzem vloge:


[TPma65.trs]

K33: aha no [1]

K33 [prekr]: [2] zanima me [1]

Ama2 [prekr]: prosim[+NERAZUMLJIVO]

K33: [2] območje tam blizu Pohorja če bi bila[bl/a:] kaka kolesarska pot tam skozi ali[al] pa [1]

K33 [prekr]: [2] preko ali pa kaj [1]

Ama2 [prekr]: eee ...

K33: [2] takega

Ama2: ja glejte mi imamo[m/a:mO] eee kolesarske poti oziroma karto eee[+SOGOVORNIK_ja] z naslovom[IZG] "kolesarjenje med Pohorjem in Muro"


oziroma da bi rad prevzel vlogo (vljuden govorec mu to omogoči, s tem da prej zaključi trenutno izjavo):


[TAso07.trs]

Aso9: za štirinajst[St@rn/a:jz][+SOGOVORNIK_ja] dni ?

Aso9 [prekr]: čakajte[tS/a:ktE] si moram pa jaz [1]

K6 [prekr]: eee ...

Aso9: [2] malo[m/a:l] zapisat[*]

K6: ponudbe sem že gledal nekje od ene() ja od deset do štr() ja štirinajst[St@rn/a:jz] dni


oziroma ko je že prevzel vlogo, jo uvede z eee:


[HOha61.trs]

K38: jaz bi vprašala če še imate[m/a:tE] kaj prostega eee[N-]v[-N] prvi teden[t/e:dn] v juliju ko "festival Lent" poteka

Aha3: eee prenočišče ?


Eee sredi izjave in na koncu izjave (ki je pogosto nedokončana izjava) je znak govorca, da še ni povedal vsega, kar je nameraval:


[TAko40.trs]

Ako2: tako[t/a:k] da to je v štartu eee sila komplicirana zadeva ko se enkrat odločiš pač to tako[t/a:k] je ne?


Sogovornik lahko v teh primerih izkoristi mesto z eee za kratko pripombo:


[HOha50.trs]

Aha1: zdaj[z/a:j] v tem eee [1]

Aha1 [prekr]: [2] ceniku ni je pa[:] [1]

K39 [prekr]: ne [.] do(bro)

Aha1: [2] vam bom pa zapisala še dostop do interneta kje lahko si to [1]

Aha1 [prekr]: [2] pogledajo


Sicer pa v korpusu sogovornik večinoma vljudno pomaga govorcu, npr. iskati ustrezne izraze, zlasti če traja eee nekoliko dlje:


[TAso11.trs]

Aso7: eee zdaj mi boste malo[m/a:U] povedal[*] eee kje ste že kaj[k\@j] bil[*] tako[tk/o:] da [.] vam znam ponudit[pOn/u:d@t] tisto kar[*] niste bil[*]

Aso7 [prekr]: halo ?

K7 [prekr]: nimam [1]

K7: [2] kakšnih eee ...

Aso7: nimate želj aha


ali da sogovorniku vedeti, da ni treba dokončati izjave, da brez tega razume, kaj mu želi sporočiti:


[TAne77.trs]

K44: eee ko ne vem vzameš samo[s/a:m] šotor in [1]

K44 [prekr]: [2] [.] potem ne vem tam nudijo pač eee ...

Ane2 [prekr]: ja ne ne teh ...


to lahko stori tudi samo z opornim signalom:





[TAne77.trs]

Ane2: ne to ni orga() to v lastni reži() mislim v lastni režiji vi greste z letalom recimo kaj jaz vem [.] eee tam v Los Angeles prevzamete ta avtodom pa potem greste skozi pa ga zopet vrnete nekje na letališču oziroma pri tistem ponudniku ko[*] je ne?

Ane2: ti ko eee[+SOGOVORNIK_aha] [.] ne?


Ali pa tiho čaka, če ne zna pomagati:


[TAne77.trs]

Ane2: tu[+SOGOVORNIK_mhm] recimo edino na Hrvaškem so bo() bolj tisti eee kaj jaz vem

Ane2: [TIHO-]kako[k/a:k] se eee[-TIHO]

Ane2: [angl-]mobil home[-angl] ne? taki tudi tisti ne? to

Ane2: ampak to je že bolj kot taki apartmajčki ne?


Sredi izjave eee ni vedno rabljen kjer koli, pač pa pogosto spremlja nepričakovan potek izjave, in sicer:



[TAko43.trs]

Ako1 [prekr]: zdaj[z/a:j] edino če hočete [1]

K29 [prekr]: [NERAZUMLJIVO-]no zdaj[z/a:j] pa zanima k()[-NERAZUMLJIVO] ...

Ako1: [2] kaj pove() eee več vedet[*] če slučajno vejo[*] na ministrstvu za zunanje zadeve v Ljubljani[+SOGOVORNIK_aha]


[TAne77.trs]

K44: eee ne vem [NERAZUMLJIVO-]vem da so ti ka() [-NERAZUMLJIVO] eee vem da so ti kampi na primer v Korzika Sicilija



[HOpi78.trs]

Api2: eeef se pravi cena to bi za g() kdaj bi to približno[IZG] po() eee potrebovali ?



[TAko40.trs]

K23: ja večinoma ali[a] pa če imate[m/a:stE] tudi vi kaj[k\Ej] z olimpijskem komitejem[kOmit/e:t@m] eee kakšne[k\@SnE] karte ?


Eee je pogosto rabljen v začetnem delu izjave. Poglejmo natančneje še te rabe.

V uvodnih segmentih pogovora je rabljen zelo pogosto, največkrat v izjavah, kjer uvaja prvi tematski sklop ali natančneje:



[HOpi34.trs]

Api3: recepcija "hotela piramida" dober dan [1]

Api3 [prekr]: [2] [NERAZUMLJIVO-]izvolite[-NERAZUMLJIVO]

K19 [prekr]: dober dan [1]

K19: [2] [ime] [priimek] s @FERI Maribor tukaj

Api3: izvolite

K19: eee jaz bi pa se pozanimal za tale poslovni klub ko[*] imate[m/a:stE] [1]

K19 [prekr]: [2] zdaj[z/a:j] na novo




[HOpi78.trs]

Api2: "hotel piramida"

K30: dober dan [ime] [priimek] pri[p@r] telefonu

K30 [prekr]: jaz[j\@s] imam[m/a:m] [1]

Api2 [prekr]: dober dan

K30: [2] pa eno vprašanje in sicer

K30: eee študenti organiziramo en[*] tak[*] letni sestanek oziroma srečanje


Lahko si razlagamo, da klicatelj začne z mašilom, ker je v zadregi, kako začeti: je namreč pred odgovorno nalogo, da na kratko pojasni razlog, zakaj želi začeti pogovor. Poleg tega je v govorni situaciji, ki je morda ni navajen.

Vendar je možna še druga razlaga. Klicatelj prvi tematski sklop nikoli ne začne na primer tako:


Ama1: Matic prosim

K3: eee dober dan

K3: morda veste kaj o vožnjo s splavom po Mari() po Dravi,


pač pa prvi tematski sklop vedno uvede z zanima me, rad bi vedel, jaz imam pa eno vprašanje... Morda ima v tem napovedovalnem nizu tudi eee vlogo, da pomaga vzpostaviti prehod od uvodnih pozdravov k jedrnemu delu pogovora. Podobno namreč eee tudi v jedrnem delu pogovora pogosto uvaja izjave, v katerih govorec uvede nove elemente tematskega sklop/nov tematski sklop, spremeni naklon ipd. Primeri:



[HOpi34.trs]

Api3 [prekr]: tako da bi [1]

K19 [prekr]: eee ...

Api3: [2] najbolj aktualna bila[bl/a:] ta sejna soba ne?

K19: sejna soba

K19: mhm[+SOGOVORNIK_ja]

K19: eee zdaj[z/a:j] mi pa povejte kakšne[k/a:SnE][IZG] imate[m/a:tE] pa vi kaj kapacitete ?



[HOha50.trs]

Aha1: zdaj[z/a:] tale ponudba že vključuje[fklutS/u:jE] v bistvu posebno ceno

Aha1: eee zdaj[z/a:j] koliko oseb bi bilo ?



[HOha61.trs]

K38: zdaj[zd/a:][IZG] pa jaz še zdaj[z/a:j] točnega datuma ne vem ne?

K38: [SOGOVORNIK_ja]

K38: in eee me zanima če lahko preko #interneta# jaz to rezerviram ?

Aha3: eee tako bom rekla gospa








[TAko40.trs]

Ako2: sicer jaz sem lahko tu vezni člen ni noben problem da se tudi[t/u:t] tu pri[p@r] meni vse naredit[nard/i:t] samo[*] jaz se potem obračam na naš oddelek ki dela olimpijske igre

Ako2: [SOGOVORNIK_ja]

Ako2 [prekr]: kaj bova[m/a:] rekla [ime] ?

K23 [prekr]: eeem pa ...

K23: eee lahko še nekaj[n/e:ki] vprašam ?



[TAko40.trs]

Ako2: stanovanja so na širšem področju Aten v stanovanjskih blokih[bl/o:kax][*] ali zasebnih hišah

Ako2: opremljena so zelo različno

Ako2: natančnejši opis s ceno oziroma s ceno mala[+NERAZUMLJIVO] boste prejeli ob potrditvi

Ako2: tipi stanovanj so razdeljeni v več kategorij odvisno od k() kvalitete lege in tako dalje ne?

Ako2: eee[+SOGOVORNIK_ja] in recimo če midva rečeva kategorija ~C

Ako2: to je zdaj[z/a:j] najbolj ugodnejša[*] prvih šest nočitev



[TAko40.trs]

K23: mene zanima eee tukaj[tl\E] [ime] pri[p@r] telefonu eee informacije glede Aten v času olimpijskih iger


Po pragmatični vlogi od ostalih rab nekoliko odstopata glasovna niza eeeh in eeef, vendar sta rabljena samo po enkrat; zdi se, da pridata nekoliko subjektiven izraz govorca, kažeta, da ima govorec težave (nima pri roki informacij, po katerih sogovornik sprašuje):


[HOpi78.trs]

K30: eee koliko[k/o:lkO] pa potem stane nočitev pa recimo [N-]da so[-N] eee[N-]da je poln penzion se pravi[-N] oziroma prvi dan bi bi bila[bl/a:][N-]v()[-N] eee samo[s/a:m] večerja

K30: [SOGOVORNIK_mhm] ker bi se popoldan začelo[zatS/e:l] pa potem naslednji dan zajtrk pa kosilo

Api2: mhm

Api2: eeef se pravi cena [N-]to bi za g()[-N] kdaj bi to približno[IZG][N-]po()[-N] eee potrebovali ?


[TAko47.trs]

Ako1: to imate[m/a:stE] kolikor[k/o:lkO] vem samo malo polpenzion ampak zdaj[z/a:j] samo da še enkrat pogledam

[TIŠINA]

Ako1: eeeh[+IZDIH]

Ako1: samo[s/a:m] sekundo gospa


Eee je torej poleg tega, da zpolnjuje premore v govoru, sredstvo, ki pomaga pri sistemih menjavanja vlog, in pragmatično jezikovno sredstvo, ki kaže nepričakovane dogodke v izjavi ali prehode med različnimi tematskimi sklopi.


6.2.5.2Položaj eee v izjavi


Eee je v korpusu rabljen v 392 izjavah (tj. približno 16 % vseh izjav), od tega je 16-krat označen kot samostojna izjava, 238-krat je rabljen na začetku izjave, 27-krat na koncu izjave, 149-krat sredi izjave, 18-krat pa na neprvem mestu v začetnem delu izjave skupaj z drugimi označevalci. Slika 8 prikazuje položaj eee v izjavi po odstotkih. Prevladuje začetni položaj (ki običajno nakazuje novo izjavo), pogost je sredinski položaj (nakazuje, da bo govorec še nadaljeval izjavo oz. vsebino).


Slika 8: Položaj eee v izjavi po odstotkih.


6.2.5.3Sopojavljanje eee z drugimi diskurznimi označevalci


Eee se ne rabi veliko skupaj z drugimi diskurznimi označevalci. Nekajkrat najdemo ponovitve dveh ali več eee ali variant zaporedoma:


[TAso16.trs]

Aso1: eee eeen oziroma ne eee ta Bonaca no


Sicer pa je nekaj primerov, kjer se v začetnem delu izjave druži v sklope z drugimi začetnimi diskurznimi označevalci: glejte, ja, no, potem, zdaj, in ...:


[TPma42.trs]

Ama1: ja glejte eee ogromno teh stvari boste našli tudi[t/u:ji] na naših spletnih straneh čes() če[+SOGOVORNIK_ja] vam bo to kaj bolj pomagalo


[TPma42.trs]

Ama1: poglejte zdaj eee nekaj nekaj teh prospektov imamo[m/a:mO] od vsega[fs/e:ga] vsega[fs/e:ga] ne bomo imeli[m/e:li] v papirnati obliki ne?


[TPma42.trs]

Ama1: in eee eee "zavod za turizem" prireja tudi prireditve razne ja?


[TPma65.trs]

K33: aha eee kako[k/a:k] se pa da[+SOGOVORNIK_mhm] to dobit[*] mislim se oglasim pri vas ali[al] ...


[TPma42.trs]

Ama1: ja poglejte eee zdaj[z/a:j] v zvezi z Mariborom eee v bistvu mi eee organiziramo samo vodenja


Običajno je v takih nizih na neprvem mestu, čeprav ni nujno.


6.2.6Dobro, v redu, okej, prav


Pragmatične vloge diskurznih označevalcev dobro, v redu, okej, prav so tako rekoč enake in lahko zamenjamo enega z drugim, ne da bi s tem kaj bistveno vplivali na sporočilo.

Frekventnost teh izrazov (ne glede na to, ali v pragmatični vlogi ali ne) v korpusu je naslednja:

dobro 52

v redu 44

okej 12

prav 13

Dobro je kot diskurzni označevalec enkrat rabljen v zvezi z je: dobro je:


[HOpi34.trs]

K19: tega ste[+SOGOVORNIK_tako] rekli v bistvu štir() štiri panoji [1]

K19 [prekr]: [2] so možni ne? ?

Api3 [prekr]: štiri imamo mi [1]

Api3: [2] panoje [+SOGOVORNIK_mhm] ja[+SOGOVORNIK_mhm]

K19: dobro je

K19: eee ena stvar eee mogoče imate[m/a:tE] vi še ~W ~W naslov ?


Dobro, v redu, okej in prav niso nujno diskurzni označevalci, pač pa so lahko del propozicijske vsebine, zlasti za prav velja, da je redkeje v vlogi diskurznega označevalca. V korpusu niso v vlogi diskurznega označevalca:


[TAko47.trs]

Ako1: [TIHO-]to je v redu to štima[*][-TIHO]



[TPma42.trs]

K39: ker[+SOGOVORNIK_ja] jim nikoli[nik/o:l] nič ni dobro[d/o:b@r] in vedno najdejo pač dlako v kupu sena in vedno bojo nergali,



[HOpi24.trs]

K17: aha prav v apartmaju je ?



Kadar so pomemben del propozicijske vsebine, običajno niso samostojna izjava (razen če je izjava nedokončana) in redkeje stojijo na začetku izjave (čeprav je tudi mogoče, zlasti pri prav, npr. prav naslov mariborskega turizma ne?).

Redkeje so lahko dobro, v redu, okej, prav v položaju opornega signala, v korpusu dobro 8-krat in okej 3-krat.

Frekventnost teh besed v vlogi diskurznega označevalca je torej:

dobro 46 + 8-krat oporni signal

v redu 36

okej 12 + 3-krat oporni signal

prav 4


Tradicionalno so ti izrazi v slovenskem jezikoslovju obravnavani predvsem kot pridevniki oz. prislovi, v SSKJ pa je omenjena tudi njihova vloga, ki jo tu imenujem pragmatična, in sicer najdemo analizirane izraze pod gesli dober (prislovna oblika dobro), red1 pri zvezi v redu in prav. SSKJ razlaga, da so lahko te oblike tudi v medmetni rabi in izražajo soglasje, privolitev; zadržano pritrjevanje; nejevoljno sprijaznjenje s čim, za izraz prav pa dodaja tudi izražanje zadovoljstva nad čim. SP2001 ne zabeleži toliko teh rab, edino pri geslu red1 navede primer z v redu in sopomenko dobro, pod okej2, ki je klasificiran kot soglašalni členek, pa navede sopomenke dobro, prav, v redu.


6.2.6.1Pragmatične vloge dobro, v redu, okej in prav


Diskurzni označevalci dobro, v redu, okej, prav se v glavnem uporabljajo ob prehodih v nov tematski sklop ali v zaključek pogovora. Podobno kot ja izražajo strinjanje s predhodno vsebino in pomagajo vzpostavljati vtis harmoničnega, sporazumnega vzdušja diskurza. To je lahko tudi razlog, da so rabljeni predvsem ob prehodih v zaključek ali ob prehodih med tematskimi sklopi pogovora; zaradi izogibanja negativnim, konfliktnim situacijam namreč sogovornika želita doseči strinjanje, sporazum, da je primerno zaključiti pogovor oz. preiti k novemu tematskemu sklopu.

Poglejmo nekaj primerov. Sogovornik z dobro nakaže, da nima k trenutni temi več kaj dodati in začne nov tematski sklop:

[TPma42.trs]

Ama1: potem pa so še aktualne prireditve ne?

Ama1: ki se pač[+SOGOVORNIK_mhm] vnašajo sproti

Ama1: ki jih organizatorji sami vnašajo sproti [1]

Ama1 [prekr]: [2] ne?

K39 [prekr]: dobro

K39: moram[m/o:r@m] še samo nekaj[n/e:ki] vprašat[*] ki j(e) sicer malo[m/a:l] zdaj[z\@j] izven tegale okvirja [.] o turizmu


Kar dobra polovica diskurznih označevalcev dobro, v redu, okej, prav je rabljena v prehodih v zaključne segmente ali v zaključnih segmentih pogovora oziroma v številkah – v 30 pogovorih so ob zaključku rabljeni:


dobro 21-krat (od 46 rab)

v redu 16-krat (od 36 rab)

okej 8-krat (od 12 rab)

prav 4-krat (od 4 rab)



Potem ko govorec z dobro, v redu, okej ali prav (in zahvaljevanjem) nakaže, da bi končal pogovor, praviloma počaka, da sogovornik na enak način potrdi, da se strinja s tem:








[TAso16.trs]

Aso1: tako imate[m/a:tE] prav

Aso1: tudi [1]

Aso1 [prekr]: [2] to je možno

K11 [prekr]: dobro

Aso1: ja

Aso1 [prekr]: prav gospa

K11 [prekr]: najlepša [1]

K11: [2] hvala za [1]

K11 [prekr]: [2] izčrpne informacije bomo malo razmislili pa še se [1]


Strinjanje ni nujno takojšnje, sogovornik želi včasih še kaj povedati, preden zaključi pogovor, vendar v teh primerih v nadaljevanju sam prvi nakaže, da bi zaključil pogovor:


[HOha50.trs]

K39 [prekr]: fino fino [1]

K39: [2] fino točno to zaradi[zara] tega ker[k@r] je računalnik malo[m/a:l] [.] malo[m/a:l] počasnejše narave pa da ne bi zdaj[z/a:j] imela[m/e:la] problemov[+SOGOVORNIK_ja] pri sprejemanju pošte

K39 [prekr]: v redu

Aha1 [prekr]: ja že pri nas bi [1]

Aha1: [2] bil problem pri pošiljanju [SMEH]

K39: no no no nov redu potem smo pa na enaki [.] stopnji

K39: potem vas pa prosim če mi tole pošljete pa pa pošljem potem naprej tem gostom ne?

Aha1: v redu dogovorjeno

K39: hvala


Nekoliko posebne so rabe, ko so dobro, v redu, okej, prav izgovorjeni z rastočo intonacijo. Taki primeri so v korpusu Turdis-1 sicer redki, samo štirje:


[TAko40.trs]

Ako1: jaz vam [1]

Ako1 [prekr]: [2] bom vse [1]

K23 [prekr]: eee ...

Ako1: [2] poslala če bo pa kaj od tega še za vprašanje[IZG] pa boste poklical[*] ne?

Ako1 [prekr]: v redu?

K23 [prekr]: eee [1]

K23: [2] ja

K23: eee pa se da to nekako da je kakšno[k/a:SnO] informacijo zdaj zvem ? [.]


[TAso09.trs]

K8 [prekr]: eee kdaj pa v ponedeljek dopoldne popoldne ?

Aso3 [prekr]: dobro [P] ponedeljek #popoldan# [.] [1]

Aso3: [2] ob dveh

K8: od dveh dalje ?

Aso3: od[+SOGOVORNIK_mhm] dveh naprej do večera ja[+SOGOVORNIK_dobro]

Aso3 [prekr]: dobro?

K8 [prekr]: najlepša [1]

K8: [2] hvala

K8 [prekr]: na svidenje

Aso3 [prekr]: enako na svidenje


V teh rabah so usmerjeni naprej, k sogovorniku, in sicer govorec tako preverja, ali se sogovornik strinja, torej vzdržuje stik s sogovornikom. Lahko se takšno preverjanje v ustreznem kontekstu interpretira tudi kot spodbujanje k strinjanju.



6.2.6.2Položaj dobro, v redu, okej, prav v izjavi


Diskurzni označevalci dobro, v redu okej, prav so rabljeni v 92 izjavah, od tega so 40-krat označeni kot samostojna izjava (govorci naredijo premor za temi diskurznimi označevalci, čeprav npr. prevzamejo vlogo):


[HOha50.trs]

Aha1: pa še dodatno[+SOGOVORNIK_dobro] toto[*] animacijo programe in pa te [.] v bistvu eee [.] ponudbo ki je vključena[fkl/u:tSEna] v to ceno ne?

K39: dobro

K39: povejte kar se pa tiče zajtrka to je najverjetneje tam samopostrežni kjer je [.] široka ponudba


12-krat so na začetku nove izjave, s tem da so tudi te izjave pogosto povsem kratke:


[TAko40.trs]

Ako2 [prekr]: okej hvala vam živjo[+NERAZUMLJIVO]


[TAko47.trs]

K25: dobro gospa najlepša hvala da ste se tako potrudili[pOtr/u:dli] ne?


[TPma65.trs]

Ama2: dobro vam bomo poslali


17-krat so na neprvem mestu v začetnem sklopu več diskurznih označevalcev:


[HOpi24.trs]

K17: ja dobro


[HOpi78.trs]

K30: eee v redu eee


[TPma65.trs]

K33: aha okej hvala


Le v treh primerih so rabljeni na koncu izjave, od tega enkrat z rastočo intonacijo:


[TAko40.trs]

Ako2: da vidite sploh pa da malo[m/a:l] podebatirate kako in kaj pol[*] me pa lahko mirno pokličete pa[p/a:][IZG] bova[Uva][IZG] videla[v/i:dla] za naprej v redu?


[TAso11.trs]

Aso7: mhm mhm južno od Splita v redu


[TPma44.trs]

K24: aha aha bom dobro


Sredi izjave niso rabljeni v nobenem primeru v korpusu. Razporeditev diskurznih označevalcev dobro, v redu, okej, prav v odstotkih je prikazana v sliki 9.


Slika 9: Položaj dobro, v redu, okej, prav v izjavi.



6.2.6.3Sopojavljanje dobro, v redu, okej, prav z drugimi diskurznimi označevalci


Govorci pogosto ponovijo katerega od teh diskurznih označevalcev ali kombinirajo dva različna diskurzna označevalca iz tega sklopa:


[HOha50.trs]

Aha1: večerja tudi

K39: dobro [.] dobro

K39: ja nič potem vas pa prosim če mi tole res pošljete


[HOpi78.trs]

K30: okej v redu


[TAne77.trs]

K44: dobro v redu najlepša hv() ...


Pred dobro, v redu, okej, prav sta nekajkrat rabljena aha (11-krat) ali ja (6-krat):


[TAne77.trs]

K44: aha

K44: dobro v redu


[TPma65.trs]

K33: aha okej hvala


[TPma65.trs]

K33: aha dobro ja


[HOpi24.trs]

K17: ja dobro

K17: v redu






Zasledimo še rabi skupaj z no:


[HOha50.trs]

K39: no no no no v redu potem smo pa na enaki [.] stopnji


[TAko40.trs]

K23 [prekr]: no prav hvala


In skupaj z eee:


[HOpi78.trs]

K30: eee v redu eee

6.2.7Glejte/poglejte, veste


Glejte/poglejte sta dve varianti istega diskurznega označevalca (v nadaljevanju ga poimenujem vedno samo glejte). Sicer izhajata iz različnih glagolskih vidov, vendar to ne vpliva bistveno na njuno pragmatično vlogo. Kot diskurzni označevalec je glejte/poglejte rabljen v 29 izjavah, večinoma – 20-krat – kot glejte:


[HOpi78.trs]

Api2: glejte do štiri ure je polovična cena


Dvakrat (v obliki poglejte) je ta izraz pomemben del propozicijske vsebine:


[TPma44.trs]

Ama2: tudi[t/u:t] imamo[m/a:mO] ja poglejte pod šport in rekreacija


Veste je kot diskurzni označevalec rabljen 13-krat:


[TAko40.trs]

Ako2: grozni eee eee tako[t/o:k] rigorozno kot so pa tu pravila veste eee eee


od tega kar 8-krat v zvezi z vprašalnim zaimkom (kaj/kje/koliko...) in enkrat v stalni besedni zvezi a veste.

Kot del propozicijske vsebine je veste rabljen 6-krat:


[TPma49.trs]

K3: eee rad bi imel[m*E:U] eno[*] eee informacijo če morda veste kaj o vožnjo s splavom po Mari() po Dravi


Edninskih oblik veš oz. poglej/glej (ki se uporabljajo pri tikanju in jih lahko pričakujemo v zasebni komunikaciji), v korpusu ni. Frekventnost besede veste je 20, besede poglejte 11 in glejte 20.

Glejte/poglejte in veste tradicionalno klasificiramo kot glagole. SSKJ zabeleži tudi rabo izrazov poglejte in veste, ki jo tu imenujem pragmatična, opiše pa jo – tako kot v drugih zgornjih primerih – kot medmetno. Pri poglejte navaja, da izraža podkrepitev trditve; začudenje, presenečenje; nejevoljo, nezadovoljstvo; prošnjo za razumevanje, upoštevanje, pri veste pa, da izraža obračanje na ogovorjenega; opozorilo na povedano; poudarja trditev. Oblike glejte v pragmatični (oz. medmetni) vlogi ne omenja posebej, pač pa pri veste opozori tudi na medmetno rabo v prvi osebi vem.


6.2.7.1Pragmatične vloge glejte in veste


Z diskurznim označevalcem glejte govorec pritegne sogovornikovo pozornost in napove, da bo povedal nekaj, kar bo za sogovornika zanimivo. Usmerjen je torej naprej, v prihodnjo vsebino. Običajno mu sledi daljša vloga govorca. V korpusu je glejte v večini primerov (22-krat) rabljen pri menjavanju vlog, predvsem ko govorec odgovarja na vprašanje sogovornika:





[HOpi78.trs]

K30: eee pa zanima me koliko[k/o:lk] pa stane potem najem [1]

K30 [prekr]: [2] eee te [1]

Api2 [prekr]: eee ...

K30: [2] dvorane ?

Api2: glejte do štiri ure je polovična cena

Api2: to je petindvajset tisoč tolarjev


[TPma42.trs]

K39: pa če mi lahko mogoče malo[m/a:l] kar se tiče štajerskega oziroma mariborskega konca [.] lahko vi malo[m/a:l] svetujete in pomagate

Ama1: ja poglejte eee zdaj[z/a:j] v zvezi z Mariborom eee v bistvu mi eee organiziramo samo vodenja


[HOpi24.trs]

K17: eee pa me zanima zdaj[z/a:j] če imate vi v[f] hotelu tudi kaki[*] jacuzzi[+tujez] ali[al] pa bazene pa take stvari

Api1: eee ja glejte v ...

Api1: eee jacuzze[*][+tujez] imamo samo v apartmajih


[TPma42.trs]

Ama1: Štern ja

K39: mhm

K39: Fram

Ama1: ja glejte eee ogromno teh stvari boste našli tudi[t/u:ji] na naših spletnih straneh čes() če[+SOGOVORNIK_ja] vam bo to kaj bolj pomagalo


Znotraj iste vloge (na tak način je rabljen 7-krat) glejte pogosto kaže večjo ali manjšo spremembo v tematskem sklopu:


[TAso16.trs]

Aso1: sicer je dražja ampak so res mislim res so zadovoljni s tem klubom njihovim no[+SOGOVORNIK_mhm][SOGOVORNIK_mhm]

Aso1: eeemmmeee kaj[k/a:] pa vem

Aso1: sicer glejte[l*E:jtE] [.] to je [.] saj veste da so pri[p@r] pri[p@r] [angl-]magic life[IZG][-angl][+SMEH]


[TAko47.trs]

Ako1: kar je pa nam pravzaprav bolj na kožo pisano ker nam je bližje

Ako1: [SOGOVORNIK_mhm]

[TISINA]

Ako1: [TIHO-]eee aha[@x\@] ja

Ako1: to ni to

Ako1: deveti peti[-TIHO]

Ako1: tako[t/a:k] glejte je [.] Maribor[+SOGOVORNIK_ja] Graz Aqaba

Ako1: iz Graza[+SOGOVORNIK_mhm] na Aqabo se leti ne? drugi dan[+SOGOVORNIK_mhm]ste v Aqabi tako[t/a:k] na kratko vam bom program povedala[+SOGOVORNIK_ja] drugače imate[m/a:tE] internet



Diskurzni označevalec veste ima bolj raznolike vloge kot glejte. Žal v korpusu ni pogosto rabljen, iz gradiva lahko sklepam samo o osnovnih smernicah rabe.

Dvakrat je veste rabljen v zvezi s členkom saj: saj veste. Te rabe so mejne; s stališča pragmatičnih vlog pomaga vzdrževati stik s sogovornikom:






[TAso16.trs]

Aso1 [prekr]: tako[t/a:k] da ...

K11 [prekr]: pa kaj ti kaj [1]

K11: [2] ti je v tistem trenutku ustrezalo lahko so ti tudi[t/u:t] kaj[+SOGOVORNIK_tako] tečni pa preglasni ne?

Aso1: tako

Aso1: saj veste zgleda[*] da poznate in in da veste kakšni kakšen je kakšno dogajanje je [1]

Aso1 [prekr]: [2] v [SMEH] v [angl-]all inclusivih[-angl]


V korpusu najpogostejša raba veste je v besedni zvezi z vprašalnimi zaimki kaj, kako, kje, kdo, koliko itd. (9-krat). V teh rabah veste učinkuje kot retorično vprašanje, ki napoveduje in poudarja pomembnost vsebine, ki bo sledila, hkrati pa pritegne pozornost sogovornika. Tako kot glejte je velikokrat rabljen v odgovoru na vprašanje.


[TAso16.trs]

K11 [prekr]: kaj informacij[+NERAZUMLJIVO] kako[k/a:k] je kaj ?

Aso1: #ta# je tako[tk/o:]

Aso1: #ta# je veste[v/e:tE] za kaj zanimiv ? zanimiv za družine


[TAso06.trs]

K4: eee ka() kaj[k/a:] pa cena za[:] economy[+angl] razred

Aso6: veste koliko[k/o:k] sem dobila ceno šesto devetinpetdeset evrov [.] plus[+SOGOVORNIK_ja] pet() cirka petindvajset[p/e:tindv/a:js] tisoč takse


[HOpi31.trs]

K19 [prekr]: @FERI

Api3 [prekr]: ja [1]

Api3: [2] izvolite

K19: veste kaj jaz bi se pa pozanimal za tale vaš "poslovni klub piramida"

Api3: ja [1]

Api3 [prekr]: [2] za kateri termin[+NERAZUMLJIVO] ?

K19 [prekr]: v zvezi z ...


Veste kot diskurzni označevalec je lahko tudi v stalni besedni zvezi z a: a veste (žal samo en primer v korpusu), ali pa stoji sam. Posebne razlike v pragmatični vlogi pri rabi ene ali druge oblike v korpusu ne opazim, pač pa je nekaj razlik glede na položaj veste v začetku izjave ali v nezačetnem položaju. V nezačetnem položaju je veste usmerjen k sogovorniku in je po pragmatičnih vlogah soroden z ne?: govorec vzdržuje stik s sogovornikom in poudari predhodno vsebino:


[TAso16.trs]

Aso1: ker so te eee ker so v bistvu [.] hiške

Aso1: kot individualne

Aso1: kako[k/o:k] vam naj rečem no tako[tk/o:]

Aso1: eeen eee nižje tak depandansni stil ali[al] pa španski stil ve() veste[+SOGOVORNIK_mhm] teh hišk ne?


[TAko40.trs]

Ako2: je[+SOGOVORNIK_mhm] to z vaše strani stoprocentna rezervacija in #ni# odpovedi

Ako2: [SOGOVORNIK_aha]

Ako2: grozni eee tako[t/o:k] rigorozno kot so pa tu pravila veste eee eee

Ako2: zdaj ravno imam[m/a:m] primer v petek sem potrdila včeraj bo prišlo včeraj mi stranka javi da ne bo šlo in ni variante so takoj stoprocentni stroški


V začetnem položaju veste sicer prav tako vzdržuje stik s sogovornikom, poudari pa prihodnjo vsebino, ne predhodne:



[TAso16.trs]

Aso1 [prekr]: pa tako[t/a:k] velike[+NERAZUMLJIVO] ...

K11 [prekr]: razlika [1]

K11: [2] v[f] ceni pa ni tako[t/a:k] velika [1]

K11 [prekr]: [2] da bi ...

Aso1 [prekr]: a veste[v/e:tE] [1]

Aso1: [2] razlika v ceni je pa deset tisoč

Aso1: [SOGOVORNIK_mhm]


[TAko40.trs]

K23 [prekr]: ja ja razumem

Ako2 [prekr]: veste jaz sem[sn] [1]

Ako2: [2] zdaj[z/a:j] vam tako[t/a:k] malo pleševa ne?

Ako2: mogoče bi res bilo[bl/o:] lažje ta da vi ta katalog vidite


6.2.7.2Položaj glejte in veste v izjavi


Glejte ima večinoma začetni položaj v izjavi, bodisi da sam uvaja novo izjavo bodisi skupaj z drugimi diskurznimi označevalci (predvsem ja in eee):


[TAko40.trs]

Ako2: glejte pri[p@r] nas je kar se eee tega tiče [ime] je takole


[TPma49.trs]

Ama1: ja poglejte vožnja s splavom eee se prične v mesecu maju


Dvakrat je označen kot samostojna izjava:


[TPma42.trs]

Ama1: ja povejte

K39: poglejte v zvezi bom rekla s ponudbo


Bolj izjemoma so pred glejte tudi kaki drugi izrazi. V korpusu v naslednjih primerih:


[TAso16.trs]

Aso1: sicer glejte[l*E:jtE] [.] to je [.] saj veste da so pri[p@r] pri[p@r] [angl-]magic life[IZG][-angl][+SMEH] mislim pri[p@r] [angl-]magic lifih[-angl] pri[p@r] teh [angl-]all inclusivih[-angl][+SOGOVORNIK_jaja] je[+SOGOVORNIK_jaja] tudi[t/u:t] ljudi[lud/i:] odvisno kako[k\ak] ne? [+SOGOVORNIK_jaja]


[HOpi78.trs]

Api2: dva tisoč glejte eee če bi eee recimo en obrok je na osebo še dodatnih dva tisoč štiristo tolarjev


[TAko47.trs]

Ako1: tako[t/a:k] glejte je [.] Maribor[+SOGOVORNIK_ja] Graz Aqaba


Slika 10 v odstotkih prikazuje razporeditev diskurznega označevalca glejte glede na položaj v izjavi.


Slika 10: Položaj glejte v izjavi.


Veste kot diskurzni označevalec nima tako stalnega položaja. V zvezi z vprašalnimi zaimki je pogosto rabljen v začetnem delu izjave (5-krat):


[TAko47.trs]

K25: eee veste kaj mene zanima eee če imate[m/a:tE] vi zdaj[z/a:j] kakšne posebne eee ponudbe[:] ugodne mogoče popotovanja po Egiptu ?


vendar tudi ne vedno:


[TAso16.trs]

Aso1: eee[+SOGOVORNIK_mhm] od teh [.] je pa veste[v/e:tE] kje

Aso1: v tem je [.] v Faraonu tistega ko sem vam prvega[+SOGOVORNIK_mhm] povedala[pOv/e:dla][+SOGOVORNIK_mhm]


Kadar ni v besedni zvezi z vprašalnimi zaimki, je lahko prav tako v začetnem položaju (2-krat), lahko pa tudi na koncu izjave (1-krat):


[TAko40.trs]

Ako2: grozni eee eee tako[t/o:k] rigorozno kot so pa tu pravila veste eee eee


ali sredi izjave (2-krat):


[TAso16.trs]

Aso1: eeen eee nižje tak depandansni stil ali[al] pa španski stil ve() veste[+SOGOVORNIK_mhm] teh hišk ne?


Zaradi majhnega števila primerov v korpusu ti rezultati niso zadostni za natančnejše sklepanje.


6.2.7.3Sopojavljanje glejte in veste z drugimi diskurznimi označevalci


Glejte se v večini primerov rabi skupaj z diskurznim označevalcem ja (ki stoji vedno pred glejte):


[HOha50.trs]

Aha1: ja glejte skupine nekje od dvajset naprej


Malo manj pogosto je rabljen skupaj z eee, ki je lahko pred ali za glejte:


[TPma44.trs]

Ama2: eee poglejte jaz bi vam pri predlagala da mogoče prespi vaša prijateljica[prij/a:tltsa] pri Blažiču


[TPma42.trs]

Ama1: ja glejte eee ogromno teh stvari boste našli tudi[t/u:ji] na naših spletnih straneh čes() če[+SOGOVORNIK_ja] vam bo to kaj bolj pomagalo


3-krat pa je rabljen skupaj z zdaj, ki pa stoji za glejte:


[TPma42.trs]

K39: poglejte zdaj[zd*E:j] mogoče[mOg/o:tS] ravno[r/a:Un] zaradi[zar/a:t] tega tudi[t/u:t] kličem na[*] vas da mi lahko mogoče vi malo[m/a:l] svetujete


Niti v enem primeru ni pred menjavanjem vlog pred glejte uporabljen diskurzni označevalec ne?.


Veste se (razen z eee, ki se lahko vrine tako rekoč kjer koli) v korpusu ne rabi skupaj z drugimi diskurznimi označevalci, pač pa je dokaj značilna že omenjena zveza z vprašalnimi zaimki (veste kaj, veste kje itd.).

6.2.7.4Čakajte in drugi sorodni izrazi


Na videz diskurznima označevalcema glejte in veste soroden izraz, ki bi ga lahko uvrstili v to skupino, je čakajte/čakaj (10 rab v korpusu). Ta napoveduje premor v pogovoru (govorec se v trenutku govorjenja ne spomni kakšnega izraza ali podatkov ali mora poiskati informacije, preden jih posreduje ipd.) in tako pomaga pri dogovarjanju o poteku diskurza:


[TAso16.trs]

Aso1: ja na Bolu ampak veste[v/e:tE] kje čakajte[tS/a:ktE] samo[s/a:m] da ga najdem


[TPma49.trs]

K3: a po [1]

K3 [prekr]: [2] domače kar[k\@r] aha

Ama1 [prekr]: čakajte[tS/a:ktE] vam takoj [1]

Ama1: [2] povedala[pOv/e:dla]

Ama1: glejte lani ne?


V tej vlogi je soroden z izrazi: samo malo (16 rab v korpusu), samo (en) trenutek (11 rab), samo sekundo (2 rabi), samo majčkeno (1 raba) ..., npr.:


[TPma42.trs]

Ama1 [prekr]: direkten[dir/e:ktn] telefon [.] [1]

K39 [prekr]: [ime] [priimek]

Ama1: [SOGOVORNIK_ja]

Ama1: [2] pa je dva tri štiri

Ama1: [SOGOVORNIK_ja]

Ama1: šest šest

Ama1: [TIHO-]mislim da ima[m/a:] nič šest samo malo[-TIHO]

Ama1: ja nič šest


Čakajte in sorodni izrazi so torej bolj ali manj mejni primeri izrazov v vlogi diskurznih označevalcev. So izrazito eksoforični, nakazujejo, da mora govorec narediti nekaj zunaj pogovora oz. samega procesa komunikacije v pogovoru in zato trenutno ne more komunicirati, ne želi pa še zaključiti pogovora.


Zanimiva pa je tudi (ne)raba besede poslušajte/poslušaj, ki ga v zasebnem diskurzu lahko tudi uporabljamo kot diskurzni označevalec. V korpusu Turdis-1 pa ni niti enkrat rabljen v vlogi diskurznega označevalca.



6.2.8Mislim


Beseda mislim je v korpusu Turdis-1 rabljena 30-krat v 29 izjavah. Od tega je v več kot polovici primerov (17-krat) v rabi, ki je ne štejem za diskurzni označevalec. Pri tem zelo prevladuje raba mislim z odvisnikom (mislim da ...):


[TAso17.trs]

K12: mislim da še ne bo eee da ne bo prepozno če še kasneje kaj zdaj[z/a:j] informativno sprašujem ker se še nismo dogovorili čisto[tS/i:zO][IZG] definitivno za termin tako[t/a:k] da ...


Rab, ki jih označim kot diskurzni označevalec in kjer je mislim predvsem pragmatično sredstvo, je samo 13. Rezultati analize so zato lahko nepopolni.


[TPma37.trs]

Ama1: eee[+SOGOVORNIK_mhm] tale cesta mislim tako[t/a:k] dol ne? se bo spustila[+SOGOVORNIK_ja] in to je za "ribičijo" ne?


Rabo mislim, ki jo tukaj imenujem pragmatično, SSKJ zabeleži pri glagolu misliti v zvezi z (sicer v govoru izpuščenim) reči, in sicer razlaga, da mislim uvaja natančnejšo določitev, dopolnitev povedanega ali povzetek bistvene vsebine povedanega. Kot medmetno rabo mislim zabeleži SSKJ običajno v zvezi z ali (misliš, da ga ne poznam) ali kaj (kaj misliš, da si edina), pri čemer mislim izraža začudenje, nejevoljo; podkrepitev trditve. T.i. medmetne rabe, kot jo označuje SSKJ, v korpusu ne zasledim. (Smolej, 2001) v zvezi z obliko mislim in drugimi sorodnimi stavčnimi enotami omeni, da lahko opravljajo vlogo besedilnih povezovalcev. (Krajnc, 2005) uvrsti nekatere rabe mislim in drugih oblik glagola misliti, pa tudi glagola vedeti (npr. v zvezi ne vem) in glagolov rekanja (glej 6.2.8.4), med povezovalna besedilotvorna sredstva.


6.2.8.1Pragmatične vloge mislim


Mislim kot diskurzni označevalec je v korpusu vedno rabljen za samokorekturo govorca. Izrazito torej kaže na proces tvorjenja besedila, s tem pa opozarja sogovornika na ustrezno interpretacijo.

V korpusu lahko ločim rabe, kjer govorec z mislim označi, da bo popravil predhodno vsebino:


[TAne77.trs]

K44: kak eee na kak način je to organizirano ?

Ane2: ne to ni orga() to v lastni reži() mislim v lastni režiji vi greste z letalom recimo kaj jaz vem [.] eee tam v Los Angeles prevzamete ta avtodom pa potem greste skozi pa ga zopet vrnete nekje na letališču oziroma pri tistem ponudniku ko[*] je ne?


[TAso16.trs]

Aso1: sicer glejte[l*E:jtE] [.] to je [.] saj veste da so pri[p@r] pri[p@r] [angl-]magic life[IZG][-angl][+SMEH] mislim pri[p@r] [angl-]magic lifih[-angl] pri[p@r] teh [angl-]all inclusivih[-angl][+SOGOVORNIK_jaja] je[+SOGOVORNIK_jaja] tudi[t/u:t] ljudi[lud/i:] odvisno kako[k\ak] ne?[+SOGOVORNIK_jaja]


Nadalje z mislim označi, da bo sledila ponovna, drugačna ubeseditev iste vsebine:




[TPma49.trs]

K3: aha to je bilo[bl/o:] za trideset[tr/i:jEs] oseb kaj pa če je manj oseb se vseeno[fs*E:nO][IZG] plača štiriinosemdeset[St\@rn/o:s@ndEsE] mislim[+SOGOVORNIK_ja] polna cena ?


oziroma dodatna razlaga:


[TPma23.trs]

Ama1: eeem tako da najbolje da vam jaz dam telefonske številke pa se potem sami naprej [.] [SOGOVORNIK_aha] eee [.] pozanimate ker mi mislim ne delamo nobenih[dOb*E:nix] rezervacij pa in tega


ali da je govorec šele zdaj našel prave besede za vsebino, ki jo želi sporočiti:


[TAso16.trs]

Aso1: ker[k@r][+SOGOVORNIK_mhm] [.] največji problem je v bistvu eee pri teh hrvaških je

Aso1: kar se tiče ponudbe [.] no prehrane pa tega ne?

Aso1: mislim nikoli[nik/o:l] ni tako[t/a:k] [.] stoprocentno [.] kakor[k/o:k@r] bi si človek želel no


Skratka, v primerih v korpusu govorec z diskurznim označevalcem mislim označuje, da bo v nadaljevanju to, kar želi sporočiti, povedal na bolj urejen, strnjen, jasen način.


6.2.8.2Položaj mislim v izjavi


Glede na pragmatične vloge mislim pričakujemo, da se ta diskurzni označevalec pogosteje pojavlja sredi izjave. V korpusu vseeno uvaja tudi novo izjavo (3-krat), nikoli pa menjavanja vlog:


[TAso16.trs]

Aso1: ker[k@r][+SOGOVORNIK_mhm] [.] največji problem je v bistvu eee pri teh hrvaških je

Aso1: kar se tiče ponudbe [.] no prehrane pa tega ne?

Aso1: mislim nikoli[nik/o:l] ni tako[t/a:k] [.] stoprocentno [.] kakor[k/o:k@r] bi si človek želel no


V ostalih 9 primerih je rabljen sredi izjave. Pričakujemo lahko, da je tudi sicer ta položaj zanj najznačilnejši.


6.2.8.3Sopojavljanje mislim z drugimi diskurznimi označevalci


Diskurzni označevalec mislim v nobenem primeru v korpusu ni rabljen skupaj s katerim drugim diskurznim označevalcem.


6.2.8.4Ne vem in drugi sorodni izrazi


Precej podobno kot mislim se lahko rabijo tudi ne vem ter nekateri glagoli rekanja, npr. saj pravim in bom rekla/da rečem. Podobno kot mislim med drugim kažejo na procese tvorjenja besedila. Število teh rab v korpusu je majhno in tukaj samo opozarjam nanje. SSKJ zabeleži tudi t.i. medmetno rabo teh izrazov, za katero smo videli, da se pogosto nanaša na pragmatično rabo, kot jo imenujem tukaj. (Krajnc, 2005) pripiše besedilno povezovalno vlogo nekaterim rabam teh izrazov.


Izraz ne vem je v korpusu rabljen 29-krat (v 29 izjavah) . V vsaj 12 od teh rab ne vem tudi označuje odnos govorca do vsebine, ki jo sporoča, in s tem opozarja sogovornika na ustrezno interpretacijo, in sicer lahko opozarja, da bo govorec navedel samo enega ali nekaj možnih primerov. V vseh primerih v korpusu je usmerjen naprej:


[HOpi78.trs]

K30: namreč en dan popoldan pa potem naslednji dan v bistvu dopoldan pa še potem [.] ne vem[+SOGOVORNIK_mhm] do treh popoldan


[TPma42.trs]

Ama1: eee v glavnem ne vem kader mi je tam tudi[t/u:ji] zelo[zl/o:] všeč in [.] meni[m*E:n] se zdi da je prava stvar za takšne[+SOGOVORNIK_mhm] goste ne?


Naslednja skupina sorodnih izrazov izhaja iz glagolov rekanja, predvsem reči in praviti. To so: saj pravim, bom rekla/da rečem... V korpusu so rabljeni: saj pravim 2-krat pri istem govorcu, bom rekla/da rečem 4-krat pri treh različnih govorcih:


[TAko40.trs]

Ako2: jaz dobivam vse pismeno pa to ampak recimo da se bo čez en mesec potem zgodilo da stranke te in te na žalost je ne moremo[m/o:rmO] več potrdit[*] oziroma ne moremo[m/o:rmO] potrdit[*]

Ako2: sem[sn] vas jaz dolžna poklicat[*] pa rečt[*] na žalost [ime] zdaj[z/a:j] pa so nama rekli da ni možno in seveda[s@v\@da] dobite denar[dn/a:r] nazaj to je jasno ne? denarja[+SOGOVORNIK_ja] ne[+SOGOVORNIK_ja] izgubite[zgub/i:tE][+SOGOVORNIK_seveda] ampak[.] saj pravim tudi[t/u:t] to ni ziher[*]


[TAko40.trs]

Ako2: da se vse pri[p@r] nas s tem da je zdaj[z/a:j] tako[t/a:k]bom rekla ne? zdaj so cene dejansko kot vidite so grozljive ne?


[HOha50.trs]

K39 [prekr]: ne [1]

K39: [2] tisto[t/i:st] ni potrebe zdaj samo zbiram[+SOGOVORNIK_mhm] najprej te [.] da rečem okvirne informacije ki jih potem bi lahko posredovala naprej


V tem sklopu opozarjam še na skupino izrazov, ki jih sicer ne štejem med diskurzne označevalce, vsekakor pa imajo nekoliko posebno in zelo izrazito vlogo, zato so kot kategorija zanimivi tudi za strojno simultano prevajanje govora: kažejo, da je navedeni primer samo eden od možnih oz. da seznam ni dokončan. Iz korpusa Turdis-1 sklepam, da bi v podrobnejšo analizo v tej skupini lahko zajeli izraze: in tako dalje, pa to, in to, in tega, pa tega, in/pa takšne/take stvari, in vse, pa tako, te in te, ta in ta, tega in tega, levo desno tretje... Primer:


[TPma23.trs]

Ama1: eeem tako da najbolje da vam jaz dam telefonske številke pa se potem sami naprej [.] [SOGOVORNIK_aha] eee [.] pozanimate ker mi mislim ne delamo nobenih[dOb*E:nix] rezervacij pa in tega


Te vrste izrazi so bili opaženi tudi drugod. (Overstreet, 2005) na primer jih poimenuje (angl.) general extenders, najdemo pa še druge termine: (angl.) list completers, set markers, category identifiers. V angleščini so to npr. and so, and everything, or anything itd., v nemščini pa und so, und solche Sachen, oder so itd. (Overstreet, 2005) ugotavlja, da govorci teh izrazov ne členijo na manjše pomenske enote, ampak jih rabijo kot eno izrazno enoto.

6.2.9Zdaj


Izraz zdaj je v korpusu Turdis-1 rabljen 159-krat v 144 izjavah. Raba zdaj je tesno povezana s časovno dimenzijo, ki jo zdaj izraža.

Rabe, kjer je zdaj nedvoumno bistven del propozicijske vsebine, npr.:


[TAko40.trs]

K23: eee pa se da to nekako da je kakšno[k/a:SnO] informacijo zdaj zvem ? [.]


ter rabe, kjer je nedvoumno predvsem v pragmatični vlogi (tukaj sem ga razvrstila med diskurzne označevalce):


[TAso11.trs]

Aso7: eee zdaj[zd\@j] "hotel Neptun" imamo[m/a:mO] tudi v Tučepih


so pravzaprav redke. Najpogosteje se je težko odločiti, ali je zdaj bolj v vlogi diskurznega označevalca ali je bolj del propozicijske vsebine:


[HOha50.trs]

K39: eeem treh ali[al] pa štirih Nemcev to zaenkrat še ne vem sss se pravi oni[+SOGOVORNIK_mhm] so pač iz Nemčije[+SOGOVORNIK_mhm]

K39: #nikoli#[nik/o:l] še niso bili[bl/i:] v Sloveniji

K39: in zdaj[zd\@j] bi jih ze() pač za takšne štiri[St/i:r] pet dni počitnic ki jih bojo imeli[m/e:li] v Sloveniji bi jim pač seveda rada [.] naredila[nard/i:la] nekaj[n/e:ki] naj() ali[al] pa vsaj ponudila[pOn/u:dla] nekaj[n/e:ki] izmed boljših stvari a ne?


Zaradi tega analiziram vse rabe.

Tradicionalno uvrščamo zdaj med prislove. Omogoča izražanje tako sedanjosti kot preteklosti ali prihodnosti, kot bomo videli tudi v nadaljevanju te analize. SSKJ zabeleži še vrsto rab, ki povzročajo največ težav, ko bi bilo treba ločiti diskurzni označevalec zdaj od ostalih vlog, in sicer navaja, da lahko zdaj poudarja zahtevo ali izraža negotovost, nejevoljo; izraža nasprotje s prej povedanim, pri tem lahko izraža prehod k drugi misli ali napoveduje nasprotje s pričakovanim; zdaj je lahko rabljen tudi vezniško, zlasti v zvezah zdaj ko ali zdaj – zdaj; pod ekspresivno rabo SSKJ navaja primere zdaj zdaj bomo doma ali še zdaj ne verjameš, kot medmetno rabo pa tip pripravljeni, pozor, zdaj. (Smolej, 2004a) uvrsti zdaj med delilne signale, ki na ravni organizacije besedila signalizirajo začetek besedila, konec, prekinjanje, ponovno navezovanje..., skratka prehod med posameznimi deli besedila. (Schlamberger Brezar, 1998) uvrsti zdaj med pragmatične povezovalce, natančneje med proaktivne zaznamovalce zgradbe interakcije.


6.2.9.1Pragmatične vloge zdaj


Izraz zdaj torej v osnovi izraža časovno dimenzijo, v vseh vlogah, tudi kot diskurzni označevalec. Ta časovna dimenzija je sicer najpogosteje sedanjost ali ta trenutek:


[TAko40.trs]

K23: eee pa se da to nekako da je kakšno[k/a:SnO] informacijo zdaj zvem ? [.]




ali na splošno sedanji čas:


[TAko47.trs]

K25: eee če imate[m/a:tE] vi[*] kakšne posebne ponudbe zdaj[z/a:j] po Egiptu ?


lahko pa tudi bližnja prihodnost:


[TAko47.trs]

Ako1 [prekr]: samo malo drugi peti [1]

Ako1: [2] je že tako[t/a:k] ali[al] tako[t/a:k] zasedeno zdaj[z/a:j] bo pa[+SOGOVORNIK_aha] iz Gradca ena varianta [.] in sicer isti[+SOGOVORNIK_aha] program


ali bližnja preteklost:


[TAko47.trs]

Ako1: je zelo varna država mi smo imeli[m/e:li] zdaj[z/a:j][+SOGOVORNIK_ja] dosti[d/o:st] dosti[d/o:st] gostov


Zdaj kot diskurzni označevalec povezuje diskurz s trenutkom govorjenja, umešča diskurz v čas, v katerem poteka. Če se pri tem rabi skupaj s pa ali glagolom zanimati (zdaj pa, zdaj me zanima ipd.), je izrazito napovedovalen, opozarja na vsebino, ki bo sledila:


[HOha61.trs]

Aha3: ja nekaj še je ja

K38: zdaj[z/a:j] pa ...

K38: eee aha to še me zanima vegetarijanski meni imate[m/a:tE] mogoče ?


[TAso16.trs]

K11 [prekr]: eee zdaj me pa zanima eee [1]

K11: [2] nisem ravno cenika si ogledovala kaj[+SOGOVORNIK_mhm] preveč kakšne pa so v tisti glavni sezoni recimo od petnajstega julija pa do petnajstega avgusta [1]

K11 [prekr]: [2] eee eee [1]

Aso1 [prekr]: [NERAZUMLJIVO-]bova kar[k\@r][-NERAZUMLJIVO] ...

K11: [2] cene ?


Usmerjenost naprej ima tudi v drugih položajih, kjer je rabljen kot diskurzni označevalec. Govorec tako nakaže, da bo še nekaj povedal. Pogosteje je rabljen med skladenjsko ali vsebinsko šibkeje povezanimi zaporednimi deli propozicijske vsebine:


[TAso07.trs]

Aso9: glejte[l*E:jtE] jaz bom eee tole majčkeno[m/a:jtSk@n] pobrskala pa vas pokličem nazaj ne?

Aso9: zdaj[z/a:j] če ne danes pa jutri ne?


Aha1: cena[+SOGOVORNIK_ja] na osebo tridnevnega paketa je sedeminpetdeset tisoč tristo tolarjev

Aha1: zdaj[z/a:j] to je nočitev z zajtrkom in pa večerjo torej polpenzion


[HOha50.trs]

Aha1: to je proti doplačilu zdaj[z/a:j] če[:] želite vas lahko prevežem v naš beauty[+angl] center pa vam bodo kolegice vse vso [NERAZUMLJIVO-]ponudbo v bistvu tudi[-NERAZUMLJIVO] [.] opisale [1]

Aha1 [prekr]: [2] ne?


[TAso11.trs]

Aso7: pika[+SOGOVORNIK_ja] com[+angl] ja

Aso7: zdaj[z\@j] ne vem koliko[k/o:k] je[+SOGOVORNIK_okej] ažurna mislim[m/i:sl@m] da nekaj stvari je že gori[g*O:r]



[TAko47.trs]

Ako1: eee[:][+SOGOVORNIK_aha] potem pa imate[m/a:stE] zdaj [.] vi bi tako[t/a:k] šli na potovanje kar vam tudi bolj[+SOGOVORNIK_ja] svetujem imate[m/a:tE] možnost tudi letovanja


6.2.9.2Položaj zdaj v izjavi


Položaj zdaj je 37-krat na začetku izjave:


[TAso17.trs]

Aso12: zdaj[z/a:j] konkretno recimo Zaton ne?


50-krat na začetku izjave skupaj z drugimi diskurznimi označevalci ali povezovalnimi sredstvi, vendar v neprvem položaju:


[HOpi24.trs]

K17: aha zdaj[z/a:j] v[f] hotelu pa ni nič kaj posebnega ?


[HOpi34.trs]

Api3 [prekr]: ampak zdaj[z/a:j] v bistvu [.] jaz bi rabil[r/a:bO][*] v bistvu bolj podatke koliko[k/o:k] časa moram jaz to rezervirat[*] prej ?


51-krat je rabljen sredi izjave. V mnogih od teh primerov stoji ob sintaktičnih mejah znotraj izjave:


[TAko40.trs]

Ako2: skratka tudi[t/u:t] ko vi me() zdaj[z/a:j] bom jaz rekla vi meni naročite ne vem vstopnico za levo desno tretje ne?[+SOGOVORNIK_jaja]


[TAko47.trs]

Ako1: to imate[m/a:stE] kolikor[k/o:lkO] vem samo malo polpenzion ampak zdaj[z/a:j] samo da še enkrat pogledam


ali pa spada bolj k propozicijski vsebini kot v vlogo diskurznega označevalca:


[TAko40.trs]

Ako2: ja da vam ga pošljem da si malo pogledate ne? ker jaz zdaj[z/a:j] malo skačem iz ene strani na drugo


6-krat je rabljen na koncu (običajno nedokončane) izjave:


[HOpi36.trs]

Api2: to se nam je že večkrat[+SOGOVORNIK_mhm] dogajalo ne? zdaj[z/a:j] ...


Slika 11 prikazuje položaj diskurznega označevalca zdaj v izjavi po odstotkih.

Slika 11: Položaj zdaj v izjavi po odstotkih.


6.2.9.3Sopojavljanje zdaj z drugimi diskurznimi označevalci


Če je zdaj prva beseda v izjavi, je pogosta zveza zdaj pa:


[HOha61.trs]

K38: zdaj[z/a:j] pa najkasneje kdaj bi jaz morala [.] potem ...


Z drugimi diskurznimi označevalci se v takem položaju praviloma ne druži, izjema je eee, čeprav je tudi ta veliko pogosteje pred zdaj, za zdaj je v korpusu rabljen le enkrat:


[TAso11.trs]

Aso7: zdaj eeem [.] samo trenutek


Se pa zdaj zelo pogosto rabi z drugimi diskurznimi označevalci v neprvem položaju. Če jih je več, je zdaj običajno zadnji – tudi to opozarja na njegovo prepletenost s propozicijsko vsebino:


[TPma42.trs]

Ama1: ja poglejte eee zdaj[z/a:j] v zvezi z Mariborom eee v bistvu mi eee organiziramo samo vodenja


V takih začetnih sklopih se najpogosteje sopojavlja za eee (18-krat):


[HOha50.trs]

Aha1: eee zdaj[z/a:j] koliko oseb bi bilo ?


Za aha (5-krat):


[TAko43.trs]

K29 [prekr]: aha zdaj[z/a:j] pa me še za() ...


Za ja (2-krat), za glejte (3-krat), za ja in glejte (2-krat), med ja in zdaj se lahko vrine tudi povezovalni element (primer s samo), tako rekoč na katerokoli mesto v takem nizu pa se lahko vrine eee:


[HOpi34.trs]

K19: ja zdaj[z/a:j] [SMEH] recimo recimo[r*E:tsmO] da bi jih[x][IZG] rabil[br/a:U][IZG] petnajst


[HOha50.trs]

Aha1: glejte[l*E:jtE] zdaj[z/a:j] v času [.] od prvega marca do tridesetega[tr/i:jEsEtEga] novembra veljajo tile paketi tri[*] letni časi


V začetnem sklopu diskurznih označevalcev lahko zdaj sledi še za no (3-krat):


[TAne77.trs]

Ane2: no zdaj[z/a:j] spet zopet odvisno ne?


Ali za povezovalnim in (4-krat), tako da (2-krat) in po enkrat za s tem da in ampak:


[TAso07.trs]

K6 [prekr]: s tem da zdaj cenovno ...


Če je zdaj rabljen sredi izjave, se običajno ne rabi skupaj z drugimi diskurznimi označevalci, razen redkeje z eee:


[TAso11.trs]

Aso7: glejte[l*E:jtE] gospod eee [ulica] eee zdaj[zd\@j] takole[tk/o:lE]


6.2.9.4Drugi sorodni izrazi


Zelo sorodno vlogo kot zdaj lahko opravlja izraz potem, vendar potem sodi bolj v skupino povezovalcev predstavne strukture, na njegovo povezovalno vlogo pa opozarjajo tako slovnica (Toporišič, 2000) kot (Smolej, 2004a) in (Gorjanc, 1998). Tu ga ne analiziram posebej.

6.2.10Oporni signali: mhm, ja, aha, aja, dobro, okej, tako, tudi, seveda


Termin oporni signali na kratko uvede Kranjc (1999: 62), povzet pa je iz nemške besedilne slovnice (Weinrich, 1993: 834) kot ustreznica za nemški Hoerersignale. Termin torej ne izhaja iz teorije diskurznih označevalcev, saj (Weinrich, 1993) v slovnici loči signale govorca (nem. Sprechersignale) ter signala poslušalca oz. oporne signale (nem. Hoerersignale), veliko izrazov, ki jih lahko štejemo med diskurzne označevalce, pa obravnava kot dialožne členke (nem. Dialogpartikeln). Teorija diskurznih označevalcev ne razvije posebnega termina, vzporednega terminu oporni signali, saj ne gre za posebne izraze, pač pa za poseben položaj, v katerem so lahko rabljeni diskurzni označevalci, kot so ja, mhm, aha... Njihova razlikovalna lastnost je, da ne uvajajo menjavanja vlog in tudi ne izražajo namena sogovornika, da prevzame vlogo. Zato je za govorne tehnologije koristen skupen pregled jezikovnih rab izrazov v tem položaju.

Opornih signalov v korpusu Turdis-1 je skupaj 554, vseh izjav pa 2393, statistično to pomeni en oporni signal na 4 izjave, s tem da tega ne smemo razumeti preveč dobesedno, saj uporablja sogovornik oporne signale predvsem med daljšimi vlogami govorca.

Pri interpretiranju rezultatov o pogostosti rabe opornih signalov ne smemo pozabiti na specifičnost telefonskih pogovorov, kjer ni mogoč očesni stik med sogovornikoma, torej lahko sogovornik potrjuje svojo pozornost samo glasovno.

Najbolj pogosti in najbolj tipični oporni signali so do zdaj obravnavani ja ter mhm in aha. Sicer pa so v korpusu v vlogi opornega signala rabljeni: aha 72-krat, aja 1-krat, dobro 8-krat, ja 213-krat in jaja, tj. dva ja izgovorjena zelo hitro skupaj, povsem brez premora, 16-krat, mhm 209-krat in mhmmhm – enako kot pri ja – 3-krat, okej 3-krat, seveda 1-krat, tako 23-krat, tudi 5-krat.

Slika 12 v odstotkih prikazuje pogostost posameznih opornih signalov.



Slika 12: Razmerja pogostosti uporabe posameznih opornih signalov.



6.2.10.1 Pragmatične vloge opornih signalov


Za diskurzne označevalce v položaju opornega signala velja enako kot v drugih položajih, zato namenim nekaj besed samo tistim izrazom v vlogi opornega signala, ki jih sicer ne obravnavam posebej.

To so besede tako, tudi in seveda. Te besede so v korpusu sicer pogoste (tako 147-krat, tudi 176-krat, seveda 18-krat), vendar so zelo redko v položaju opornega signala.

Tako podobno kot ja ali mhm izraža pritrjevanje, strinjanje ipd.:


[HOha50.trs]

K39: se pravi to je zdaj ponudba trije letni časi

K39: [SOGOVORNIK_tako]

K39: in če jih je več dobijo mogoče še kakšen popust ?


[TAso17.trs]

K12: dobro

K12: lepa hvala[+SOGOVORNIK_tako] zaenkrat [1]

K12 [prekr]: [2] bom še poklicala

Aso12 [prekr]: prosim


Tudi in seveda sta v korpusu samo po enkrat rabljena v položaju opornega signala. Tudi je pri tem rabljen podobno kot tako (lahko bi zamenjali enega z drugim):


[HOpi34.trs]

K19: to se pravi da[d][IZG] gre tudi[t/u:t] eee sokovi in tako dalje ne?

K19: to ni[+SOGOVORNIK_tudi] noben[+SOGOVORNIK_tudi] problem[+SOGOVORNIK_tudi]

K19: eee[+SOGOVORNIK_tudi] to[+SOGOVORNIK_tudi] se potem eee je pred to sobo kakšen[k/a:Sn][IZG] predprostor ?


Podobno velja za seveda:


[TAko40.trs]

Ako2: sem[sn] vas jaz dolžna poklicat[*] pa rečt[*] na žalost [ime] zdaj[z/a:j] pa so nama rekli da ni možno in seveda[s@v\@da] dobite denar[dn/a:r] nazaj to je jasno ne? denarja[+SOGOVORNIK_ja] ne[+SOGOVORNIK_ja] izgubite[zgub/i:tE][+SOGOVORNIK_seveda] ampak [.] saj pravim tudi[t/u:t] to ni ziher[*]


Tako, tudi in seveda so tudi v položaju opornega signala močno povezani s propozicijsko vsebino, njihova pragmatična vloga je manj izrazita.


Če strnem pregled pragmatičnih vlog izrazov, ki so lahko rabljeni v položaju opornega signala, ugotovim, da sta osrednji lastnosti opornih signalov, da sogovornik z njimi potrjuje, da je sporočilo sprejel in razumel, ter da zagotavlja svojo pozornost in zainteresiranost za diskurz še naprej. V tej osrednji vlogi pri najbolj tipičnih opornih signalih, mhm, aha in ja, skorajda ni razlike v rabi. Govorci jih lahko uporabljajo izmenično, morda tudi zato, da ne ponavljajo ves čas istega:













[TAko47.trs]

Ako1: tako[t/a:k] glejte je [.] Maribor[+SOGOVORNIK_ja] Graz Aqaba

Ako1: iz Graza[+SOGOVORNIK_mhm] na Aqabo se leti ne? drugi dan[+SOGOVORNIK_mhm]ste v Aqabi tako[t/a:k] na kratko vam bom program povedala[+SOGOVORNIK_ja] drugače imate[m/a:tE] internet

Ako1: mislim da je že objavljen sicer pa tudi[t/u:t][+SOGOVORNIK_aha] ta ko[*] je prej objavljen za drugi peti ista[+SOGOVORNIK_ja] zadeva

Ako1: [SOGOVORNIK_ja]

Ako1: pol[*] je Petra[+SOGOVORNIK_aha] Aman tetji dan

Ako1: [SOGOVORNIK_mhm]

Ako1: eee četrti dan Aman[IZG] Jerash Aman

Ako1: [SOGOVORNIK_mhm]

Ako1: peti dan Aman gora Nebo "mrtvo morje"

Ako1: [SOGOVORNIK_aha]

Ako1: potem imate[m/a:tE] Aman Wadi Mudžep Kings Vej[+SOGOVORNIK_mhm] Kerak Akaba

Ako1: sedmi dan[+SOGOVORNIK_ja] Akaba


6.2.10.2 Položaj opornih signalov v diskurzu


Statistika števila opornih signalov (554) in števila vseh izjav (2393) v korpusu sicer kaže 1 oporni signal na 4 izjave, vendar to ne pomeni, da so oporni signali enakomerno porazdeljeni skozi diskurz, ampak se uporabljajo večinoma tam, kjer ima govorec daljše vloge in daljše izjave. Pri transkribiranju korpusa ločim oporne signale, ki se prekrivajo z govorom govorca, in tiste, ki se ne prekrivajo, ampak so izgovorjeni v premoru, ki ga govorec naredi znotraj vloge. Opornih signalov, ki se ne prekrivajo, je 169, takih, ki se prekrivajo z govorom govorca (sem štejem tudi primere, ko se prekriva samo del besede), pa 385.

Za oporne signale, ki se prekrivajo z govorom govorca, lahko izračunamo povprečno dolžino izjave: takih izjav je 254 (manj kot opornih signalov zato, ker v teh izjavah pride povprečno več kot 1 oporni signal na izjavo), skupaj imajo 2885 besed, torej je povprečna dolžina izjav, na katere se sogovornik odzove z opornim signalom, 11 besed.

Oporni signali, ki se ne prekrivajo z govorom govorca, so izgovorjeni v premoru, ki ga naredi govorec, to je večinoma (159) premor med izjavami, ne znotraj izjave (10).

V 254 izjavah, kjer se oporni signali prekrivajo z govorom govorca, se v 53 izjavah prekrivajo z zadnjo besedo izjave govorca, v 91 izjavah pa s prvo besedo izjave. V 84 od teh izjav pa se rabijo tudi sredi izjave. Tudi za večino opornih signalov torej velja, da jih govorec izreče v bližini mej med izjavami govorca ali ob premorih govorca. Razporeditev opornih signalov glede na izjavo govorca prikazuje slika 13.


Slika 13: Položaj opornih signalov glede na izjavo govorca.


6.2.10.3 Sopojavljanje opornih signalov


Zelo izrazita je povezava opornih signalov (predvsem ja, mhm, aha, tako, manj dobro in okej) z diskurznim označevalcem ne?, ki pa jo obravnavam v 6.2.3.1.

Sicer pa se dokaj pogosto rabi isti oporni signal dva- ali večkrat zaporedoma (jaja in mhmmhm označim celo kot posebno varianto opornega signala, če sta izgovorjena izredno hitro zaporedoma):


[HOha50.trs]

K39: eeem treh ali[al] pa štirih Nemcev to zaenkrat še ne vem s() se pravi oni[+SOGOVORNIK_mhm] so pač iz Nemčije[+SOGOVORNIK_mhm]


[HOpi34.trs]

K19: da se[+SOGOVORNIK_tako] v bistvu[+SOGOVORNIK_tako] to izobesi

K19: tega ste[+SOGOVORNIK_tako] rekli v bistvu štir() štiri panoji [1]

K19 [prekr]: [2] so možni ne?


[TAso16.trs]

Aso1: sicer glejte[l*E:jtE] [.] to je [.] saj veste da so pri[p@r] pri[p@r] [angl-]magic life[IZG][-angl][+SMEH] mislim pri[p@r] [angl-]magic lifih[-angl] pri[p@r] teh [angl-]all inclusivih[-angl][+SOGOVORNIK_jaja] je[+SOGOVORNIK_jaja] tudi[t/u:t] ljudi[lud/i:] odvisno kako[k\ak] ne?[+SOGOVORNIK_jaja]


[TAko43.trs]

Ako1: prvomajsko imam[m/a:m] katalog za vse[fs*E:] kompletno imamo[m/a:mO] en katalog in tudi[t/u:d] imamo[m/a:mO] naše ponudbe na spletnih straneh objavljene[Obj/a:UlEnE]

Ako1: [SOGOVORNIK_aha][SOGOVORNIK_aha]


Redkeje se pojavljajo skupaj tudi različni oporni signali, npr. aha + ja, mhm + ja, ja + dobro, aha + dobro:


[TAko40.trs]

Ako1: če[+SOGOVORNIK_aha] boste[+SOGOVORNIK_ja] še malo[m/a:l] počakali [1]

Ako1 [prekr]: [2] ker smo polno zasedeni


[TAso06.trs]

Aso6: ja lahko [.] lahko ja[+SOGOVORNIK_mhm] seveda seveda ni problema[+SOGOVORNIK_dobro][+SOGOVORNIK_ja]


[TAko43.trs]

Ako1: ker za avio šalter[*] vam bo pa bolj[*] posebej povedala ne? kaj je pa kaj[+SOGOVORNIK_aha] ni to vam pa ne vem[*] povedat

Ako1: [SOGOVORNIK_aha][SOGOVORNIK_dobro]

Ako1: zdaj[z/a:j] je zasedena[+SOGOVORNIK_okej] pa da ne boste[OdE][IZG] se načakali enih[*E:ni][IZG] deset minut[+SOGOVORNIK_mhm] bi vas prosila[pr/o:sla] pa pokličite[pOkl/i:tStE] nazaj pa vam bo povedala bolj točno ne?


[TPma42.trs]

Ama1: ~W ~W ~W pika

Ama1: Maribor[+SOGOVORNIK_mhm]

Ama1: [SOGOVORNIK_ja]


6.2.11 Sklep


Iz analiz sklepam, da uravnavajo rabo diskurznih označevalcev naslednji temeljni principi.



Pri interpretiranju shematskih prikazov rabe analiziranih diskurznih označevalcev v tabelah 8 do 13 izrecno opozarjam, da so ti nujno poenostavljeni (kot je značilno za vse shematske prikaze) in skrčeni na temeljne pragmatične vloge, ki uravnavajo rabo posameznih diskurznih označevalcev. Ugotovitve temeljijo na specifični vrsti pogovorov, analiziranih v tej raziskavi, in jih nikakor ne smemo nekritično posploševati na druge diskurzivne vrste.


Diskurzni označevalec

Pomenski opis

ja

prav imate; strinjam se; razumem

ja?*

prosim?

mhm

razumem; prav imate

aha

razumem + izrazilo čustev (pomembna prozodija): presenečenje, razočaranje, veselje ...

aja*

zdaj razumem (prej sem se motil)

ne?/a ne?/ali ne?/jel?/ja?

imam prav?; se strinjate?; razumete?

no

-

eee, mmm

-

dobro, v redu, okej, prav

strinjam se

dobro?, v redu?, okej?, prav?

se strinjate?

poglejte/glejte

bodite pozorni na naslednje; bom razložil

saj veste

saj veste

veste (+ kje/kaj ...)*

veste (+kje/kaj...) (retorično vprašanje)

(a) veste* (v začetku izjave)

bom razložil

(a) veste* (v nezačetnem delu izjave)

razumete?

mislim*

hočem reči

zdaj

zdaj

*Zaradi majhnega števila primerov rabe v korpusu so rezultati lahko nepopolni.

Tabela 8: Pomenski opis analiziranih diskurznih označevalcev.



Diskurzni označevalec

Povezovanje nazaj

Povezovanje naprej

ja

+


ja?*


+

mhm

+


aha

+


aja*

+


ne?/a ne?/ali ne?/jel?/ja?


+

no

+


eee/mmm



dobro, v redu, okej, prav

+


dobro?, v redu?, okej?, prav?


+

poglejte/glejte


+

saj veste



veste (+ kje/kaj ...)*


+

(a) veste* (v začetku izjave)


+

(a) veste* (v nezačetnem delu izjave)

+


mislim*

+


zdaj


+

*Zaradi majhnega števila primerov rabe v korpusu so rezultati lahko nepopolni.

Tabela 9: Usmerjenost analiziranih diskurznih označevalcev k predhodni ali prihodnji vsebini.




Diskurzni označevalec

Usmerjen nazaj

Usmerjen naprej

ja

+


ja?*


+

mhm

+


aha

+


aja*

+


ne?/a ne?/ali ne?/jel?/ja?


+

no



eee/mmm



dobro, v redu, okej, prav

+


dobro?, v redu?, okej?, prav?


+

poglejte/glejte


+

saj veste


+

veste (+ kje/kaj ...)*


+

(a) veste* (v začetku izjave)


+

(a) veste* (v nezačetnem delu izjave)


+

mislim*



zdaj



*Zaradi majhnega števila primerov rabe v korpusu so rezultati lahko nepopolni.

Tabela 10: Usmerjenost analiziranih diskurznih označevalcev k sogovorniku.





Diskurzni označevalec

Odnos govorca do vsebine izjave prejšnjega govorca

ja


ja?*


mhm


aha

+

aja*

+

ne?/a ne?/ali ne?/jel?/ja?


no*

+

eee/mmm


dobro, v redu, okej, prav


dobro?, v redu?, okej?, prav?


poglejte/glejte


saj veste


veste (+ kje/kaj ...)*


(a) veste*


mislim*


zdaj


*Zaradi majhnega števila primerov rabe v korpusu so rezultati lahko nepopolni.

Tabela 11: Analizirani diskurzni označevalci kot označevalci odnosa govorca do vsebine.




Diskurzni označevalec

Menjavanje vlog

Organiziranje vsebine

ja

+


ja?*

+


mhm

+


aha

+


aja*

+


ne?/a ne?/ali ne?/jel?/ja?

+


no

+

+

eee/mmm

+

+

dobro, v redu, okej, prav

+

+

dobro?, v redu?, okej?, prav?

+


poglejte/glejte



saj veste



veste (+ kje/kaj ...)*



(a) veste*



mislim*


+

zdaj



*Zaradi majhnega števila primerov rabe v korpusu so rezultati lahko nepopolni.

Tabela 12: Analizirani diskurzni označevalci pri organiziranju poteka diskurza.


Analize, kje v izjavi se posamezni diskurzni označevalci najpogosteje rabijo, na začetku, na koncu ali sredi izjave, lahko združimo v primerjalno razpredelnico najznačilnejših položajev diskurznih označevalcev (tabela 13).



ja

ja?

mhm

aha

aja

ne?

no

eee

dobro

idr.

dobro? idr.

glejte

veste (+)*

(a) veste*

mislim

zdaj

Zač.

+


+

+

+


+

+

+


+

+



+

Sred.








+





+

+


Kon.


+


+


+

+

+


+



+



Tabela 13: Najznačilnejši položaji diskurznih označevalcev v izjavi.


Analize sopojavljanja diskurznih označevalcev pa lahko strnemo v sklep, da se diskurzni označevalci sopojavljajo predvsem v začetku izjave, pri tem pa je najbolj značilno zaporedje naslednje (znak # pomeni, da se lahko ta diskurzni označevalec ponovi dva- ali večkrat):


aha#/mhm#/aja ja# no# dobro/okej/v redu/prav# glejte zdaj


Na koncu izjave se (če se) praviloma rabi samo en diskurzni označevalec, prav tako sredi izjave. Veste in mislim v korpusu nista rabljena skupaj z drugimi diskurznimi označevalci. Eee se lahko uporablja na kateremkoli mestu v izjavi in se lahko vrine v katerikoli niz diskurznih označevalcev.

Pogostost rabe posameznih diskurznih označevalcev v korpusu Turdis-1 je naslednja:

eee/mmm 558

ja 319

ne?/a ne?/ali ne?/jel?/ja? 253

oporni signal ja 229

oporni signal mhm 212

zdaj 119

aha 111

dobro/v redu/okej/prav 98

oporni signal aha 72

no 51

mhm 33

poglejte/glejte 29

oporni signal tako 23

mislim 13

oporni signal dobro 8

veste kaj/kje ... 8

oporni signal tudi 5

veste 5

aja 4

ja? 3

oporni signal okej 3

oporni signal aja 1

oporni signal seveda 1

Skupaj: 2158


Vseh besed v korpusu, vključno z opornimi signali, je 15.717, vseh diskurznih označevalcev pa 2158. Diskurzni označevalci v analiziranem gradivu, telefonskih pogovorih v turizmu, torej predstavljajo 13,7 % vseh besed.

Tukajšnji seznam izrazov v vlogi diskurznih označevalcev nikakor ni dokončen ali zaključen, že iz tega gradiva bi lahko vključili še analizo rab izrazov v bistvu in tako da, v novem gradivu, posnetem v drugih situacijah in z drugimi govorci, pa bi nedvomno dobili še druge, ki jih v tem korpusu ni. Rezultati analiz veljajo predvsem za zvrst pogovorov v gradivu in nikakor niso popolna predstavitev njihove rabe.

Analiza ni bila usmerjena v ugotavljanje razlik v rabi na regionalni ravni, ki pa jih vseeno ne smemo zanemariti pri morebitni nadaljnji interpretaciji rezultatov – gradivo vendarle vključuje večinoma govorce iz SV narečnega prostora, pa čeprav gre predvsem za pogovorno, ne narečno socialno zvrst. Čeprav testna primerjava v rabi diskurznega označevalca ne? pri primerljivih govorcih iz osrednjeslovenskega in severovzhodnega geografskega področja ni pokazala bistvenih razlik, morebitna resna primerjalna raziskava ostaja izziv za nadaljnje delo. Prav tako pri morebitni nadaljnji interpretaciji rezultatov ne smemo zanemariti, da je jezikovna raba vedno tudi izraz posameznika, ne samo skupnosti, ki jim pripada. Zato moramo pričakovati, če se ukvarjamo z jezikovno rabo, da bomo vedno znova naleteli na inovacije in večja ali manjša odstopanja od splošnega, kot npr. ugotavljam v dveh pogovorih o pogostosti rabe opornih signalov. Splošen osebni vtis po opravljenih analizah je, da imajo vsaj nekateri govorci morda svoje »priljubljene« diskurzne označevalce, ki jih uporabljajo pogosteje kot druge označevalce in pogosteje kot večina govorcev, morda tudi v nekaterih novih položajih in vlogah oziroma v položajih in vlogah, kjer kak drug govorec morda uporablja drug diskurzni označevalec. Tudi to ostaja izziv za morebitno nadaljnjo raziskavo.

6.3Analiza popravljanj


Pri analizi popravljanj izhajam iz izhodišč v poglavju 4.4. Sledim naslednjemu postopku:


6.3.1Sintagmatsko-paradigmatski vidik popravljanj


Uporaba jezikoslovnih konceptov pri razvoju govornih tehnologij zahteva natančne definicije. Tako moramo tudi popravljanja definirati kar se da enoznačno in jasno, kar bom skušala narediti v nadaljevanju.

Pri iskanju definicije izhajam najprej iz (Smolej, 2004b), ki se sicer naslanja na (Blanche-Benveniste, 1991). Pri spontanem govorjenem diskurzu so (delno) razkriti procesi tvorjenja ali z drugimi besedami, spontan govorjeni diskurz ni načrtovan daleč naprej, le redko več kot nekaj besed. Govorec torej šele sproti, med govorjenjem načrtuje, kako bo nadaljeval izjavo. Ta teorija na strukturni ravni tudi širše razloži značilnosti spontanega govorjenega diskurza; sprotno načrtovanje se namreč kaže na več ravneh, najopazneje morda na oblikoskladenjski. Znotraj izjave se kaže na primer v besednem redu:


[TAko47.trs]

K25: eee veste kaj mene zanima eee če imate[m/a:tE] vi zdaj[z/a:j] kakšne posebne eee ponudbe [.] ugodne mogoče popotovanja po Egiptu ?


[TPma37.trs]

K5: eee to je na vrhu kje potem tega "meljskega hriba" ?


[TPma57.trs]

K31: dober dan mene zanima za mmm "festival Lent" če že imate[m/a:tE] kaj informacij ?


V slovenščini kot visoko pregibnem jeziku se lahko sprotno načrtovanje tvorjenja pogosteje kot v manj pregibnih jezikih kaže tudi tako, da se trenutne oblike ne ujemajo vedno s predhodnimi oblikami, pa jih govorec vseeno ne popravlja:


[TAne77.trs]

K44: eee ne vem [NERAZUMLJIVO-]vem da so ti ka() [-NERAZUMLJIVO] eee vem da so ti kampi na primer v Korzika Sicilija


[TAko40.trs]

K23: recimo da[+SOGOVORNIK_ja] je iz apartmaja[apartm/a:na] do teh olimpijske vasi kamor bo tu ne?


[TAso11.trs]

Aso7: ker mislim[m/i:sl@m] da glede razlike v samem[s/a:mu][IZG] najemu in potem v polpenzionu je tako[t/o:k] majhna da se v bistvu splača vzet kakšen polpenzion v enem[*E:nmu] od hotelov



[TAko40.trs]

Ako2: jaz dobivam vse pismeno pa to ampak recimo da se bo čez en mesec potem zgodilo da stranke te in te na žalost je ne moremo[m/o:rmO] več potrdit oziroma ne moremo[m/o:rmO] potrdit[*]


V vseh zgornjih primerih govorec nadaljuje sintagmatsko os in ne popravlja ničesar.

Večina tujih raziskovalcev (Schegloff, 1979; Levelt, 1983; Allwood et al., 1990) med popravljanja že šteje primere, ko se govorec na sintagmatski osi ustavi, prekine tok govora in naredi ali samo tih premor (molk) ali z diskurznim označevalcem nakaže premor (eee, eeem), npr.:


[HOpi71.trs]

Api6: plus taksa sto štiriinsedemdeset[st/o:St\@rns\@ndEsEt] pa neke [+SOGOVORNIK_mhm] [.] pare


[HOpi71.trs]

K36: ja to je vseeno ali[al] je poleti ali[al] eee pozimi ?


Sama takih primerov ne štejem med popravljanja.

V okviru popravljanj moramo posebno pozornost nameniti ponavljanjem, saj je tukaj lahko meja med popravljanjem in nepopravljanjem najtežje določljiva. Ponavljanje je po eni strani izredno pogost instrument popravljanja, saj govorec v popravku pogosto ponovi del popravljene enote. Prav tako govorec s ponavljanjem znotraj iste izjave ne samo prekine sintagmatsko os, ampak se tudi vrne po njej nazaj za ponovljeni niz. Po drugi strani pa lahko ima ponavljanje še številne druge funkcije, ki jih nikakor ne moremo prišteti k popravljanjem, npr. poudarjanje, potrjevanje, zagotavljanje, in se prav tako pogosto kot znotraj vloge pojavlja tudi na ravni menjavanja vlog, recimo kot potrjevanje, da je sogovornik pravilno razumel govorčevo sporočilo, pozitiven odgovor na vprašanje ipd. (prim. Perrin et al., 2003). Nekaj primerov ponavljanj znotraj iste vloge iz korpusa Turdis-1:


[HOha61.trs]

Aha3: eee ni problem julij ni tako[t/a:k] zaseden tako[t/a:k] da lahko vi tudi tam konec[k/o:nts] junija recimo [1]

Aha3 [prekr]: [2] povprašate

K38 [prekr]: konec[k/o:nts] junija

Aha3 [prekr]: sploh ni ni ni

K38 [prekr]: v redu

Aha3 [prekr]: ni strahov da ne bi


[HOpi36.trs]

K2 [prekr]: eee za parkiri() [.] [1]

K2: [2] za pi() parkirišče[+SOGOVORNIK_ja] me zanima ne? ker [1]

K2 [prekr]: [2] ta hotel je [1]

Api2 [prekr]: imamo[m/a:mO] imamo[m/a:mO]

K2: [2] relativno v[f] centru


[HOha50.trs]

K39: in če me zanim() oziroma najprej me zanima na kakšen[IZG] način bi lahko vi potem tovrstnega gosta ki je navajen res zgolj na najboljše ampak [.] brez[br\@s] brez[br\@s] pretiravanja


Če bi hoteli pri tem ločiti ponavljanja, ki so tudi popravljanja, od tistih ponavljanj, ki npr. samo poudarijo nek del vsebine, bi morali analizirati govorčeve namere. Toda pri ponavljanju bomo večkrat stežka nedvoumno določili, zakaj je govorec ponovil neko enoto besedila. Zato tehnicistično ločim ponavljanja, pri katerem govorec nič ne spremeni (tudi besednega reda ponovljenih enot ne), od ponavljanj, kjer govorec karkoli spremeni v primerjavi s prvo pojavitvijo: besedni red, izgovori ponovljeno besedo/besedno zvezo drugače kot prvič, tj. z drugačnim naglasnim mestom, morda je prvič beseda prekinjena ali se mu je prvič zareklo ipd. Med popravljanja štejem samo drugo skupino ponavljanj (ko je karkoli spremenjeno), in sicer samo znotraj iste vloge. Pri označevanju gradiva se ta kriterij izkaže kot ustrezen. Prav tako ne štejem k popravljanjem molkov in glasovnih premorov, če se govorec pri nadaljevanju ne vrne nazaj po sintagmatski osi, ampak nadaljuje, kjer je prekinil tok govora. S tem v večji meri izločim tiste prekinitve, ki jih (Levelt, 1983) označi kot prikrita popravljanja. Poleg že naštetih razlogov takšno odločitev podpira tudi dejstvo, da so v transkribiranem govornem korpusu ti dogodki tudi strojno sledljivi.


Iz zgoraj zapisanega je že jasno, da popravljanja strukturno prepoznamo po tem, da se govorec vrne nekoliko nazaj po sintagmatski osi. Toda ali je to zadosten kriterij? Ne.

Pri ponavljanjih smo že dejali, da gre sicer za vrnitev nazaj po sintagmatski osi, pa to ni vedno popravljanje. Podobno lahko ugotovimo npr. za naštevanje:


[HOpi78.trs]

Api2: zgleda pa kot malo večja učilnica s tem da ima pač vse potrebne stvari noter kot so[:] [.] video projektor računalnik ozvočenje


Bolj dvoumni so primeri, ko govorec nekaj dodatno, natančneje pojasnjuje. (Levelt, 1983) tudi te primere uvrsti med popravljanja. Menim, da ti primeri odstopajo od drugih popravljanj, saj ni očitne prekinitve strukture, ki je sicer značilna za popravljanja:


[HOpi78.trs]

K30: eee študenti organiziramo en[*] tak[*] letni sestanek oziroma srečanje


[TPma42.trs]

K39: poglejte v zvezi bom rekla s ponudbo [.] ki bi bila[bl/a:] mogoče posebej[pOs/e:bi] [.] za bolj takšne eee zahtevnejše goste narejena oziroma pripravljena [.] oziroma za takšne petičneže


[HOpi78.trs]

K30 [prekr]: kaj pa eee sobe oziroma pač dvorana predvsem je klimatizirana ?


[TPma42.trs]

K39: eee samo toliko[t/o:k] me zanima se ukvarjate tudi[t/u:d] z organizacijo glasbenih dogodkov se pravi koncertov ?


[TPma44.trs]

K24: eee za kakšno rekreacijo mogoče kakšno kolesarstvo za sposodit kakšna kolesa če je možno ?


[TPma65.trs]

K33: aha no zanima me območje tam blizu Pohorja če bi bila[bl/a:] kaka kolesarska pot tam skozi ali[al] pa preko ali pa kaj takega


[HOha50.trs]

Aha1: s tem da so pa cenik je informativen[informat/i:Un]

Aha1: cene so informativne v evrih ne? niso fiksne cene to


[HOpi24.trs]

Api1: tukaj[+SOGOVORNIK_mhm] pa jim je na voljo so bazeni savna in pa eee fitnes


[HOpi34.trs]

Api3: ker[k@r] v edino v tem prostoru [.] edino v tej sejni sobi [.] je možno je različna možnost postavitev miz


Če se govorec vrne po sintagmatski osi daleč nazaj, je lahko vmes vrinjena zaključena struktura, namen vračanja pa je vzpostavitev povezave z začetno strukturo, ki je bila zaradi vrinjene prekinjena:


[TAso16.trs]

Aso1: je pa cena te eee sobe balkon morska stran ne?[+SOGOVORNIK_mhm] je sto devetindvajset[dEv/e:tindv/a:jz] devetsto


[HOpi34.trs]

Api3: če im() imate možnost ne?[SOGOVORNIK_ja]

Api3: je fino da ne pride do [.] duplih[*] rezervacij oziroma do zmešnjav je boljše da se pri vas prijavijo


[TPma42.trs]

K39: pa če mi lahko mogoče malo[m/a:l] kar se tiče štajerskega oziroma mariborskega konca [.] lahko vi malo[m/a:l] svetujete in pomagate


Iz zadnjih primerov torej ugotovimo, da pri popravljanju vrnitev po sintagmatski osi nazaj sledi takoj za tistim delom besedila, ki je popravljen.

Primeri popravljanj spodaj pa kažejo, da lahko vrnitev pri popravljanju seže vse od posameznih glasov, ki nakazujejo začetek neke besede, do daljših skladenjskih enot, govorec pa pri tem pogosto v sintagmatsko os tudi vrine krajši ali daljši niz. V primerih je del besedila, ki je popravljen, podčrtan, diskurzni označevalci pred popravljeno enoto ali po prekinitvi niso vključeni, ker so že v prejšnjem poglavju (6.2) definirani kot posebna kategorija:


[HOha61.trs]

K38: jaz bi vprašala[fpr/a:Sala] če še imate[m/a:tE] kaj prostega eee v prvi teden[t/e:dn] v juliju ko »festival Lent« poteka


[HOpi24.trs]

K17: eee kaj pa te[*] potem še kakšne recimo kaka večerja posebna ?


[HOpi36.trs]

Api2: ampak[+SOGOVORNIK_mhm] tukaj pred hotelom imamo[m/a:mO] parkirišče in se še ni() do zdaj odkar jaz delam tukaj se še nikoli nič ni zgodilo


[TPma42.trs]

Ama1: eee potem eee recimo lahko gredo[gr/e:jO] tudi na ogled v [.] takrat bo že tudi odprt »mariborski grad« ne? bojo imeli[m/e:li] tudi pokrajinski muzej bo imel oglede


[TAko56.trs]

K35: pa od kod bi se če se gre z Brnika ali[al] se da [.] [TIHO-] od kje drugod mogoče kaj[-TIHO]


[TPma37.trs]

Ama1: eee eee no na levi stra() vi zavijete pa na levo tako[t/a:k] v gor v hrib ne?


[HOha50.trs]

K39: in zdaj[zd\@j] bi jih ze() pač za takšne štiri[St/i:r] pet dni počitnic ki jih bojo imeli[m/e:li] v Sloveniji bi jim pač seveda rada [.] naredila[nard/i:la] nekaj[n/e:ki] naj() ali[al] pa vsaj ponudila[pOn/u:dla] nekaj[n/e:ki] izmed boljših stvari a ne?


6.3.2Pragmatični vidik popravljanj


Sintagmatsko-paradigmatski vidik popravljanj nam pomaga zamejiti popravljanja na sintagmatski osi, za natančnejšo razlago popravljanj pa na kratko poglejmo še pragmatični vidik.

Odprtost spontanega govorjenega diskurza, ki omogoča vpogled v izbiro jezikovnih sredstev pri tvorjenju besedila na sintagmatski in paradigmatski osi, omogoča, da govorec na katerikoli točki (tudi sredi besede) prekine začeto strukturo in jo ali nadaljuje ali spremeni ali zamenja z drugo strukturo ali jo enostavno pusti nedokončano ipd. Prekinitev je prvo dejanje vsakega popravljanja v diskurzu, zato skušam najprej analizirati tiste pragmatične vidike, ki vodijo k temu, da govorec prekine začeto strukturo.


Do zdaj nisem posebej omenjala kontekstne vpetosti diskurza, saj je tako stališče tako imanentno analizi diskurza, da ga ni treba posebej izpostavljati. Kontekstna vpetost in možnost sprotne interakcije pri pogovoru med drugim omogočata večjo stopnjo implicitnosti in eliptičnosti pogovora, kot lahko npr. opazujemo v naslednji izjavi:


[TAko47.trs]

Ako1: pol[*] pa imate[m/a:tE] križarjenje po Nilu eee prevoz iz Maribora pa z letalom potem iz Budimpešte je[E] tista klasika


Dejstvo, da sta sogovornika v pogovoru del aktivnega kontekstnega okolja, je treba upoštevati tudi pri razlagi pragmatične dimenzije prekinjenih struktur.

Sicer redko, pa vendar, namreč vodijo k prekinitvi strukture povsem zunanjeokoliščinski dejavniki, na primer slaba telefonska zveza, zaradi česar govorec prekine izjavo in preveri, ali se s sogovornikom slišita:


[TAso17.trs]

K12: veste kaj bi jaz vprašala [1]

K12 [prekr]: [2] za letovanje [1]

Aso12 [prekr]: izvolite[izv/o:ltE]

K12: [2] za ...

K12: halo ?

Aso12 [prekr]: ja poslušam izvolite[izv/o:ltE]

K12 [prekr]: za letovanje [1]

K12: [2] za v okolico Zadra morda tam Zaton pa to ampak v kasnejšem terminu če že če je že kaj ...


Veliko bolj pogosto so razlogi za prekinitev v usklajevanju aktivnosti sogovornikov. (Clark, 2002) sicer v nekoliko drugačnem kontekstu primerja govorjeni diskurz z valčkom ali igranjem v duetu, kjer morajo udeleženci koordinirati svoja dejanja, da so uspešni. Sogovornika morata ves čas diskurza usklajevati svoje aktivnosti. Začeta struktura je podrejena usklajevanju ali drugače rečeno, če se v diskurzu pokaže potreba po aktivnem usklajevanju aktivnosti sogovornikov, je lahko zaradi tega začeta struktura prekinjena (in dokončana kasneje ali pa je povsem opuščena). Večina teh prekinitev je, razumljivo, povezana z menjavanjem vlog.

Tako na primer neredko ostane struktura nedokončana, ko je iz aktualiziranega konteksta dovolj nedvoumno razumljiva vsebina, ki bi sledila v nedokončani strukturi. V teh primerih sogovornik pogosto začne svojo vlogo (običajno drugi del bližnjega para po teoriji bližnjih parov), še preden govorec zaključi strukturo:


[HOpi34.trs]

K19 [prekr]: udeležencev in [.] [1]

K19: [2] in #tujcev# ne? to se pravi Nemariborčanov[+SOGOVORNIK_ja] bi bilo[bl/o:] recimo[r*E:tsmO] tam nekje do petnajst [.] ne?

K19: [SOGOVORNIK_aha]

K19: ne? tako[t/a:k] da zdaj[z/a:j] [1]

K19 [prekr]: [2] kaj mi lahko vi ...

Api3 [prekr]: potem bi bila[bla] primerna [1]

Api3: [2] naša sejna dvorana ne?


Soroden je tudi naslednji primer, kjer govorec z eee nakaže, da struktura še ni končana, vendar sogovornik iz aktualiziranega konteksta razume vsebino in jo dopolni:


[TAso11.trs]

Aso7: eee zdaj mi boste malo[m/a:U] povedal[*] eee kje ste že kaj[k\@j] bil[*] tako[tk/o:] da [.] vam znam ponudit[pOn/u:d@t] tisto kar[*] niste bil[*]

Aso7 [prekr]: halo ?

K7 [prekr]: nimam [1]

K7: [2] kakšnih eee ...

Aso7: nimate želj aha


Pogosto govorec prekine izjavo, ker skuša sogovornik prevzeti vlogo ali prevzame vlogo ali nakaže namero, da bi rad prevzel vlogo:


[HOpi34.trs]

K19: to se da tudi[t/u:t] organizirat ?

Api3: tudi se da organizirat [angl-]coffee breaki[-angl]

K19: to se pravi [1]

K19 [prekr]: [2] to bi bilo[bl/o:] po() ...

Api3 [prekr]: ni to po [1]

Api3: [2] želji to poveste eee kaj si želite slano pecivo sladko pecivo sadje[+SOGOVORNIK_mhm] kava[+SOGOVORNIK_mhm] voda[+SOGOVORNIK_mhm] oziroma pogostitev med eee med odmori eee [.] tudi se vse dogovorite pri nas


Če govorec ne prekine izjave, ko skuša sogovornik prevzeti besedo oziroma nakaže namero, da bi prevzel besedo (z diskurznim označevalcem), ostane nedokončana sogovornikova izjava:


[HOpi34.trs]

K19: in zdaj[IZG] je[IZG] treba dat[*] te vabila za papirje in tako dalje med drugim[+SOGOVORNIK_ja] bi bilo[bl/o:] to cirka dvajset ljudi

Api3 [prekr]: ja potem bi verjetno ...

K19 [prekr]: udeležencev in ...

K19: in #tujcev# ne? to se pravi Nemariborčanov[+SOGOVORNIK_ja] bi bilo[bl/o:] recimo[r*E:tsmO] tam nekje do petnajst [.] ne?


Tretja skupina prekinitev pa je povezana predvsem s procesi pri tvorjenju govora, torej izhaja iz govorca samega in jo lahko uvrstimo v psihološko dimenzijo diskurza. Govorec med govorjenjem med drugim izreka glasove, načrtuje, kaj bo povedal, in opazuje, kaj je povedal. Govorec tako lahko prekine govor, ker: potrebuje več časa za tvorjenje na nekem mestu sintagmatske osi, kot bi ga imel ob neprekinjenem toku govora, spremeni strategijo, opazi napako, ima težave pri izrekanju... Seveda govorec teh razlogov večinoma ne razlaga eksplicitno, ampak lahko o njih samo sklepamo iz aktualiziranega konteksta. Zato ni smiselna pretirano podrobna razdelitev, saj nikoli ne bomo mogli nedvoumno razvrstiti vseh primerov.

Govorec prekine govor, ker potrebuje več časa za tvorjenje: s tem lahko razložimo večino prekinitev s premori, diskurznimi označevalci iz sklopa eee, pa tudi precej zaporednih ponovitev besede ali besedne zveze, možne pa so tudi različne kombinacije teh:


[TAko40.trs]

Ako2: imate[m/a:tE] pa recimo zdaj[z/a:j] eno eee zgolj informativno varianto da boste[UtE] malo videli[v/i:dli] koliko[k/o:k] [.] koliko[k/o:k] stane


Enako lahko tako razlagamo prekinitve, ko govorec ne najde ustrezne besede ali informacij v trenutku govorjenja:


[TPma65.trs]

Ama2 [prekr]: aha to je [1]

Ama2: [2] tale kaj je že eeem ...

Ama2: kako[k/a:k] se imenuje

Ama2: eee ~M [.] na ~M

Ama2: ne


[HOpi78.trs]

Api2: dvoposteljna bi bila[bl/a:] pa [TIHO-]potem osem tiso() ...[-TIHO]

[TISINA]

Api2: šestnajst[SEsn/a:js] tisoč osemsto


Govorec prekine strukturo, ker spremeni strategijo: spremembe strategije med govorjenjem so lahko različno obsežne. Na eni strani najdemo spremembe na ravni propozicijske vsebine, ko govorec prekine prvotno propozicijsko vsebino in začne povsem novo, ker jo morda smatra za bolj zanimivo, bolj pomembno, bolj informativno kot prvotno vsebino:


[HOha50.trs]

K39: se pravi tam je zraven cena potem vse ugo() ...

K39: eee če imate[m/a:tE] mogoče že kaj[k\@j] tovrstnega materiala kar[k\@r] v angleščini ali[al] pa nemščini bi mi bilo[bl\O] dosti[d\Ost] ljubše


Lahko samo drugače ubesedi neko vsebino, kot je sprva nameraval:


[HOpi34.trs]

Api3 [prekr]: ja in na tem naslovu je potem to je naša spletna stran na katerem dobijo[+SOGOVORNIK_mhm] vse informacije


Zelo pogosto samo kaj doda k začeti propozicijski vsebini, npr. natančnejše informacije:


[HOpi36.trs]

Api2: ampak[+SOGOVORNIK_mhm] tukaj pred hotelom imamo[m/a:mO] parkirišče in se še ni() do zdaj odkar jaz delam tukaj se še nikoli nič ni zgodilo


Ali pa lahko o spremembi sklepamo samo iz popravka obliko-skladenjskega ujemanja:


[HOpi78.trs]

K30: eee koliko[k/o:lkO] pa potem stane nočitev pa recimo da so eee da je poln penzion se pravi ...


Govorec prekine strukturo, ker opazi napako: pod to skupino najlažje prepoznamo primere, ko govorec popravi vsebinsko napako:


[TAko47.trs]

Ako1: pa imate[m/a:tE] štirindvajseti[St\@rindv/a:jsti] peti

Ako1: eee[+SOGOVORNIK_mhm] štirindvajseti[p/e:tindv/a:jsti] petindvajseti[St\@rindv/a:jsti] četrti pardon lažem


Veliko težje je o razlogu za prekinitev zanesljivo sklepati, kadar govorec samo popravi obliko, npr.:



[TAko47.trs]

Ako1: nobenega[nOb*E:nga] nezadovoljnega gosta ni bilo[bl/o:] niti bi pri() je prišel[pr/i:SO] kdo s kakimi negativnimi povratnimi informacijami


Govorec prekine strukturo, ker ima težave pri izrekanju: tako lahko razlagamo naslednje primere:


[HOpi34.trs]

Api3: ker[kE][IZG][+SOGOVORNIK_aha] zelo[z/o:lu][+NERAZUMLJIVO] eee zelo[zl/o:] lep ambient ne?


[TPma37.trs]

K5: eee sošolec iz srednje šole organizira eee obletnico ma() eee mature eee na "ribičiji" v Mariboru


[HOpi36.trs]

K2: eee za parkiri() [.] za pi() parkirišče[+SOGOVORNIK_ja] me zanima ne? ker ta hotel je relativno v[f] centru


[TPma65.trs]

Ama2: ja glejte mi imamo[m/a:mO] eee kolesarske poti oziroma karto eee[+SOGOVORNIK_ja] z

naz[.]slovom[IZG] "kolesarjenje med Pohorjem in Muro"


Iz pragmatičnega vidika govorim o popravljanjih samo, kadar izvirajo iz procesov pri tvorjenju govora, razen kadar govorec prekine govor, ker samo potrebuje več časa za tvorjenje. Tuji raziskovalci so sicer pogosto tudi te dogodke označevali kot popravljanja, npr. (Levelt, 1983) jih uvrsti k prikritim popravljanjem, češ da gre za neke vrste popravljanje notranjega govora. Menim, da za to ni dovolj dokazov. Na površinskem besedilu se te prekinitve kažejo na tri načine (ali tudi s kombinacijo teh): molk, diskurzni označevalec, ponovitev. Ne smemo spregledati, da so lahko te vrste prekinitev tudi sredstvo poudarjanja.

Ko govorim o popravljanju, mora biti poleg navedenih pragmatičnih vidikov izpolnjen tudi pogoj, da se govorec vrne po sintagmatski osi nazaj. Če torej govorec spremeni strategijo na najvišji ravni, da začne povsem novo propozicijsko vsebino, ali če spremeni strategijo, brez da bi prekinil tok govora in uskladil preteklo besedilo z novo strategijo, npr.:


[HOpi34.trs]

K19: in zdaj[IZG] je[IZG] treba dat te vabila za papirje in tako dalje med drugim[+SOGOVORNIK_ja] bi bilo[bl/o:] to cirka dvajset ljudi


ne gre za popravljanje.

O popravljanjih torej govorim, ko je znotraj iste vloge govor prekinjen in sledi premik nazaj po sintagmatski osi (lahko tudi samo za en fonem ali pa po drugi strani za daljšo obliko-skladenjsko enoto), da se besedilo uskladi s spremenjeno strategijo, se popravi napaka ali težave pri izrekanju.

V korpusu Turdis-1 je največ popravljanj zaradi spremembe strategije – približno 70 %, okoli 20 % popravljanj je zaradi težav pri izgovorjavi in 5 % zaradi napake. Ocene so približne, saj – kot že rečeno – ne moremo vedno dovolj natančno razbrati razloga za popravek.




6.3.3Struktura popravljanj v korpusu Turdis-1


Strukturne enote, ki jih lahko ločimo pri dejanju popravljanja, so: popravljeno (del besedila, ki ga bo govorec popravil), prekinitev govornega niza, popravljalna sredstva, ki uvajajo popravek (diskurzni označevalci, molk, podaljšan fonem), popravek. Pri razvoju govornih tehnologij lahko torej popravljanje potencialno razpoznamo v treh točkah: prekinitvi, popravljalnih sredstvih, popravku, seveda pa moramo vedeti tudi, kateri del besedila je popravljen. V nadaljevanju natančneje analiziram te enote.


V korpusu Turdis-1 je popravljanje izvedeno v 185 od 2459 izjavah ali v približno 8 % izjav. V nekaterih izjavah je popravljanje večkrat, tako da je vseh popravljanj skupaj 220.


Del besedila, ki je popravljen (npr. to bi za g() kdaj bi to približno po() eee potrebovali), je lahko različno dolg, vendar v korpusu nikoli ne obsega več kot 6 besed, s tem da se skoraj 90 % popravkov nanaša na največ do 3 besede nazaj. Če je beseda prekinjena, jo vseeno štejem za novo besedo. Najpogosteje, v 50 % popravljanj, je popravljena samo 1 (prejšnja) beseda, od tega je več kot polovica teh popravljanj ali 30 % vseh popravljanj takih, da je popravljena beseda prekinjena, torej je izgovorjen samo en, dva, trije ali več začetnih fonemov te besede (npr. mize tudi l() pripravimo). Podobno kratek segment govora je popravljen, ko je popravljena beseda predlog, recimo predlog v (2 % popravljanj, primer: ker[k@r] v edino v tem prostoru). Poseben primer sta 2 popravljanji (manj kot 1 %), kjer govorec nadaljuje popravek sredi besede, npr. naz[.]slovom. Natančnejši podatki iz korpusa o številu besed v delu besedila, ki je popravljeno, so v tabeli 14.



Št. besed v popravljenem delu besedila

Št. popravljanj v

korpusu v %

Št. popravljanj

1 beseda

50 %

108-krat

2 besedi

27 %

60-krat

3 besede

11 %

25-krat

4 besede

8 %

18-krat

5 besed

2 %

5-krat

6 besed

2 %

4-krat

Tabela 14: Število besed v popravljenem delu besedila v korpusu Turdis-1.

Skupaj je torej v korpusu popravljenih 424 besed oz. približno 3 % besedila.


Prekinitev je obvezen del popravljanj, kot jih razumem tukaj, vendar je lahko dokaj problematična za strojno razpoznavo. Smiselno je ločiti dva načina prekinitve začete strukture: sredi besede ali med besedami. Prekinitev sredi besede je za človeka hitro razpoznavna, pri strojnem razpoznavanju pa lahko tu pričakujemo nekaj težav. Takšnih popravljanj je v korpusu Turdis-1 malo več kot polovica, tj. 120 od 220. Prekinitev začete strukture med besedami je v korpusu 100. Te vrste prekinitev začete strukture so tudi za človeka težje razpoznavne, kot bomo videli spodaj, pa so pogosteje označene s popravljalnimi sredstvi, ki sledijo prekinitvi. Za strojno razpoznavo je razpoznavanje prekinitev lahko zelo težavno, morda je možnost v prozodičnih modelih, vendar je na tem področju za slovenščino še zelo malo raziskanega.

Kot je vidno iz poglavja 6.3.2, vseh prekinitev ne štejem k popravljanju. V korpusu je skupno 172 prekinitev sredi besede, od tega 120 zaradi popravljanja, ostale pa se pojavljajo večinoma ob nedokončanih izjavah, npr. se pravi to bi bilo[bl/o:] po()..., nedokončanih izjav (izjava ni nujno prekinjena sredi besede), torej takih, ki jih govorec prekine zaradi usklajevanja aktivnosti s sogovornikom ali iz zunanjeokoliščinskih razlogov, pa 176. Prekinitev (ali sredi besede ali med besedami) je torej le v približno polovici primerov del popravljanja.


Lažje je strojno razpoznati naslednjo točko v popravljanjih, popravljalna sredstva. Tabela 15 prikazuje, kolikokrat je katero popravljalno sredstvo v Turdisu-1 uporabljeno za popravljanjem, ki je začeto s prekinitvijo sredi besede.


Popravljalno sredstvo

Št. pojavitev

V odstotkih glede na št. popravljanj

(samo nad 4 %)

eee

24

11 %

[.]

10

4 %

eee [.]

1

-

oziroma

3

-

ja

3

-

mmm/nnn

2

-

mmm [.]

1

-

SMEH

2

-

zdaj

2

-

mislim

1

-

no

1

-

ne?

1

-

uf

1

-

Skupaj

52

~ 24 %


Tabela 15: Popravljalna sredstva pri popravljanjih, kjer je prekinitev sredi besede.

Kar v tri četrt primerih torej po prekinitvi sredi besede govorec ne uporabi nobenega popravljalnega sredstva, ampak takoj po prekinitvi začne popravek. Če že uporabi katero popravljalno sredstvo, je to najpogosteje eee ali premor.

Tabela 16 prikazuje popravljalna sredstva, uporabljena pri popravljanju po prekinitvi med besedami.


Popravljalno sredstvo

Št. pojavitev

V odstotkih glede na št. popravljanj

(samo nad 2 %)

eee

27

12 %

[.]

25

11 %

eee [.]

1

-

[:]

5

2 %

[:] [.]

2

-

[:] [.] eee

1

-

[.] no

1

-

oziroma

1

-

ja

1

-

mmm/nnn

2

-

SMEH mislim

1

-

mislim

2

-

ne

1

-

pardon12

1

-

Skupaj

70

~ 32 %

Tabela 16: Popravljalna sredstva pri popravljanjih, kjer je prekinitev med besedami.

Če je popravljanje izvedeno po prekinitvi med besedami, pogosteje sledi najprej popravljalno sredstvo. Daleč najpogostejše je diskurzni označevalec eee, zatem premor ([.]), posebnost pa je podaljševanje običajno zadnjega zloga popravljene besede ([:]), torej pred prekinitvijo.

Problem strojnega detektiranja popravljanj po popravljalnih sredstvih pa ni toliko njihova nedosledna raba pri popravljanjih kot to, da so veliko pogosteje rabljena tudi drugače, ne samo kot popravljalna sredstva, kar velja celo za za popravljanje najbolj značilna sredstva: eee je v korpusu rabljen 560-krat in torej samo v približno 10 % rab označuje popravljanje; molk je v korpusu označen 260-krat, v 15 % rab označuje popravljanje; podaljšan zlog je v korpusu označen 83-krat, v 10 % rab označuje popravljanje.


Popravek pogosto vključuje ponovitev vsaj nekaterih elementov popravljenega, delno ponavljanje je torej lahko ena od strategij popravljanja. Ločim ponovitev elementov na ravni izraza (besede, več besed, tudi druge besedne oblike iste slovarske iztočnice) in ponovitve elementov na ravni fonema (te je smiselno šteti, ker govorec pogosto ponovi besedo, ki jo je prekinil). Tabela 17 prikazuje, koliko katerih elementov iz popravljenega dela je ponovljenih v popravku.


V popravku ponovljeno

Št. popravljanj

v %

Št. popravljanj

ena beseda iz popravljenega

23 %

50-krat

druga oblika iste slovarske iztočnice

5 %

12-krat

beseda (ali več besed) in začetni fonemi zadnje popravljene besede

4 %

9-krat

dve ali več besed iz popravljenega

8 %

19-krat

Skupaj v popravku ponovljeni izrazi

40 %

89-krat

en začetni fonem popravljene besede

7 %

16-krat

več začetnih fonemov popravljene besede

18 %

40-krat

Skupaj v popravku ponovljeni fonemi

25 %

56-krat




Ponovljen ni noben element popravljenega

35 %

75-krat

Tabela 17: Preglednica ponovljenih elementov v popravku v korpusu Turdis-1 po odstotkih.


Čeprav je delno ponavljanje torej dokaj pogosto strategija popravljanja, pa vseeno ni zanesljiv kazalec popravljanj: skupaj je znotraj iste vloge v kontekstu približno 10 besed okoli 400 ponovitev na ravni izraza (pri tem ne štejem ponovitev diskurznih označevalcev, števk pri navajanju telefonskih številk, pozdravov, zahvaljevanja oziroma ponavljanj pri menjavanju vlog). Le v približno 20 % je torej ponovitev del popravljanja. Poleg tega ponovitev, kadar je del popravljanja, ne sledi vedno takoj za prekinitvijo ali popravljalnimi sredstvi v popravljanju, ampak so v 60 primerih popravljanj s ponovitvijo, kar pomeni v 40 %, pred ponovitvijo v popravku vrinjene še drugi izrazi, in sicer običajno od 1 do 4 besed (npr. bi jim pač seveda rada [.] naredila[nard/i:la] nekaj[n/e:ki] naj() ali[al] pa vsaj ponudila[pOn/u:dla] nekaj[n/e:ki] izmed boljših stvari a ne?; v popravku vrinjene besede so podčrtane).

Prav tako ponovljeni elementi v popravku ne označujejo vedno začetnega dela popravljenega, kadar popravljeno obsega več kot eno besedo, npr. pri eee kaj vas š() eee cena vas še zanima je v popravku ponovljena beseda vas in fonem š (tukaj v besedi še), medtem ko se popravljeno začne s kaj.

Med 75 popravljanji, kjer v popravku ni ponovljen noben element iz popravljenega, 25 teh popravljanj po prekinitvi ne vključuje nobenega popravljalnega sredstva, ki bi označevalo popravljanje. Skupno to pomeni, da približno 10 % popravljanj na ravni površinskega besedila ni označenih niti s popravljalnim sredstvom niti s ponovitvijo.


Čeprav bi bilo detektiranje popravljanj npr. pri jezikovnih modelih za razpoznavo govora, še veliko bolj pa pri prevajanju govorjenega besedila zelo koristno, saj bi v prevodu želeli ohraniti samo popravek, ne pa tudi popravljenega dela besedila, pa analize strukture popravljanj kažejo, da učenje modelov kljub ustrezno označenemu in ustrezno velikemu korpusu morda ne bo tako uspešno, kot bi želeli.






7DISKUSIJA


V tem poglavju razmišljam o rezultatih analiz s treh vidikov: z vidika vpliva strojnega vmesnika – prevajalnika na medčloveško komunikacijo, z vidika uporabe analiziranih konceptov v strojnem simultanem prevajanju govora in z vidika jezikoslovja.


7.1Naravni jezik, ujet v tehnologijo


Jezik v medčloveški komunikaciji ni samo kanal za prenašanje informacij in vsebin, ampak prek njega tudi izražamo pripadnost najrazličnejšim družbenim skupinam, vzpostavljamo razmerja med skupinami, vzpostavljamo in vzdržujemo medosebne odnose in si gradimo družbeni položaj, izražamo in dosegamo namene, opravljamo (govorna) dejanja, mislimo, izražamo umetnost, estetiko, oblikujemo in izražamo svojo osebnost, sproščamo psihološke (kolektivne in individualne) travme itd. Jezikovna raba je vselej tudi specifičen, unikaten odraz osebnosti v nekem trenutku, s tem da je ta osebnost vedno tudi pripadnik različnih kolektivov, med drugim etničnega kot enega najmočnejših in najbolj eksplicitnih. Vsako prenašanje sporočila je zato hkrati večja ali manjša modifikacija sporočila. Prevajanje je nedvomno velika modifikacija sporočila, prevod (pa čeprav ga naredi dober prevajalec ali tolmač) samo boljši ali slabši približek tistega, kar je bilo sporočeno v izvirniku, po eni strani omejen z različnostjo kolektivnega duha skupnosti, med katerima prenaša sporočilo, po drugi je prevajalec nujno tudi soavtor prevedenega sporočila.

V luči strojnega simultanega prevajanja govora je zato prav, da se vprašamo, kakšen prevajalec/-nik in soavtor je stroj. Vsekakor je povsem drugačen od človeškega prevajalca: ne pripada nobeni družbeni skupini, ne vstopa v družbena razmerja s človekom, nima namenov, želja, misli, smisla za umetnost ali estetiko, nima osebnosti, psiholoških travm itd. Vsa ta razmerja in lastnosti lahko prenaša samo na podlagi tega, kar so in bodo vanj vtisnili najrazličnejši ustvarjalci, ki so ga naredili, s tem da pri tem temelji na povsem drugačni osnovi kot človek: na digitalnem električnem zapisu. Signal je ali pa ga ni, to je vsa informacija, ki jo »razume« sam po sebi. Čeprav si najbrž le še malokdo, če sploh kdo, lahko predstavlja pot signalov do končne interpretacije informacije, ki jo naredi računalnik (avtorica teh vrstic to gotovo ni), pa najbrž večina ljudi vendarle zna vzpostaviti približno ustrezna pričakovanja in vrednotenja tega, kar računalnik opravi. Pri posredovanju sporočil prek sistema strojnega simultanega prevajanja govora bo moral uporabnik torej gojiti dvojno toleranco: prvo, ki izhaja iz medjezikovnih in medkulturnih razlik, ki jih je treba vedno premostiti pri prevajanju, in drugo, ki izhaja iz tolerance do posrednika – stroja in pomeni med drugim toleranco do:


S tolerantnostjo uporabnika tesno povezano je vprašanje prilagodljivosti uporabnika sistema strojnega simultanega prevajanja govora. V kolikšni meri bo uporabnik pripravljen tolerirati morebitne (naštete) pomanjkljivosti sistema strojnega simultanega prevajanja govora in se jim v komunikaciji s sogovornikom prilagajati, preden se bo odločil za drugačen način komunikacije ali za nekomunikacijo? Nedvomno je odgovor na to vprašanje odvisen od pomembnosti komunikacijskih ciljev, ki jih uporabnik želi doseči v pogovoru prek sistema strojnega simultanega prevajanja govora, in od ponudbe različnih komunikacijskih kanalov, ki jih ima na voljo, da doseže te cilje. Če bo uporabnik zelo zainteresiran, da doseže komunikacijske cilje, in če bo komunikacija prek sistema strojnega simultanega prevajanja govora edina pot, bodo uporabniki verjetno pokazali visoko stopnjo prilagodljivosti, iznajdljivosti in potrpežljivosti v komunikaciji. Vendarle pa ima uporabnik praviloma na voljo različne kanale za dosego komunikacijskih ciljev: v turizmu npr. poleg telefona še spletne strani, kataloge, e-pošto, prek agencije kot posrednika... Sistem strojnega simultanega prevajanja govora mora zato ponujati dodatno kvaliteto v komunikaciji – ki verjetno izhaja predvsem iz različnosti pogovora in pisnega diskurza ter seveda iz prednosti komunikacije v maternem jeziku – sicer bo uporabnikova motivacija za prilagajanje nizka in bo ob težavah v komunikaciji ali preveliki »nenaravnosti« oz. neobičajnosti komunikacije zaradi strojnega vmesnika raje izbral kakšno drugo pot.


7.2Vključevanje analiziranih konceptov v strojno simultano prevajanje govora


V poglavjih 3.1 in 3.2 ugotavljam, da pri razvoju sistemov strojnega simultanega prevajanja govora navajajo naslednje značilnosti kot težavne: netekočnosti, obotavljanja, napačne začetke, hmkanje, ponavljanja, označevalce diskurza, implicitnost in preeksplicitnost, dvoumnosti, anafore, konvencionalne rabe... ter odsotnost ločil. V nadaljevanju skušam rezultate raziskave prikazati v luči reševanja teh problemov pri strojnem simultanem prevajanju govora.


Informacije o jeziku v jezikovne tehnologije vključujejo na dva načina: v obliki jezikovnih pravil ali prek jezikovnih virov (označenih korpusov, slovarjev ipd.). Zadnji čas je od teh pogosteje izbran korpusni pristop in na tak način vidim tudi morebitno implementacijo rezultatov te raziskave v sisteme strojnega simultanega prevajanja govora: v obliki atributov za označevanje korpusnega gradiva.


Spontani govor ni razdeljen na manjše enote na za strojno procesiranje tako enostaven način, kot je pisno besedilo razdeljeno z ločili, odstavki ipd., lahko pa ga razdelimo na manjše enote glede na strukturo pogovora. V nalogi se v poglavju o strukturi pogovora naslanjam na konverzacijsko analizo in znotraj pogovora ločim sekcije (uvodno, jedrne, zaključno), vloge in izjave, na kratko pa predstavim tudi pojem bližnjih parov. Natančneje skušam za potrebe strojnega simultanega prevajanja govora definirati izjave, ki jih lahko v spontanem govoru približno vzporejamo s povedmi ali stavki v pisnih besedilih. Izjave predlagam za temeljne enote procesiranja spontanega govora pri jezikovnih in prevajalnih modelih, zato pri definiranju upoštevam tudi zahteve tehnologije. Strojno segmentiranje govora na izjave ne sme temeljiti samo na premorih v govoru, ampak je treba upoštevati tudi druge prozodične značilke in jezikovne modele.

Pri označevanju vlog v pogovoru izločim oporne signale kot posebno obliko dejanja, ne kot hkratni govor.

V praktičnem delu analiziram uvodne in zaključne sekcije. Uspešen uvod in zaključek sta nujen del vsakega pragmatično uspešnega pogovora, zato imata v njem zelo pomembno vlogo, hkrati pa so uporabljena jezikovna sredstva precej tipska (tako uvodna kot zaključna sekcija vključujeta nekatere tipične fraze in dejanja).


Odvisnost tehnologije od površinskega besedila me v nadaljevanju vodi predvsem k iskanju izrazov, ki so kar najbolj povezani z značilnostmi spontanega govora, naštetimi zgoraj. V analizi diskurza se veliko teh izrazov označuje s termini diskurzni/pragmatični/besedilni označevalec/povezovalec/členek itd. Koncept diskurznih označevalcev je po eni strani zelo ohlapen in težko je definirati končno število izrazov v tej vlogi, po drugi strani pa je med drugim zamejen z rabo predvsem v pragmatični vlogi.

V praktičnem delu raziskave analiziram rabo izrazov ja, mhm, aha, aja, ne?, no, eee, dobro/v redu/okej/prav, glejte/poglejte, veste, mislim, zdaj in opornih signalov, ki so v korpusu Turdis-1 najpogosteje predvsem v pragmatični vlogi in ne prispevajo veliko k propozicijski vsebini. Kadar so v tej vlogi, jih poimenujem diskurzni označevalci. V analizi ugotovim, da ti izrazi v vlogi diskurznega označevalca obsegajo skoraj 14 % vseh besed v korpusu, torej z njimi zajamemo precejšen odstotek besedila. Večinoma se analizirani diskurzni označevalci rabijo zunaj skladenjsko-semantično zaokroženih enot, pogosto ob začetku izjav, nekateri tudi predvsem na koncu izjav. Glede na to so lahko v pomoč pri segmentiranju spontanega govora na izjave. Njihova raba v diskurzu se ravna po predstavnem pomenu, ki ga lahko izražajo, povezovalni moči, ki jo lahko imajo, po razmerjih med sogovorniki in odnosu sogovornika do propozicijske vsebine, ki jih lahko izražajo, ter po vlogi pri organiziranju poteka diskurza, ki jo lahko imajo. Analizirani diskurzni označevalci torej ne prispevajo bistveno k propozicijski vsebini (poenostavljeno bi lahko rekli, da diskurzni označevalci niso pomembni za posredovano vsebino). Koncept diskurznih označevalcev v tehnologiji omogoči izločanje za posredovano propozicijsko vsebino manj pomembnih jezikovnih sredstev, po drugi strani pa pomaga pri orientaciji po besedilu, ob bolj ambiciozno zastavljeni tehnologiji pa tudi orientacijo po diskurzu/dialogu.


Obravnavanje netekočnosti, obotavljanj, napačnih začetkov in podobnega kot značilnosti spontanega govora, ki otežujejo razvoj govornih tehnologij, zahteva analizo diskurza s stališča strukture izjav. K razumevanju te veliko prinesejo raziskave popravljanj. Popravljanja so poseben, retrogarden del strukture spontano tvorjene izjave – znotraj iste vloge je govor prekinjen in govorec se vrne nazaj po sintagmatski osi, da jo uskladi s spremenjeno strategijo, popravi napako ali težave pri izrekanju. Za uspešen razvoj strojnega simultanega prevajanja govora je zelo pomembno, da uspemo popravljanja izločiti iz ostale strukture izjave, saj je lahko popravljeni del strukture za posredovano vsebino predvsem zaradi svoje nezaključenosti celo moteč, ne samo nepotreben.

V analizi popravljanj v korpusu Turdis-1 skušam popravljanja najprej natančno definirati, kar je nujno za enotno označevanje korpusov. Natančnejše analize strukture popravljanj pripomorejo k boljšemu razumevanju te strategije pri tvorjenju izjav, lahko pa dajo tudi kakšne smernice za strojno razpoznavo popravljanj.


Predstavljeni in analizirani koncepti analize diskurza so le nekatere od možnosti, ki jih ta ponuja v podporo sistemom strojnega simultanega prevajanja govora. Za raziskavo zanimivih je še veliko vidikov:

S stališča strukture pogovorov sem že opozorila na možnost nadaljnjega ločevanja jedrne sekcije na posamezne tematske sklope, enako sem pustila odprto možnost analize bližnjih parov. Od ostalih konceptov so v strojno simultano prevajanje govora že poskusno uvajali govorna dejanja iz jezikovne pragmatike (sistem Verbmobil (Reithinger, 1994)), kar je prav tako lahko zanimiva možnost.

Seznam izrazov v vlogi diskurznih označevalcev nikakor ni izčrpan, že v analiziranem gradivu bi lahko vključili še izraza v bistvu ali tako da, novo korpusno gradivo pa bi nedvomno prineslo še številne druge. Prav tako se skozi analize kaže možnost oblikovanja še kakih drugih skupin izrazov-označevalcev, ne samo diskurznih, ampak npr. označevalcev nezaključenega niza, kot so in tako dalje, pa tak in podobni, povezovalnih sredstev itd.

Strukture spontano tvorjenih izjav se tukaj samo dotaknem. V duhu te raziskave bi lahko nadaljevali z analizo ponavljanj tako znotraj vloge kot na ravni menjavanja vlog, z natančnejšo analizo nedokončanih izjav ipd. Morda bi bila za strojno simultano prevajanje govora uporabna tudi raziskava strukture izjav s stališča kohezivnosti in koherence, analize navezovanja in/ali deiktičnih sredstev.

Tukaj povsem nedotaknjeno ostaja področje prozodije, ki zahteva poseben pristop (nekaj raziskav te najdemo npr. pri Vitez, Zwitter Vitez, 2004 ali v Stergar, 2003), s tem da na vsakem koraku analize diskurza naletimo na pomembno vlogo prozodije pri tvorjenju in interpretaciji in s tem tudi pri sami analizi.

Seveda pa bi lahko raziskovali tudi medsebojno povezanost vseh navedenih ravni, povezanost diskurznih označevalcev z govornimi dejanji itd.


Nazadnje ne smem spregledati še negativnih plati analize diskurza v podporo sistemom strojnega simultanega prevajanja govora: ta veja zlasti v slovenskem prostoru še nikakor ni toliko razvita in raziskana, da bi lahko ponudila tako celostno podobo in analizo jezika kot tradicionalno jezikoslovje. Nasprotno se celo zdi, da se pogosto izgublja v številnih različnih smereh, od katerih nobena ne zmore razložiti delovanja jezika dovolj celostno, kar je v luči uporabe pri razvoju strojnega simultanega prevajanja govora verjetno njena največja pomanjkljivost. V tej nalogi zato skušam kolikor mogoče ohraniti konsistentnost z drugimi podobnimi raziskavami in hkrati zastaviti dovolj širok okvir za analizo jezikovne rabe glede na cilje raziskave, pri čemer pa zaradi omejitve na primeren obseg dela večina poti pušča odprte možnosti za nadaljnje raziskovanje ali celo ostane samo nakazanih.


7.3Diskusija o rezultatih z vidika analize diskurza


Pričujoča raziskava je poskus preučevanja rabe nekaterih jezikovnih sredstev in struktur predvsem v pragmatični vlogi, ki v pogovorih v slovenskem jeziku pred tem večinoma še niso bila veliko raziskovana. Cilji naloge pri tem narekujejo predvsem aplikativno naravnanost.

Analiza diskurza je s tem, ko se je osredotočila na raziskovanje jezikovne rabe oziroma govorice, v območje svojih raziskav vključila tudi subjekt, s katerim so si sicer druge humanistične vede bolj domače. S tem nujno prestopa meje jezikoslovja. V pričujoči raziskavi sicer skušam ohraniti čimbolj jezikovno perspektivo (ki jo najbolje poznam), vendar se pri tem ne smem izogniti dejstvu, da jezikovne rabe nikakor ne moremo zadovoljivo razumeti, če ne upoštevamo nejezikovnih dejavnikov, ki nanjo vplivajo. V nalogi skušam iz gradiva analizirati te dejavnike, vsekakor pa bi bil zanimiv in popolnejši pogled nanje še skozi oči drugih humanističnih in družboslovnih ved.

V rezultatih te raziskave pridejo najbolj do izraza v nadaljevanju našteti dejavniki, ki vplivajo na jezikovno rabo tistih jezikovnih sredstev in struktur, ki jih analiziram. To niso nujno vsi dejavniki, ki vplivajo na jezikovno rabo, tudi primeri so omejeni samo na analize v tej nalogi.


Dejstvo, da pri mnogih jezikovnih sredstvih ali strukturah ne moremo reči, da so v neki rabi samo v pragmatični vlogi ali samo del propozicijske vsebine, ampak je meja marsikje nejasna, kaže, da teh dimenzij ne smemo preslikati v besedilo na način, da bi ugotavljali, da je raba nekega jezikovnega sredstva ali strukture izraz samo socioloških dejavnikov ali raba drugega izraz samo psiholoških ipd. Menim, da moramo socialne, psihološke, časovne, predstavne in druge dejavnike razumeti kot procese, ki potekajo hkrati, ki so drug z drugim povezani in kot celota hkrati vplivajo na izbiro jezikovnih sredstev in struktur oziroma na jezikovno rabo.


Če želimo rezultate te naloge videti v okviru tradicionalnega jezikoslovja, moramo razjasniti razmerje med analizo diskurza in tradicionalnim jezikoslovjem, ki pa je vsaj v slovenskem prostoru nejasno in nedorečeno. V diskusiji te naloge tega seveda ni mogoče spremeniti, za videnje uporabnosti rezultatov tudi v tradicionalnem jezikoslovju pa nekaj osnovnih misli: predmet tradicionalnega jezikoslovja je predvsem jezik kot sistem, predmet analize diskurza predvsem raba tega sistema. Ali lahko tudi v sami rabi odkrijemo procese, pravila ali celo sistem, je najbrž temeljna naloga analize diskurza. Radovednost, kaj vse se dogaja ob tem, ko jezikovno komuniciramo, in spoznanje, da o tem še skoraj nič ne vemo, sta konec koncev eni glavnih spodbud za njen razvoj.

Če tako gledanje analizo diskurza in tradicionalno jezikoslovje razdružuje, pa sta seveda še kako tesno povezani prek predmeta raziskovanja. Tradicionalno jezikoslovje mora, če noče tvegati, da postanejo njegove razlage razlage mrtvega jezikovnega sistema, takega, ki ga nihče ne uporablja, izhajati iz žive besede, dejansko torej iz jezikovne rabe. In analiza diskurza seveda ne more preučevati jezikovne rabe ločeno od jezika (kot je očitno tudi v tej raziskavi). Še več, pravzaprav niti ni povsem jasne meje, kje se neha preučevanje jezika kot sistema in kje začne preučevanje rabe jezika, na kar nas med drugim opozarja prepletenost semantike in pragmatike, od katerih prvo štejemo k jezikovnemu sistemu, drugo k jezikovni rabi. Dopolnjevanje spoznanj obeh ved je tako vsekakor na mestu in v tej luči je mogoče tudi rezultate analiz v tej nalogi uporabiti pri preučevanju jezikovnega sistema.

8POVZETEK


Namen naloge je bil raziskati, katere koncepte analize diskurza bi bilo smiselno implementirati v razvoj sistemov strojnega simultanega prevajanja govora, da bi s tem premoščali ovire pri procesiranju značilnosti pogovora.


Pri pregledu razvoja na področju strojnega prevajanja ugotavljam, da pri tem ločijo več pristopov, od katerih se danes najbolj uveljavljajo statistični korpusni pristopi, pri katerih se jezikoslovno vedenje vključuje v obliki označevanja korpusa, ali tudi hibridni pristopi. Ločiti moramo med sistemi strojnega prevajanja pisnih besedil in sistemi strojnega simultanega prevajanja govora, kjer je treba poleg prevajanja opraviti tudi proces strojne razpoznave in sinteze govora, izredno različno pa je tudi besedilo, ki je produkt pisnega ali govorjenega diskurza. Implementacija sistemov strojnega prevajanja pisnega besedila v sisteme strojnega simultanega prevajanja govora tako ni posebno uspešna. Sistemi strojnega simultanega prevajanja govora se običajno omejijo na določeno komunikacijsko področje (pogosto pogovori v turizmu, za potrebe vojaških operacij, nekoliko redkeje klic v sili in podobne službe), saj tako dosežejo višjo uspešnost.

V slovenskem prostoru je kar nekaj centrov, kjer razvijajo govorne ali druge jezikovne tehnologije. V več centrih razvijajo razpoznavo in sintezo govora, ki ju tudi že vgrajujejo v različne aplikacije, seveda pa je zlasti pri razpoznavi tekočega govora nedvomno treba še veliko narediti za večjo uspešnost, še več pa pri naslednjem koraku, razpoznavi pogovornega govora. Sinteza govora je bolj uspešna, vseeno pa je tudi tu še precej prostora za izboljšanje, predvsem pri prozodiji. Prevajanje govorjenega besedila za slovenski jezik šele začenjamo razvijati, tako da o tej tehnologiji še ne najdemo objav, velika ovira pri tem je tudi pomanjkanje ustreznih jezikovnih virov, tj. enojezičnih ter dvo- ali večjezičnih poravnanih korpusov spontanih govorjenih besedil.


Pri primerjavi pisnega in govorjenega diskurza ugotavljam, da se razlike kažejo na vseh jezikovnih ravneh. Medtem ko je tradicionalno jezikoslovje temeljilo predvsem na raziskovanju pisnih besedil, se veliko raziskav spontanega govorjenega diskurza opravlja znotraj različnih smeri analize diskurza. Za slovenski jezik so te analize narejene predvsem za diskurz v razredu ali javni diskurz prek medijev ali za diskurz politikov ter za otroški govor, šele hkrati s to raziskavo se pojavljajo širše raziskave spontanega govora tudi v drugih vsakdanjih situacijah. Pogosto so raziskave usmerjene v različne pragmatične, diskurzivne vidike, nekajkrat je v središču zanimanja skladenjski vidik. Nobena od navedenih raziskav analize diskurza ni narejena z vidika uporabnosti v govornih tehnologijah. Glede na te sklepe v nadaljevanju sledim naslednjima temeljnima ciljema: predstaviti želim tiste koncepte analize diskurza, ki z jezikovnodiskurzivnega stališča odgovarjajo na probleme pri procesiranju spontanega govora, ki izhajajo iz značilnosti spontano tvorjenega besedila, ter preveriti moč izbranih konceptov v analizi vsakdanje jezikovne rabe na izbranem komunikacijskem področju, telefonskem posredovanju informacij v turizmu.


Pri obvladovanju problemov pri procesiranju spontanega govora, ki izhajajo iz značilnosti spontano tvorjenega besedila, se lahko naslonimo na nekatere koncepte konverzacijskih analiz. Te so med drugim veliko raziskovale strukturo pogovorov, na podlagi česar lahko govorjeno besedilo razdelimo na manjše smiselne in za tehnologijo obvladljive enote: sekcije, vloge, izjave... Natančneje definiram izjavo, ki je temeljna enota za procesiranje spontano tvorjenega govorjenega besedila. Koncepta tematskih sklopov in bližnjih parov samo na kratko predstavim in ju ne raziskujem podrobneje v praktičnem delu.

Pri nadaljnjem raziskovanju iščem, ali lahko v izjavah ločimo jezikovna sredstva, ki so manj pomembna za posredovanje informacij. Oprem se na raziskave diskurznih označevalcev in pri primerjavi teh opazim, da v različnih raziskavah ločijo med ravnema diskurza, ki ju sicer različno poimenujejo, a ju lahko tudi vzporejamo: to sta propozicijska vsebina in pragmatična vloga (ali tudi metadiskurz, proceduralni pomen, komunikacijska vloga ipd.). V nadaljevanju osredotočim pozornost na nekatera jezikovna sredstva in strukture, ki so običajno rabljene predvsem v pragmatični vlogi: (1) Koncept diskurznih označevalcev zajame veliko za spontan govorjeni diskurz značilnih izrazov, katerih vloga je v tradicionalnem jezikoslovju malo raziskovana. Ti izrazi pogosto izstopajo iz govorjenega besedila, saj so sintaktično-semantično le ohlapno vpeti vanj, po drugi strani pa jim raziskovalci pripisujejo pomembno kontekstno-povezovalno vlogo. (2) Popravljanja nam pomagajo pojasniti značilnosti strukture spontano tvorjenih izjav. Z označevanjem dela besedila, ki je popravljeno, lahko izločimo tudi tisti del, ki ni potreben za posredovanje propozicijske vsebine.


Za praktični del raziskave uporabim korpus telefonskih pogovorov v turizmu Turdis-1, ki smo ga predvsem za namene te raziskave snemali na Fakulteti za elektrotehniko, računalništvo in informatiko v Mariboru (FERI). Korpus vključuje 30 pogovorov s povprečno dolžino 3,5 min. in skupno dolžino 106 minut, merjeno v besedah šteje korpus 15.163 besed. Polovica pogovorov je z različnimi turističnimi agencijami, četrtina s turistično pisarno in četrtina s hotelskima recepcijama. Način snemanja je ob vnaprejšnjem privoljenju vseh govorcev potekal tako, da je kolikor mogoče ohranil naravni kontekst te vrste pogovorov. Pogovori so transkribirani in segmentirani s programom Transcriber po načelih, ki deloma sledijo priporočilom EAGLES in nekaterim načelom prepisovanja govornih baz tipa Broadcast News. Format transkripcij je v osnovi XML, kot ga tvori Transcriber, za ilustrativno gradivo v nalogi je večina teh oznak odstranjenih.


Pri analizi uvodnih in zaključnih sekcij ugotovim, da praviloma vključujejo veliko tipskih, ponavljajočih se fraz ali dejanj.

Analiza izrazov, ki jih označim za diskurzne označevalce, pokaže, da njihovo rabo uravnavajo naslednji dejavniki: predstavni pomen, ki ga lahko ima večina od analiziranih izrazov; povezovalnost, saj analizirani izrazi lahko vzpostavljo različne povezave z vsebino preteklega ali prihodnjega diskurza; odnos med sogovornikoma, saj analizirani izrazi omogočajo, da sogovornika vzdržujeta stik, pozitivno ozračje diskurza oz. preverjata in zagotavljata pozornost in zainteresiranost za diskurz; odnos govorca do propozicijske vsebine, ki ga lahko govorci izražajo z nekaterimi diskurznimi označevalci; ali organiziranje diskurza, pri čemer si govorci pomagajo z nekaterimi diskurznimi označevalci, tako da z njimi nakazujejo, kdaj želijo prevzeti ali nadaljevati vlogo oziroma ali in kdaj želijo zaključiti posamezen tematski sklop ali pogovor. Analizirani izrazi v vlogi diskurznih označevalcev imajo značilen položaj večinoma ob mejah izjav in značilno zaporedje sopojavljanja, če jih je rabljenih več skupaj. Zajemajo skoraj 14 % vseh besed v korpusu.

Popravljanja najprej definiram kot strategijo tvorjenja diskurza, pri kateri je znotraj iste vloge govor prekinjen in govorec se vrne nazaj po sintagmatski osi (lahko tudi samo za en fonem ali pa po drugi strani za daljšo obliko-skladenjsko enoto), da jo uskladi s spremenjeno strategijo, popravi napako ali težave pri izrekanju. V korpusu Turdis-1 je popravljanje izvedeno v približno 8 % izjav, največkrat zaradi spremembe strategije – približno 70 %, okoli 20 % popravljanj je zaradi težav pri izgovorjavi in 5 % zaradi napake. Detektiranje popravljanj npr. pri jezikovnih modelih za razpoznavo govora, še veliko bolj pa pri prevajanju govorjenega besedila, bi bilo zelo koristno, saj bi v prevodu želeli ohraniti samo popravek, ne pa tudi popravljenega dela besedila.


V diskusiji o rezultatih predlagam, da se predstavljene in analizirane koncepte v razvoj sistemov strojnega simultanega prevajanja govora vključuje v obliki atributov za označevanje korpusnega gradiva. Z analizo strukture pogovorov smo pri tem dobili temeljne strukturne enote za označevanje (izjave, vloge, uvodno in zaključno sekcijo). Z atributom diskurznih označevalcev izločimo izraze: 1. ki zajemajo skoraj 14 % besed v korpusu, 2. ki najmanj prispevajo k propozicijski vsebini, 3. katerih raba je jezikovno-kulturno pogojena in jih je pri prevodu v tuji jezik treba ustrezno obravnavati, 4. ki stojijo večinoma ob mejah izjav in lahko s tem pomagajo pri strojni segmentaciji, 5. ki lahko ob bolj ambiciozno zastavljeni tehnologiji pomagajo pri orientaciji po besedilu in po diskurzu. Z analizo popravljanj definiram poseben, retrogarden del spontano tvorjene izjave, ki ga je treba pri nadaljnjem procesiranju izločiti, saj je lahko sicer zaradi svoje nezaključenosti moteč, ne samo nepotreben za posredovanje propozicijske vsebine.

Z vidika analize diskurza strnem rezultate v sklep, da so se v tej raziskavi kot dejavniki, ki pomembno vplivajo na jezikovno rabo, pokazali naslednji: zunanje okoliščine, časovni, socialni, psihološki in metadiskurzivni dejavniki v ožjem pomenu (ki jih lahko vidimo tudi kot presek dela časovnih, socialnih in psiholoških dejavnikov). Te dejavnike je treba videti kot procese, ki potekajo hkrati, ki so drug z drugim povezani in kot celota hkrati vplivajo na jezikovno rabo.


Opravljeno delo odpira mnogo možnosti za nadaljnje raziskave v začrtani smeri, npr. delitev jedrne sekcije pogovorov na tematske sklope, analizo bližnjih parov, dopolnjevanje seznama diskurznih označevalcev in dodatno analizo rabe analiziranih diskurznih označevalcev v drugem gradivu, kategoriziranje drugih podobnih skupin izrazov ali tudi nadaljnje kategoriziranje izrazov, ki jih označim kot diskurzne označevalce, npr. glede na komunikacijske vloge, analizo in označevanje ponavljanj, oblikoskladenjskih neujemanj in drugih netekočnosti itd., vendar bi prej kot to želeli preveriti nekaj drugega: 1. ali lahko z dosedanjimi rezultati pripomoremo k uspešnejšemu procesiranju spontanega govora kot samo s tradicionalnimi korpusnimi atributi (s tem mislim predvsem morfo-sintaktične oznake), 2. ali lahko v začrtani smeri pokrijemo jezikoslovne informacije o značilnostih spontanega govora dovolj celostno, da s tem podpremo uspešen sistem strojnega simultanega prevajanja govora. Oboje pa bomo lahko preverili šele s prvim delujočim testnim sistemom strojnega simultanega prevajanja govora.

9LITERATURA IN VIRI


9.1Seznam literature


  1. Aiello, D., L. Cerrato, C. Delogu, A. Di Carlo, 1999. The Acquisition of a Speech Corpus for Limited Domain Translation. V: Proceedings of Eurospeech 1999, Budimpešta.


  1. Allwood, J., J. Nivre, E. Ahlsen, 1990. Speech management: On the non-written life of speech. Nordic Journal of Linguistics 13/1.

  1. Arnold, D., L. Balkan, S. Meijer, R. L. Humphreys, L. Sadler, 1994. Machine translation: an introductory guide. London: NCC Blackwell.

  1. Arranz, V., N. Castell, J. Gimenez, H. Ney, N. Ueffing, 2004a. Description of language resources used for experiments. http://www.lc-star.com/archive.htm.

  1. Arranz, V., N. Castell, J. Gimenez, A. Moreno, 2004b. Lexica and Corpora for Speech-to-Speech Translation Technologies. http://www.lc-star.com/archive.htm.

  1. Austin, John L., 1990. Kako napravimo kaj z besedami. Ljubljana: ŠKUC: Filozofska fakulteta, zbirka Studia humanitatis.

  1. Beaugrande, Robert Alain de, Dressler, Wolfgang Ulrich, 1992. Uvod v besediloslovje. Prevedli Aleksandra Derganc in Tjaša Miklič. Ljubljana: Park.

  1. Bešter, M., 1994. Tip besedila kot izrazilo sporočevalčevega namena. Uporabno jezikoslovje 1994, 2. str. 44-52.

  1. Blanche-Benveniste, Claire, 1991. Le francais parle. Etudes grammaticales. Paris: CNRS.

  1. Burger, S., L. Besacier, P. Coletti, F. Metze, C. Morel, 2001. The NESPOLE! VoIP Dialogue Database. V: Proceedings of EuroSpeech’01. Aalborg, Danska.

  1. Casacuberta, F., D. Llorens, C. Martinez, S. Molau, F. Nevado, H. Ney, M. Pastor, D. Pico, A. Sanchis, E. Vidal, J. M. Vilar, 2001. Speech-to-Speech Translation Based on Finite-State Transducers. V: Proceedings http://citeseer.ist.psu.edu/casacuberta01speechtospeech.html. 

  1. Clark, Herbert H., 2002. Speaking in time. Speech Communication 36. 5-13.

  1. Coulthard, M., 1985. An introduction to discourse analysis. London: Longman.

  1. Fraser, Bruce, 1996. Pragmatic markers. Pragmatics 6/2. 167-190.

  1. Fraser, Bruce, 1999. What are discourse markers? Journal of Pragmatics 31. 931-952.

  1. Frederking, R., A. Rudnicky, C. Hogan, 1997. Interactive Speech Translation in the DIPLOMAT project. V: Proceedings of Spoken Language Translation workshop, ACL-97. Madrid, Španija.

  1. Frederking, R.E., A. W. Black, R. D. Brown, J. Moody, E. Steinbrecher, 2002. Field Testing the Tongues Speech-to-Speech Machine Translation System. V: Proceeding of LREC’02 Conference. Kanarski otoki.

  1. Gnamuš Kunst, O., 1983. Govorno dejanje družbeno dejanje, Komunikacijski model jezikovne vzgoje. Ljubljana: Pedagoški inštitut pri Univerzi Edvarda Kardelja Ljubljana.

  1. Gorjanc, V., 2002. Jezikoslovna načela gradnje računalniških besedilnih zbirk strokovnih jezikov. Doktorska disertacija. Ljubljana: Filozofska fakulteta.

  1. Gorjanc, V., 1998. Konektorji v slovničnem opisu znanstvenega besedila. SR XLVI/4. 367388.

  1. Grice, J. Paul, 1975. Logic and conversation. V: Davidson, Donald, Harman, Gilbert (ur.), The Logic of Grammar. Encino, CA, pp. 64–75.

  1. Grice, J. Paul, 1989. Studies in the ways with words. Cambridge, MA: Harvard University Press.

  1. Halliday, M.A.K. 1994. Introduction to functional grammar. London: Arnold.

  1. Hoege, H., 2002. Project Proposal TC-STAR - Make Speech to Speech Translation Real. In: Rodrigues, M. G., Suarez Araujo, C. P. (ur.): Third International Conference on Language Resources and Evaluation. 136-142.

  1. Hozjan, V., Z. Kačič, 2003. Context-independent multilingual emotion recognition from speech signals. International Journal of Speech Technology 6/3. 289-299.

  1. Hribar, N., 2001/02. Vprašanje skladenjske zapletenosti povedi v govorjenem jeziku politikov. Jezik in slovstvo 47/7-8. 315-329.

  1. Hutchins, John W., 2003. Machine translation: half a century of research and use. Avila, Spain: UNED summer school.

  1. Hyland, Ken, 1998. Persuasion and context: The pragmatics of academic metadiscourse. Journal of Pragmatics 30. 437-455.

  1. Ifantidou, Elly, 2005. The semantics and pragmatics of metadiscourse. Journal of Pragmatics 37/9. 1325-1353.

  1. Ilc, G., 2001/02. Televizijski športni komentar – diskurzivna analiza. Jezik in slovstvo 47/7-8. 303-313.

  1. Imperl, B., Sket, G., 2002. M-Vstopnica – uporaba avtomatskega razpoznavanja govora v praksi. V: Informacijska družba IS'2002: Jezikovne tehnologije. 116-120.

  1. Jefferson, G., 1975. Error correction as an interactional resource. Language in Society 3/2. 181-199.

  1. Jefferson, G., 1983. On exposed and embeded correction in conversation. Studium Linquistik, 14, 58-68.

  1. Kačič, Z., B. Horvat, 1998. Izgradnja infrastrukture potrebne za razvoj govorne tehnologije za slovenski jezik. V: Informacijska družba IS'1998: Jezikovne tehnologije za slovenski jezik. 100-104.

  1. Kaluža, L., 1977a. Govor na Radiu Ljubljana (shematični prikaz). JiS 23/1. 21-23.

  1. Kaluža, L., 1977b. Govor na Radiu Ljubljana (nadaljevanje in konec). JiS 23/2. 47-49.

  1. Kay, M., J. M. Gawron, P. Norvig, 1994. Verbmobil: A Translation System for Face-to-Face Dialog. Center for the study of language and information, ZDA.

  1. Kotnik, B., D. Vlaj, B. Horvat, 2003. Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems. International Journal of Speech Technology 6/3. 205-219.

  1. Kovačič, I. (ur.), 1994a. Analiza diskurza. Ljubljana: Društvo za uporabno jezikoslovje.

  1. Kovačič, I., 1994b. Odzivnost kot eno izmed temeljnih načel v organizaciji pogovora. Uporabno jezikoslovje, 2. 118-132.

  1. Krajnc, M., 2004. Besediloskladenjske značilnosti javne govorjene besede (na gradivu mariborščine). Slavistična revija 52/4. 475-498.

  1. Krajnc, M., 2005. Besedilne značilnosti javne govorjene besede: Na gradivu sej mariborskega Mestnega sveta. Maribor: Zora.

  1. Kranjc, S., 1995. Razvoj govora predšolskih otrok. Magistrska naloga. Ljubljana: Filozofska fakulteta.

  1. Kranjc, S., 1996/97. Govorjeni diskurz. JiS, 42/7. 307-319.

  1. Kranjc, S., 1998a. Skladnja otroškega govora od prvega do tretjega leta. Doktorska naloga. Ljubljana: Filozofska fakulteta.

  1. Kranjc, S., 1998b. Posrednost in neposrednost v otrokovem govoru. V: Jezik za danes in jutri. Ljubljana: Društvo za uporabno jezikoslovje Slovenije. 248-257.

  1. Kranjc, S., 1999. Razvoj govora predšolskih otrok. Ljubljana: Znanstveni inštitut Filozofske fakultete.

  1. Kurematsu, A., Akegami, Y., Burger, S., Jekat, S., Lause, B., MacLaren, V., Oppermann, D., Schultz, T., 2000. Verbmobil Dialogues: Multifaced Analysis. V: Proceedings of the International Conference of Spoken Language Processing.

  1. Lavie, A., L. Levin, P. Zhan, M. Taboada, D. Gates, M. Lapata, C. Clark, M. Broadhead, A. Waibel, 1997. Expanding the Domain of a Multi-lingual Speech-to-Speech Translation System. V: Proceedings of the Workshop on Spoken Language Translation. Karlsruhe.

  1. Levelt, W. J. M., 1983. Monitoring and self-repair in speech. Cognition 14. 41-104.

  1. Levin, L., Gates, D., Lavie, A., Waibel, A., 1998. An interlingua based on domain actions for machine translation of task-oriented dialogues. V: Proceedings of the Interanational conference on spoken language processing. 1155-1158.

  1. Levin, L., A. Lavie, M. Woszczyna, D. Gates, M. Gavalda, D. Koll, A. Waibel, 2000. The JANUS-III Translation System: Speech-to-Speech Translation in Multiple Domains. Machine Translation 15. 3-25.

  1. Levinson, Stephen, 1983. Pragmatics. Cambridge University Press, Cambridge.

  1. Lickley, Robin J., 1994. Detecting disfluency in spontaneous speech. PHD thesis. University of Edinburgh.

  1. Mana, N., R. Cattoni, E. Pianta, F. Rossi, F. Pianesi, S. Burger, 2004. The Italian NESPOLE! Corpus: a Multilingual Database with Interlingua Annotation in Tourism and Medical Domains. V: Proceedings of 4th International Conference LREC’04. Lizbona, Portugalska.

  1. Mana, N., S. Burger, R. Cattoni, L. Besacier, V. MacLaren, J. McDonough, F. Metze, 2003. The NESPOLE! VoIP Multilingual Corpora. V: Proceedings of Eurospeech’03. Ženeva, Švica.

  1. Markič, J., 1999. Simultano tolmačenje. Uporabno jezikoslovje 7/8. 170-177.

  1. Metze, F., C. Langley, A. Lavie, J. McDonough, H. Soltau, A. Waibel, S. Burger, K. Laskowski, L. Levin, T. Schultz, F. Pianesi, R. Cattoni, G. Lazzari, N. Mana, E. Pianta, L. Besacier, H. Blanchon, D. Vaufreydaz, and L. Taddei, 2002. The NESPOLE! speech-to-speech translation system. V: Proceedings of the Second International Conference on Human Language Technology Conference.

  1. Modrijan, N., 2004. Korpusni pristop pri analizi naslavljanja. V: Informacijska družba IS'2004: Jezikovne tehnologije. 26-34.


  1. Overstreet, Maryann, 2005. And stuff und so: Investigating pragmatic expressions in English and German. Journal of Pragmatics 37. 1845-1864.


  1. Perrin, L., D. Deshaies, C. Paradis, 2003. Pragmatic functions of local diaphonic repetitions in conversation. Journal of Pragmatics 35. 1843-1860.

  1. Pirih Svetina, N., 1999/00. Analiza šolske ure pouka književnosti po modelu analize govorjenega diskurza. Jezik in slovstvo 45/1-2, str. 5-18.

  1. Pisanski, Agnes, 2001. Koncept metabesedilnih elementov v uporabnem jezikoslovju. Vestnik 35/1-2. 283-292.

  1. Pisanski, Agnes, 2002. Analiza nekaterih metabesedilnih elementov v slovenskih znanstvenih člankih v dveh časovnih obdobjih. SR 50/2. 183-197.

  1. Pisanski Peterlin, Agnes, 2005. Konvencije rabe metabesedilnih elementov. Doktorska disertacija. Ljubljana: Filozofska fakulteta, Oddelek za anglistiko in amerikanistiko.

  1. Pomerantz, Anita, B. J. Fehr, 1997. Conversation analysis: An approach to the study of social action as sense making practices. V: van Dijk, T. A. (ur.), 1997. Discourse as social interaction. London: Sage.

  1. Popović, M., 1999. Kako se konferenčni tolmač pripravlja na svoje delo? Uporabno jezikoslovje 7/8. 178-183.

  1. Redeker, G., 1990. Ideational and pragmatic markers of discourse structure. Journal of Pragmatics 14. 367-381.

  1. Reithinger, N., 1994. Verbmobil: Some experiments in speech act prediction. Tecnical report. Saarbruecken, DFKI GmbH.

  1. Rojc, Matej, 2003. Časovo in pomnilniško optimalna struktura večjezičnega in poliglotskega sintetizatorja govora - arhitektura s končnimi stroji. Doktorska disertacija. Maribor: FERI.

  1. Romih, M., Holozan, P., 2002. Slovensko-angleški prevajalni sistem. V: Informacijska družba IS’2002: Jezikovne tehnologije. Ur. Erjavec, T., Gros, J. Ljubljana: Institut Jožef Stefan. 167.

  1. Rozman, R., D. M. Kodek, 2000. Govorna baza ŠTEVKE in raziskave robustnosti sistemov za razpoznavanje govora. V: Informacijska družba IS'2000: Jezikovne tehnologije. 75-78.

  1. Rotovnik, T., M. Sepesy Maučec, B. Horvat, 2002. Uporaba algoritma ROVER pri razpoznavanju slovenskega govora. V: Informacijska družba IS’2002: Jezikovne tehnologije. Ur. Erjavec, T., Gros, J. Ljubljana: Institut Jožef Stefan. 58-62.

  1. Schegloff, E., G. Jefferson, H. Sacks, 1977. The preference for self-corection in the organization of repair in conversation. Language 53/2. 361-382.

  1. Schegloff, E., 1979. The relevance of repair to syntax-for-conversation. V: Givon, T. (ur.). Syntax and Semantics 12, Discourse and Syntax. New York: Academic Press. 261-286.

  1. Schiffrin, D., 1987. Discourse markers. Cambridge: Cambridge University Press.

  1. Schiffrin, D., 1994. Approaches to Discourse. Cambridge: Blackwell Publishers.

  1. Schlamberger Brezar, M., 1998. Vloga povezovalcev v diskurzu. V: Jezik za danes in jutri. Ljubljana: Društvo za uporabno jezikoslovje Slovenije. 194-202.

  1. Schourup, Lawrence, 1999. Discourse markers. Lingua 107. 227-265.

  1. Schourup, Lawrence, 2001. Rethinking well. Journal of Pragmatics 33. 1025-1060.

  1. Searle, John R., 1969. Speech acts: An essay in the philosophy of language. Cambridge: Cambridge University Press.

  1. Sepesy Maučec, M., Z. Kačič, B. Horvat, 2004. Modeling highly inflected languages. Information Sciencies 166/1-4. 249-269.

  1. Shriberg, E. E., 1994. Preliminaries to theory of speech disfluencies. PHD thesis. University of California at Berkeley.

  1. Shum, B., L. Levin, N. Coccaro, J. Carbonell, K. Horiguachi, R. Isotani, A. Lavie, L. Mayfield, C. P. Rose, C. Van Ess-Dykema, A. Waibel, 1994. Speech-Language Integration in a Multi-lingual Translation System. V: Proceedings of AAAI Workshop on Integration of Natural Language and Speech Processing.

  1. Sivec, B., 1998. Razčlemba utemeljevalnega diskurza v razredu. V: Jezik za danes in jutri. Ure. Inka Štrukelj. Ljubljana: Društvo za uporabno jezikoslovje. 203-215.

  1. Skubic, Andrej, 1999. Ogled kohezijske vloge slovenskega členka. SR 47/2. 210-238.

  1. Smolej, Mojca, 2001. Členek v slovenskem knjižnem jeziku: Pomenoslovni in skladenjski vidiki. Magistrsko delo. Ljubljana: Filozofska fakulteta.

  1. Smolej, Mojca, 2004a. Členki kot besedilni povezovalci. JiS 49/5. 45-57.

  1. Smolej, Mojca, 2004b. Načini tvorjenja govorjenega diskurza – paradigmatska in sintagmatska os. V: Erika Kržišnik (ur.). Aktualizacija jezikovnozvrstne teorije na Slovenskem: členitev jezikovne resničnosti (Obdobja, Metode in zvrsti, 22). Ljubljana: Center za slovenščino kot drugi/tuji jezik.

  1. Evropska komisija, 2005. Sporočilo o večjezičnosti. http://europa.eu.int/languages/sl/ document/74.

  1. Stabej, M., 1998. Besedilnovrstna sestava korpusa FIDA. Uporabno jezikoslovje 6. 96-106.

  1. Stabej, M., Vitez, P., 2000. KGB (korpus govorjenih besedil) v slovenščini. IS'2000: Jezikovne tehnologije. 79-81.

  1. Stabej, M., 2003. Jezikovne tehnologije in jezikovno načrtovanje. Jezik in slovstvo 48/3-4. 5-18.

  1. Stergar, Janez, 2003. Napovedovanje prozodičnih parametrov za samodejno tvorjenje slovenskega govora. Doktorska disertacija. Maribor: FERI.

  1. Šef, T., A. Dobnikar, M. Gams, M. Grobelnik, 1998. Slovensko govoreči zaposlovalni agent na internetu. http://ai.ijs.si/mezi/sef.doc.

  1. Štrukelj, I. (ur.), 1998. Jezik za danes in jutri. Zbornik referatov na II. kongresu. Ljubljana: Društvo za uporabno jezikoslovje.

  1. Toporišič, J., 2000. Slovenska slovnica. Maribor: Založba Obzorja.

  1. Trujillo, A., 1999. Translations engines: techniques for machine translation. London: Springer.

  1. Tseng, Shu-Chuan, 1999. Grammar, prosody and speech disfluencies in spoken dialogues. PHD thesis. University of Bielefeld.

  1. Ueffing, N., H. Ney, V. Arranz, N. Castell, 2002. D4.1 Overview of Speech Centered Translation. http://www.lc-star.com/archive.htm.

  1. Ueffing, N, H. Ney, 2005. D4.5 Results on different structured language resources for speech-to-speech translation systems. http://www.lc-star.com/archive.htm

  1. van Dijk, T. A. (ur.), 1997a. Discourse as structure and process. London: Sage.

  1. Verdonik, D., 2003. Pragmatični vidik nesporazumov v komunikaciji. Magistrsko delo. Maribor: Pedagoška fakulteta Maribor.

  1. Vershueren, J., 2000. Razumeti pragmatiko. Ljubljana: Založba /*cf.

  1. Vesnicer, B., F. Mihelič, N. Pavešić, 2002. Sinteza z uporabo prikritih Markovovih modelov. V: Informacijska družba IS'2002: Jezikovne tehnologije. 28-32.

  1. Vesnicer, B., F. Mihelič, N. Pavešić, 2004. Vrednotenje na prikritih Markovovih modelih temelječega sistema za umetno tvorjenje besedila. V: Informacijska družba IS’2004: Jezikovne tehnologije.

  1. Vičič, J., T. Erjavec, 2002. Vsak začetek je težak: avtomatsko učenje prevajanja slovenščine v angleščino. V: Informacijska družba IS’2002. Jezikovne tehnologije. 20-27.

  1. Vintar, Špela, 2001. Računalniška orodja za jezikoslovce in prevajalce. V. Orel, I. (ur.). 37. seminar slovenskega jezika, literature in kulture. Zbornik predavanj. Ljubljana: Center za slovenščino kot drugi/tuji jezik pri Oddelku za slovanske jezike in književnosti Filozofske fakultete. 319-332.

  1. Vintar, Š., 2003. Uporaba vzporednih korpusov za računalniško podprto ustvarjanje dvojezičnih terminoloških virov. Doktorska disertacija. Ljubljana: Filozofska fakulteta.

  1. Vitez, P., A. Zwitter Vitez, 2004. Problem prozodične analize spontanega govora. Jezik in slovstvo 49/6. 3-24.

  1. Wahlster, W. (ed.), 2000. Verbmobil: Foundations of Speech-to-Speech Translation. Berlin: Springer.

  1. Waibel, A., A. Lavie, L. Levin, 1997. JANUS: A System for Translation of Conversational Speech. Kuenstliche Intelligenz. 11/4. 51-55.


  1. Weinrich, Harald, 1993. Textgrammatik der deutschen Sprache. Manheim, Leipzig, Wien, Zuerich: Dudenverlag.

  1. Wiebe, J., D. Farwell, D. Villa, R. Guillen, T. Hernden, R. Bruce, F. Ronquillo, 1994. Adapting Machine Translation Systems to Processing Dialog: A Feasibility Study. Year-End Report. Technical Report MCCS-94-275. Computing Researc Lab, New Mexico State University.

  1. Wiebe, J., Farwell, D., Villa, D., Chen, J.L., Sinclaire, T., Sandgren, T., Stein, G., Zarazua, D., Ohara, T., 1996. Artwork: Discourse processing in machine translation of dialog. Technical Report MCCS96294, Computing Research Laboratory, New Mexico State University.

  1. Wiebe, J., Farwell, D., Villa, D., O’Hara, T., McKeever, K., Sandgren, T., Payne, K., 1997. Artwork: Discourse processing in machine translation of dialog. Technical Report MCCS-96-294, Computing Research Laboratory, New Mexico State University.


  1. Wilson, Deirdre, in D. Sperber, 1986. Relevance. Cambridge: Cambridge University Press.


  1. Wilson, Deirdre, 2005. New directions for research on pragmatics and modularity. Lingua 115. 1129-1146.


  1. Wong, S., 2001. Machine translation techniques.

http://www.fi.muni.cz/usr/wong/teaching/mt/notes/index.html


  1. Zemljak, M., Z. Kačič, S. Dobrišek, J. Gros, P., Weiss, 2002. Računalniški simbolni fonetični zapis slovenskega govora. Slavistična revija, 50/2. 159-169.


  1. Zemljarič Miklavčič, J., 2004. Taksonomija besedilnih tipov za gradnjo govornega korpusa. V: Aktualizacija jezikovnozvrstne teorije na Slovenskem: Členitev jezikovne resničnosti. Zbornik Mednarodnega simpozija Obdobja. Ljubljana: Center za slovensščino kot drugi/tuji jezik.


  1. Zhang, Ying, 2003. Survey of Current Speech Translation Research. http://projectile.is.cs.cmu.edu/research/public/talks/speechTranslation/sst-survey-joy.pdf.


  1. Žagar, Igor Ž., 1990. Nemoč ilokucijske moči (spremna beseda). V: J. L. Austin (1990). Kako napravimo kaj z besedami? Ljubljana: Založba Škuc, ZIFF, 159-200.


  1. Žganec Gros, J., F. Mihelič, T. Erjavec, Š. Vintar, 2005. The VoiceTRAN Speech-to-Speech Comminocator. V: Proceedings of the 8th Intl. Conf. on Text, Speech and Dialogue, TDS 2005. Karlovy Vary, Češka republika. 379-384.


  1. Žgank, A., M. Rojc, B. Kotnik, D. Vlaj, M. Sepesy Maučec, T. Rotovnik, Z. Kačič, A. Z. Markuš, B. Horvat, 2002. Govorno voden informacijski portal LentInfo – predodna analiza rezultatov. V: Informacijska družba IS’2002: Jezikovne tehnologije. Ur. Erjavec, T., Gros, J. Ljubljana: Institut Jožef Stefan. 72-78.


  1. Žgank, A., T. Rotovnik, D. Verdonik, Z. Kačič, 2004. Baza Boradcast News za slovenski jezik (BNSI) in sistem za razpoznavanje tekočega govora. V: Informacijska družba IS'2004: Jezikovne tehnologije. 94-98.


  1. Žibert, J., Mihelič, F., 2004. Development, Evaluation and Automatic Segmentation of lovenian Broadcast News Speech Database. V: Informacijska družba IS'2004: Jezikovne tehnologije. 72-79.


9.2Seznam spletnih strani


  1. Alpineon:

www.alpineon.com


  1. Amebis:

www.amebis.si

http://presis.amebis.si/prevajanje/index.asp


  1. AT&T:

http://www.research.att.com/~srini/Projects/Anuvaad/home.html


  1. C-STAR:

http://www.c-star.org/

http://www.c-star.org/main/english/cstar2/tech/janus.html

http://www.c-star.org/main/english/cstar2/


  1. Digital Olympics:

http://www.eurochina2002.com/digital_olympics.html



  1. EAGLES:

http://www.ilc.cnr.it/EAGLES96/spokentx/


  1. EuTrans:

http://prhlt.iti.es/Projectes/EuTrans/EuTrans.html

http://www.hltcentral.org/usr_docs/project-source/eutrans/AR-99/index.htm


  1. FIDA:

www.fida.net


  1. FIDAPLUS:

www.fidaplus.net


  1. IJS-ELAN, slovensko-angleški vzporedni korpus:

http://nl.ijs.si/elan/


  1. Inštitut za slovenski jezik Frana Ramovša ZRC SAZU:

http://bos.zrc-sazu.si/


  1. Laboratorij za arhitekturo in procesiranje signalov, Fakulteta za računalništvo in informatiko v Ljubljani:

http://laps.fri.uni-lj.si/Razno/laps.html


  1. Laboratorij za digitalno procesiranje signalov, Fakulteta za elektrotehniko, računalništvo in informatiko v Mariboru:

http://www.dsplab.uni-mb.si/Dsplab/index.php


  1. Laboratorij za umetno zaznavanje, sisteme in kibernetiko, Fakulteta za elektrotehniko v Ljubljani:

http://luz.fe.uni-lj.si/


  1. LC-STAR:

www.lc-star.com


  1. NESPOLE!:

http://nespole.itc.it/


  1. Oddelek za slovenistiko Filozofske fakultete v Ljubljani:

http://www.ff.uni-lj.si/oddelki/slovenistika/


  1. Oddelek za prevajalstvo Filozofske fakultete v Ljubljani:

http://www.ff.uni-lj.si/prevajanje/


  1. Odsek za inteligentne sisteme, Institut Jožef Stefan:

http://nl.ijs.si/


  1. PF-STAR:

http://pfstar.itc.it


  1. PRAAT:

http://www.fon.hum.uva.nl/praat/


  1. TC-STAR:

http://www.tc-star.org/


  1. Transcriber:

http://www.etca.fr/CTA/gip/Projets/Transcriber/-fr/user.html




  1. Verbmobil:

http://verbmobil.dfki.de/overview-us.html

http://verbmobil.dfki.de/verbmobil/VM.English.Mail.30.10.96.html


9.3Viri


Priloga 1: Prepis pogovorov v korpusu Turdis-1

Priloga 2: Zgoščenka z zvočnimi datotekami in transkripcijami v programu Transcriber za korpus Turdis-1

Stvarno kazalo

A

analiza diskurza · 13, 14, 37, 42, 43, 44, 45, 46, 47, 48, 53, 54, 62, 63, 64, 72, 80, 160, 171, 172, 173, 174, 176, 178, 181

analiza diskurza ·

jezikovna pragmatika · 42, 43, 172

konverzacijska analiza · 14, 42, 45, 48, 49, 51, 63, 64, 68, 170, 176

B

besedilo · 14, 16, 17, 18, 20, 21, 22, 23, 24, 25, 27, 29, 32, 33, 34, 35, 37, 39, 41, 46, 47, 48, 52, 54, 55, 56, 57, 58, 61, 62, 65, 66, 69, 73, 75, 76, 93, 102, 137, 138, 158, 159, 160, 163, 164, 167, 171, 174, 176, 177, 178

besedilo ·

govorjeno · 22, 41, 46, 68, 69, 173, 177

govorjeno ·

spontano govorjeno · 14, 22, 35, 36, 39, 46, 54, 172, 176

pisno · 37, 39, 40, 41, 45, 46, 55, 170, 176

pisno ·

nespontano pisno · 46

površinsko · 48, 163, 167, 171

bližnji par · 42, 51, 68, 80, 161, 170, 172, 177, 178

bližnji par ·

drugi del bližnjega para · 51, 64, 161

prvi del bližnjega para · 51

D

diskurz · 14, 37, 42, 43, 45, 47, 48, 52, 54, 57, 59, 60, 61, 62, 63, 67, 68, 87, 92, 93, 98, 107, 114, 125, 135, 136, 142, 147, 148, 151, 152, 153, 160, 161, 171, 173, 174, 176, 177, 178

diskurz ·

govorjeni · 14, 42, 43, 46, 54, 57, 59, 160, 176

spontan govorjeni · 13, 14, 37, 39, 41, 42, 43, 44, 46, 54, 67, 68, 69, 97, 156, 160, 176, 177

pisni · 37, 39, 43, 46, 57, 61, 62, 176

pisni ·

nespontan pisni · 39, 43

diskurzni označevalec · 14, 45, 50, 51, 62, 66, 68, 69, 74, 76, 80, 82, 84, 85, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 101, 102, 103, 104, 105, 107, 108, 110, 111, 112, 114, 116, 117, 122, 124, 125, 127, 128, 130, 132, 133, 134, 135, 136, 137, 138, 139, 141, 142, 143, 144, 145, 146, 147, 149, 151, 152, 153, 154, 155, 157, 159, 161, 162, 163, 164, 166, 167, 171, 172, 173, 174, 177, 178

aha · 4, 14, 39, 57, 61, 80, 87, 96, 103, 105, 106, 110, 116, 128, 146, 147, 149, 151, 152, 153, 154, 171

aja · 4, 14, 61, 80, 87, 97, 101, 146, 151, 152, 153, 154, 155, 171

dobro · 4, 14, 80, 84, 87, 95, 102, 129, 146, 149, 151, 152, 153, 154, 171

eee · 4, 14, 39, 64, 80, 82, 87, 95, 102, 116, 123, 129, 135, 144, 145, 151, 152, 153, 154, 157, 161, 162, 165, 166, 171

glejte · 4, 14, 80, 87, 95, 122, 135, 145, 151, 152, 154, 171