Jezikovni viri projekta LC-STAR

Darinka Verdonik, Matej Rojc

Fakulteta za elektrotehniko, računalništvo in informatiko

Smetanova ul. 17, 2000 Maribor

darinka.verdonik@uni-mb.si

Povzetek

V članku predstavljamo jezikovne vire, ki se razvijajo v mednarodnem projektu LC-STAR, s podrobnejšo predstavitvijo jezikovnih virov za slovenščino, ki jih v okviru projekta razvija Fakulteta za elektrotehniko, računalništvo in informatiko Univerze v Mariboru. Jezikovni viri so v osnovi dveh vrst: veliki slovarji za izboljšanje razpoznave in sinteze govora (113.000 besed) ter poravnani slovarji fraz in slovarji besed s področja turizma za izboljšanje komponente govorno orientiranega prevajanja. Kakovost razvitih jezikovnih virov se zagotavlja z natančnimi določili in neodvisno validacijo, ki jo opravljata SPEX in CST. Razviti jezikovni viri naj bi odpravili pomanjkljivosti na tem področju. Viri bodo na voljo prek ELRE/ELDE.

  1. Uvod

Namen mednarodnega projekta LC-STAR (Lexica and Corpora for Speech to Speech Translation Components) (www.lc-star.com) je razviti jezikovne vire, ki so potrebni za izboljšanje komponent strojnega simultanega prevajanja govora. Te so (Hoege, 2002):

- razpoznava govora z velikim slovarjem

- visoko kvalitetna sinteza govora

- besedilno orientirano strojno prevajanje

V projektu so se združili pomembni industrijski in akademski partnerji: Siemens AG, IBM, Nokia, NSC (Natural Speech Communication Ltd.), UPC (Universitat Politecnica de Catalunya), RWTH University of technology. Univerza v Mariboru se je projektu pridružila kot zunanji partner, ki bo zagotovil jezikovne vire po standardih projekta za slovenski jezik.

Po ugotovitvah v LC-STAR (Hartikainen et al., 2003) so glede na široko sprejete pristope k razpoznavanju govora (skriti modeli Markova) in sinteze govora (konkatenativna sinteza) zahteve glede vsebine jezikovnih virov dokaj ustaljene in jasne: osrednje načelo je zagotoviti velike slovarje besed, ki pokrivajo številna različna področja rabe, in korpuse govorjenih besedil. Vendar pri obstoječih virih konzorcij LC-STAR ugotavlja predvsem naslednje pomanjkljivosti:

- premajhno pokritost po različnih aplikacijskih področjih

- nezadostno prilagojenost za sintezo in razpoznavo govora

- nezadostno kvaliteto

- pomanjkanje standardov

- slabo pokritost po jezikih

Projekt LC-STAR naj bi odpravil te pomanjkljivosti jezikovnih virov za komponente strojnega simultanega prevajanja govora, s tem da bodo razviti visoko kvalitetni jezikovni viri za številne svetovne jezike po skupnih, v projektu postavljenih standardih. Jeziki, pokriti v okviru projekta LC-STAR, so: turški, ruski, italijanski, grški, španski, katalonski, nemški, klasični arabski, hebrejski, ameriška angleščina, finski, kitajski, slovenski.

V nadaljevanju članka najprej na kratko pregledamo, kateri jezikovni viri za razvoj komponent sistemov strojnega simultanega prevajanja govora so razviti za slovenščino, nato pa natančneje predstavljamo jezikovne vire, ki se razvijajo v okviru projekta LC-STAR, s poudarkom na slovenskih jezikovnih virih, ki nastajajo v okviru projekta na Univerzi v Mariboru.


  1. Slovenski jezikovni viri, uporabni za razvoj komponent strojnega simultanega prevajanja govora

Jezikovni viri, potrebni za razvoj komponent strojnega simultanega prevajanja govora, so v splošnem dvoji: oblikoslovni in glasoslovni slovarji ter različni korpusi govorjenih besedil. Zaradi časovne in finančne zahtevnosti pridobivanja in urejanja korpusov govorjenih besedil se sicer velikokrat uporabljajo kar korpusi pisnih besedil, čeprav zaradi razlik med govorjenim in pisanim besedilom to ni najustreznejša rešitev za razvoj kvalitetnih sistemov strojnega simultanega prevajanja govora.

Od dostopnih slovarjev za slovenski jezik imamo tako slovar lastnih imen Onomastica (Kačič, 1997), ki ga distribuira ELRA/ELDA. Ta organizacija ponuja tudi govorno bazo posnetkov SpeechDat (II) (Kaiser, Kačič, 1998) za slovenski jezik, ki je prvi jezikovni vir za slovenski jezik, preverjen v mednarodnem centru za validacijo SPEX. Žal je oba jezikovna vira treba plačati. Od prosto dostopnih govornih baz je na voljo MobiLuz, govorna baza poizvedovanj o letalskih informacijah, ki vključuje tudi fonetični prepis in oblikoslovne oznake (Gros et al., 2000), v raziskovalne namene je mogoče dobiti tudi oblikoslovni slovar slovenskega jezika, ki je nastal v okviru projekta Multext-East (nl.ijs.si/ME), ta obsega 15.000 lem. Ostali jezikovni viri, ki se lahko uporabijo za razvoj sistemov strojnega simultanega prevajanja slovenskega govora, so bolj ali manj narejeni za lastno uporabo v organizacijah, ki so sodelovale pri njihovem nastajanju, so različno obsežni, vsebujejo različne podatke in so različno kvalitetni. Govorne baze za slovenski jezik so tako še Snabi (Kačič, 2002), Polidat (Zoegling Markuš, Kačič, Horvat, 2000), Luz (Gros, 1996), Gopolis (Dobrišek et al., 1998), govorna zbirka vremenskih napovedi (Žibret, Mihelič, 2000). Od slovarjev je za slovenski jezik narejen še en večji oblikoslovni slovar, SImlex (Verdonik et al., 2002; Rojc, Kačič, 2003) z 20.000 lemami, od večjih glasoslovnih slovarjev pa SIflex, ki vsebuje fonetični prepis vseh besed iz SImlexa (ibid.). Drugih večjih oblikoslovnih ali glasoslovnih slovarjih ni zaslediti, obstaja pa še nekaj manjših za potrebe sintetizatorjev govora oz. za študije samodejnega napovedovanja naglasnega mesta (Šef, 2002). Večjega, referenčnega korpusa govorjenih besedil (eno-, dvo- ali večjezičnega) za slovenski jezik nimamo, lahko pa zasledimo objavo, ki napoveduje njegovo gradnjo (Stabej, Vitez, 2000). Boljše je stanje pri pisnih korpusih (enojezična FIDA (www.fida.net), Nova Beseda (bos.zrc-sazu.si/s_beseda), paralelni korpus ELAN (nl.ijs.si/elan/) in drugi), vendar so ti, kot rečeno, lahko samo izhod v sili, kadar govorimo o razvoju komponent strojnega simultanega prevajanja govora. Zaradi razlik med govorjenim in pisnim besedilom je strojno simultano prevajanje govora drugačna naloga kot strojno prevajanje (pisanega) besedila.

Navedeno kaže, da podobne pomanjkljivosti, kot jih ugotavljajo v LC-STAR za jezikovne vire nasploh, veljajo tudi za slovenske jezikovne vire, potrebne za razvoj komponent strojnega simultanega prevajanja govora.

  1. Jezikovni viri, razviti v okviru projekta LC-STAR

Projekt LC-STAR poteka vzporedno v dveh smereh.

1. del:

2. del:

Univerza v Mariboru je kot zunanja partnerica, odgovorna za izgradnjo jezikovnih virov za slovenski jezik, udeležena predvsem v prvem delu projekta, v katerem bodo za 13 jezikov zgrajeni oblikoslovni in glasoslovni slovarji z vsaj 100.000 enotami, od tega slaba polovica lastnih imen, pa tudi v drugem delu projekta pri priprav vzporednih slovarjev fraz in leksikonov besed iz teh fraz.

V nadaljevanju podrobneje opisujemo najprej velike slovarje besed za sintezo in razpoznavanje govora ter zatem slovarje za govorno orientirano prevajanje za slovenski jezik.

    1. Slovarji za izboljšanje razpoznave in sinteze govora za slovenski jezik

Slovarji za izboljšanje razpoznave in sinteze govora oz. t.i. veliki slovarji so zgrajeni iz treh enot: občnih besed, lastnih imen in aplikacijskih besed, tj. besed, potrebnih za delovanje govorno vodenih aplikacij s šestih semantičnih področij (splošno, finance, potovanja, posredovanje informacij, upravljanje in storitve, telekomunikacije). Dodatno so bile k občnim besedam v celoti zbrane besedne vrste, ki imajo končno število besed (predlogi, vezniki, zaimki...) - t.i. zaprti nabori. Natančnejši prikaz velikosti posameznih enot slovarja je v tabeli 1.


ENOTA SLOVARJA

VELIKOST

občne besede

65.096

zaprti nabor

1.146

lastna imena

45.027

aplikacijske besede

6.040


Tabela 1: Velikost posameznih enot velikega slovarja LC-STAR za slovenski jezik.

      1. Občne besede

Občne besede so bile izbrane iz 12-milijonskega korpusa, v katerem so bila zbrana besedila iz 6 večjih področij: šport, novice, kultura in zabava, gospodarstvo in finance, potrošniške informacije, osebne komunikacije. Glavna vira za korpus sta bila časopisa Večer in Delo, za potrošniške informacije so bila dodana besedila iz nekaterih prilog k tema časopisoma, nekaj besedil revije Gea, poljudnoznanstvena besedila s portala Svarog in nekateri priročniki z interneta. Natančna struktura korpusa je prikazana v tabeli 2.


Področje

Viri

Leto objave

Šport

Večer, rubrike: Šport, Prosti strel

1997-2002

Novice

Večer, rubrike: Prva stran, Črna kronika, Kronika, Maribor, Maribor okolica, Zadnja stran, Zunanja politika, Doma in po svetu, Slovenska kronika, V žarišču

1997-2002

Finance/

gospodarstvo

Večer, rubrike: Gospodarstvo, Finance

1997-2002

Kultura/

zabava

Večer, rubrike: Kultura, Čitalnica, Film, Borštnikovo, Lent, Reportaže zanimivosti, Reportaža, Potovanja

1997-2002

Potrošniške informacije

Večer, rubrike: Zdravje, Zdravstvo, Univerza znanost, Računalništvo, Arhitekturna beseda, priloge Raziskovalec, Zdravje, priloga Dela Znanost, revija Gea, novice iz Svaroga, priročniki z interneta

1997-2003

Osebne komunikacije

Večer, rubrike: Pisma bralcev, Pisma, Vaši odmevi, Vaša mnenja odmevi

1997-2002


Tabela 2: Viri za korpus občnih imen in leto publikacije.


Korpus je bil tokeniziran, odstranila so se ločila, cifre, najpogostejši znaki ($, &, % itd.). Nato so bila avtomatsko odstranjena lastna imena, okrajšave in vsi singletoni (besede, ki se pojavijo samo enkrat), nato pa preostala lastna imena in okrajšave še ročno. Tako urejen korpus je štel za t.i. čisti korpus. Velikost takega korpusa za slovenski jezik je prikazana v tabeli 3.



Področje

Velikost

Različne besede

Šport

1.888.753

42.029

Novice

2.178.834

63.912

Finance/gospodarstvo

3.411.268

62.837

Kultura/zabava

2.716.028

82.305

Potrošniške informacije

1.146.009

48.326

Osebne komunikacije

950.179

40.500

Skupaj

12.291.071

139.645


Tabela 3: Velikost čistega korpusa.


Iz tega korpusa je bil izločen seznam besed za nadaljnjo obdelavo tako, da je bila dosežena pokritost izvornega korpusa najmanj 95 %. Zaradi varovala smo izbrali nekoliko višji odstotek. Natančni podatki o velikosti seznama občnih besed so v tabeli 4.


Področje

Različne besede


Št. besed

Pokritost

Šport

17.256

96%

Novice

31.479

96%

Finance/gospodarstvo

24.469

96%

Kultura/zabava

40.847

96%

Potrošniške informacije

28.418

96%

Osebne komunikacije

23.923

96%

Skupaj

65.096

98,11%


Tabela 4: Velikost seznama občnih besed po številu besed ter pokritost izvornega korpusa po posameznih področjih in skupaj.

      1. Zaprti nabori

Ker se zlasti funkcijske besede pogosto uporabljene na različnih področjih, s korpusom pa niso zajete vse, je bil dodatno k seznamu občnih besed ročno zbran seznam funkcijskih besed, ki jih je končno število. Naj poudarimo, namen tega zbiranja je bil samo izpopolniti seznam občnih besed, pridobljen iz korpusa, s funkcijskimi besedami, ki se pogosto uporabljajo. Te besede so bile zbrane v 13 skupinah glede na kasnejše oblikoslovno označevanje in so naslednje:

Tako je bilo skupaj zbranih nekaj več kot 1000 besed, od teh jih je bilo nekaj več kot 700 že zbranih s korpusom. Na ta način je bilo torej dejansko dodanih nekaj več kot 300 besed h končnemu slovarju.


      1. Lastna imena

V projektu LC-STAR je veliko pozornosti namenjene tudi lastnim imenom, saj so pogosto uporabljena v različnih aplikacijah, njihovo izgovorjavo pa je težko pravilno določiti, zlasti pri tujih lastnih imenih. Ker pa je zanesljiva razpoznava in sinteza zelo pomembna za prihodnje govorne aplikacije, je nabor lastnih imen v projektu velik (Ziegenhain et al., 2004).

Nabor slovenskih lastnih imen šteje 45.027 imen in je v skladu s specifikacijami projekta razdeljen na tri večje enote: osebna imena, krajevna imena, imena organizacij. Tabela 5 prikazuje natančnejšo strukturo enot in velikost slovenskega slovarja lastnih imen.


Področje

Velikost

%

Podpodročje

Osebna imena

22.469

49,2


Zemljepisna imena

11.828

25,9

mesta

gore, reke in druge zemljep. enote

glavna mesta

velika in pomembna mesta

pomembni turistični in drugi kulturni spomeniki

ulice

države

Organizacije

11.357

24,9

pridobitne in nepridobitne organizacije, podjetja

trgovske znamke

Skupaj št. vnosov

45.654

100


Skupaj št. razl. vnosov

45.027




Tabela 5: Lastna imena: razdelitev po področjih in po velikosti.


Večbesedna lastna imena, kot so Stari_trg, Novo_mesto, štejejo kot en vnos. Nekatera lastna imena so lahko hkrati razvrščena v več področij (npr. Jelka je lahko ime trgovine ali osebno ime), takih vnosov je v slovarju čez 600. Zbrana lastna imena so takšna, kot so v rabi v slovenskem prostoru. Pri zemljepisnih lastnih imenih se pojavi precej tujih imen predvsem za kraje, za katere nimamo poslovenjenega imena, tuja imena vključena tudi z imeni večjih tujih korporacij in trgovskih znamk, veliko besed tujega izvora pa je tudi v imenih sicer slovenskih podjetij.

Viri, iz katerih so bile pridobljene besede, in vrsta virov so opisani v tabeli 6.


Področje

Viri

Vrsta vira

Osebna imena

Onomastica

CD

Zemljepisna imena

Krajevni leksikon Slovenije

CD


Veliki družinski atlas

ročno


Atlas Slovenije

ročno


Geografski atlas sveta za šole

ročno


Slovenija: turistični vodnik

ročno


Interaktivni atlas Slovenije

internet


Onomastica

CD

Organizacije

Telefonski imenik Slovenije: Pomlad 2002

CD


Onomastica

CD


internet, trgovine

internet, ročno


Tabela 6: Viri in vrsta virov za pridobivanje seznama lastnih imen.

      1. Aplikacijske besede

Seznam aplikacijskih besed je dvojega izvora:

Skupaj je bilo tako zbranih 6040 besed, od teh jih je bilo 3510 že zbranih s korpusom občnih imen. S seznamom aplikacijskih besed je bilo torej dodanih 2530 besed k skupnemu končnemu naboru.

Skupaj - občne besede, zaprti nabori, lastna imena in aplikacijske besede - je bilo tako zbranih okoli 113.000 besed, ki predstavljajo vnose za veliki slovar, namenjen za izboljšanje razpoznave in sinteze govora.

      1. Oblikoslovno označevanje in fonetični prepis

Po zgoraj opisanih postopkih zbrane besede se oblikoslovno označijo in fonetično prepišejo v skladu s standardi, določenimi v projektu (Hartikainen et al., 2003).

Za fonetični prepis je uporabljena fonetična abeceda Sampa (Zemljak et al., 2002). Besede so zlogovane; znak za zlog je vezaj (-). Pri večbesednih vnosih je premor med besedami označena z višajem (#). Naglas je določen za celoten zlog, označen je z narekovajem pred zlogom ("). Vsi fonemi in znaki za zlog, premor in naglasno mesto so ločeni med seboj s presledkom. Fonetični prepisi so bili narejeni polavtomatsko ter ročno pregledani in popravljeni.

Oblikoslovne oznake so natančneje predstavljene že v (Verdonik et al., 2004), tukaj predstavljamo le glavne značilnosti.

Osrednje kategorije besed so: samostalnik, pridevnik, števnik, zaimek, glagol, pomožni glagol, prislov, veznik, predlog, členek, medmet. Za vse sklonljive kategorije (samostalnik, pridevnik, števnik, zaimek) so določeni atributi sklon, spol, število, za glagol in pomožni glagol pa poleg spola in števila tudi oseba, naklon (povedni, pogojni, velelni, nedoločnik, deležnik), čas, način in vid. Lastna imena so kategorizirana kot samostalnik, sledi atribut za oznako vrste lastnega imena (osebno, zemljepisno, država, mesto, ulica, organizacija, trgovska znamka, turistični spomeniki). Oznak za spol, sklon ali število pri lastnih imenih ni, tudi ko so enobesedna. Samostalnikom moškega spola je v 4. sklonu pripisana oznaka za živost ali neživost, pri pridevnikih in prislovih je označen atribut o stopnji, števniki so dodatno označeni kot glavni, vrstilni, množilni in ločilni, zaimki so razdeljeni na osebne, kazalne, oziralne, nedoločne, vprašalne, povratne in svojilne, prislovi pa na prislove časa, kraja in načina.

Tako urejen slovar je zakodiran v jeziku XML. Struktura slovarja je razvidna iz sledečega izseka:




<ENTRYGROUP orthography="Abramičeva_ulica">

<ENTRY>

<NOM class="STR" />

<LEMMA>Abramičeva_ulica</LEMMA>

<PHONETIC>a - " b r a: - m i - tS E - v a # " u: - l i - ts a </PHONETIC>

</ENTRY>

</ENTRYGROUP>

<ENTRYGROUP orthography="agenciji">

<ENTRY>

<NOM class="common" number="dual" gender="feminine" case="nominative" />

<LEMMA>agencija</LEMMA>

<PHONETIC>a - " g e: n - ts i - j i </PHONETIC>

</ENTRY>

<ENTRY>

<NOM class="common" number="singular" gender="feminine" case="dative" />

<LEMMA>agencija</LEMMA>

<PHONETIC>a - " g e: n - ts i - j i </PHONETIC>

</ENTRY>

<ENTRY>

<NOM class="common" number="dual" gender="feminine" case="accusative" />

<LEMMA>agencija</LEMMA>

<PHONETIC>a - " g e: n - ts i - j i </PHONETIC>

</ENTRY>

<ENTRY>

<NOM class="common" number="singular" gender="feminine" case="locative" />

<LEMMA>agencija</LEMMA>

<PHONETIC>a - " g e: n - ts i - j i </PHONETIC>

</ENTRY>

<ENTRY>

<NOM class="common" number="dual" gender="feminine" case="nominative" />

<LEMMA>agencija</LEMMA>

<PHONETIC>a - g E n - " ts i: - j i </PHONETIC>

</ENTRY>

<ENTRY>

<NOM class="common" number="singular" gender="feminine" case="dative" />

<LEMMA>agencija</LEMMA>

<PHONETIC>a - g E n - " ts i: - j i </PHONETIC>

</ENTRY>

<ENTRY>

<NOM class="common" number="dual" gender="feminine" case="accusative" />

<LEMMA>agencija</LEMMA>

<PHONETIC>a - g E n - " ts i: - j i </PHONETIC>

</ENTRY>

<ENTRY>

<NOM class="common" number="singular" gender="feminine" case="locative" />

<LEMMA>agencija</LEMMA>

<PHONETIC>a - g E n - " ts i: - j i </PHONETIC>

</ENTRY>

</ENTRYGROUP>

<ENTRYGROUP orthography="aretirajo">

<ENTRY>

<VER number="plural" gender="not_specified" person="3" mood="indicative" tense="present" voice="active" polarity="not_specified" aspect="perfect" />

<LEMMA>aretirati</LEMMA>

<PHONETIC>a - r E - " t i: - r a - j O </PHONETIC>

</ENTRY>

<ENTRY>

<VER number="plural" gender="not_specified" person="3" mood="indicative" tense="present" voice="active" polarity="not_specified" aspect="imperfect" />

<LEMMA>aretirati</LEMMA>

<PHONETIC>a - r E - " t i: - r a - j O </PHONETIC>

</ENTRY>

</ENTRYGROUP>

    1. Slovarji za govorno orientirano prevajanje za slovenski jezik

Drugi del projekta LC-STAR je orientiran v proučitev in izgradnjo jezikovnih virov, ki bi izboljšali govorno orientirano prevajanje. V skladu s tem so bili v projektu proučeni različni pristopi k strojnemu prevajanju govora in rezultati kažejo, da je mogoče razviti robustno strojno simultano prevajanje govora za majhno do srednje veliko semantično področje. Največji problemi strojnega simultanega prevajanja govora so glede na raziskave naslednji:

Trenutno najbolj obetaven pristop k strojnemu prevajanju govora je statistični. Obstoječi sistemi, ki te temeljijo na statističnem strojnem prevajanju, uporabljajo velike dvojezične poravnane korpuse za učenje sistemov. Novejše raziskave (Koehn et al., 2003; Vogel et al., 2003) pa kažejo, da so lahko uporabni tudi kratki dvojezični poravnani izseki iz stavkov, značilnih za neko semantično področje. Na področju pogovorov v turizmu, na katero je orientiran projekt LC-STAR, so pogoste t.i. fraze, kot so "kje je...", "rad bi...", "mi lahko pomagate...". Tudi eksperimenti v okviru projekta (Ueffing, Ney, 2003) so pokazali, da bi seznam takih fraz pomagal izboljšati sisteme govorno orientiranega prevajanja, prav tako uspešnost izboljša, če so besede v takem dvojezičnem slovarju fraz označene glede na pripadnost besedni vrsti in lematizirane.

Zaradi zgoraj navedenih rezultatov se v projektu pripravljata dve vrsti virov, namenjenih za izboljšanje komponente govorno orientiranega prevajanja za področje turizma:

Vir za poravnani slovar fraz je bil referenčni seznam fraz v ameriški angleščini, ki je bil preveden v ostale jezike, tudi slovenščino. Referenčni seznam je zagotovil konzorcij LC-STAR.

  1. Zagotavljanje kakovosti jezikovnih virov LC-STAR

Pomanjkanje kakovosti jezikovnih virov je bilo ugotovljeno kot ena od glavnih pomanjkljivosti obstoječih jezikovnih virov, zato je eden od namenov projekta to preseči. Poleg natančnih določil in skupnih standardov, po katerih so razviti vsi jezikovni viri v okviru projekta, konzorcij LC-STAR zagotavlja kakovost tudi z neodvisno validacijo. To opravljata nizozemski SPEX (Speech Processing EXpertise centre), validacijski center ELRE, in danski CST (Center for Sprogteknologi). S tem je zagotovljeno, da vsi partnerji v projektu dosegajo enako kvaliteto razvitih jezikovnih virov.

Validacija je delno avtomatska in delno ročna. SPEX je razvil programska orodja za avtomatsko validacijo, s katerimi se preverja ustrezna formalna struktura slovarjev. Programska orodja so na voljo partnerjem, da lahko sami preverjajo ustreznost jezikovih virov, formalno pa preveri rezultate tudi SPEX. CST zagotavlja ročno validacijo, v kateri preverja jezikoslovno ustreznost jezikovnih virov (pravilnost pripisanih oblikoslovnih oznak, ortografskega zapisa, fonetičnega prepisa, ustreznost prevodov). Validacijo opravljajo neodvisni strokovnjaki, naravni govorci posameznih jezikov.

  1. Zaključek

V članku smo predstavili jezikovne vire, ki se razvijajo v okviru mednarodnega projekta LC-STAR, s podrobnejšo predstavitvijo slovenskih jezikovnih virov, ki jih za projekt razvija Fakulteta za elektrotehniko, računalništvo in informatiko Univerze v Mariboru.

Za slovenščino lahko podobno kot za druge jezike ugotovimo pri večini obstoječih jezikovnih virih, ki so uporabni za sisteme strojnega simultanega prevajanja govora, pomanjkanje kakovosti, premalo široko pokritost, pomanjkljivo primernost za razvoj sinteze in razpoznave govora ter pomanjkanje standardov. Sodelovanje v projektu LC-STAR je prispevek k izboljšanju tega stanja. Razviti slovarji bodo predstavljali dobro osnovo za razvoj in izpopolnjevanje komponent strojnega simultanega prevajanja govora.

  1. Viri in literatura

Dobrišek, S., Gros, J., Ipšić, I., Pepelnjak, K., Mihelič, F., Pavešić, N. (1998). Gopolis: slovenska podatkovna zbirka govorjenih poizvedovanj. V: Informacijska družba IS'1998: Jezikovne tehnologije za slovenski jezik. 105-108.

Domača spletna stran LC-STAR: http://www.lc-star.com/.

Domača spletna stran Multext-East: http://nl.ijs.si/ME/.

Hartikainen, E., Maltese, G., Moreno, A. Shammas, S., Tiegenhain, U. (2003). Large Lexica for Speech-to-Speech Translation: From Specification to Creation. In Proceedings of the Eurospeech (pp. 1529--1532). Geneva.

Hoege, H. (2002): Project Proposal TC-STAR - Make Speech to Speech Translation Real. V: Third International Conference on Language Resources and Evaluation. 136-140.

Gros, J., F. Mihelič, S. Dobrišek, T. Erjavec, M. Žganec (2000). A phonetically and prosodically annotated Slovene speech corpus. V: IS'2000: Jezikovne tehnologije. 27-30.

Gros, J., I. Ipšić, F. Mihelič, N. Pavešić (1996). Segmentation and labelling of Slovenian diphone inventories. COLING096. 298-303.

Kaiser, J., Kačič, Z. (1998). Development of Slovenian SpeechDat Database. In the Proceedings of First International Conference on Language Resources & Evaluation. Granda, Spain.

Kačič, Z. (1997). Copernicus Onomastica project COP 58: Final report. FERI.

Kačič, Z. (2002). Pomen združevanja raziskovalnih potencialov pri preseganju jezikovnih pregrad v okviru jezikovnih tehnologij naslednjih generacij. V: Informacijska družba IS'2002: Jezikovne tehnologije. 111-115.

Koehn, P., Knight, K. (2003). Feature-Rich Statistical Translation of Noun Phrases. 41st Annual Meeting of the ACL, Sapporo, Japan.

Moreno, A., Conejero, D., Castell, N., Gimenez, J. (2004). Language independent specification of LR for translation. LC-STAR Project IST-2001- 32216 Deliverable D5.5.

Rojc, M., Kačič, Z. (2003). Efficient Development of Lexical Language Resources and their Representation. International Journal of Speech Technology 3/6. 259-275.

Stabej, M., Vitez, P. (2000). KGB (korpus govorjenih besedil) v slovenščini. IS'2000: Jezikovne tehnologije. 79-81.

Šef, T. (2002). Naglaševanje nepoznanih besed pri sintezi slovenskega govora. V: Informacijska družba IS'2002: Jezikovne tehnologije. 149-152.

Ueffing, N., Ney, H. (2003). First experimental results on baseline speech-to-speech translation systems. LC-STAR Project IST-2001- 32216 Deliverable D4.4.

Verdonik, D., Rojc, M., Kačič, Z., Horvat, B. (2002). Zasnova in izgradnja oblikoslovnega in glasoslovnega slovarja za slovenski knjižni jezik. In Proceedings of Jezikovne tehnologije/Information Society Multi-Conference (pp. 44--48). Ljubljana, Slovenia.

Verdonik, D., Rojc, M., Kačič, Z. (2004). Creating Slovenian Language Resources for Development of Speech-to-Speech Translation Components. In Proceedings of the LREC'04 (pp.1399--1402). Lisbon.

Vogel, S., Zhang, Y., Huang, F., Tribble, A., Venugopal, A., Zhao, B., Waibel, A. (2003). “The CMU Statistical Machine Translation System”.MT-Summit, New Orleans, USA.

Zemljak, M., Kačič, Z., Dobrišek, S., Gros, J., Weiss, P. (2002). Računalniški simbolni fonetični zapis slovenskega govora. Slavistična revija, 50(2), 159--169.

Ziegenhain, U. et al. (2004). Specification of corpora and word lists in 12 languages. LC-STAR Project IST-2001- 32216 Deliverable D1.1.

Zoegling Markuš, A., Kačič, Z., Horvat, B. (2000). Razvoj slovenske baze izgovorjav "POLIDAT". IS'2000: Jezikovne tehnologije. 95-98.

Žibert, J., Mihelič, F. (2000). Govorna zbirka vremenskih napovedi. IS'2000: Jezikovne tehnologije. 108-111.