Název:
Lingvistické otázky ve strojovém překladu mezi češtinou a ruštinou
Překlad názvu:
Linguistic Issues in Machine Translation between Czech and Russian
Autoři:
Klyueva, Natalia ; Kuboň, Vladislav (vedoucí práce) ; Panevová, Jarmila (oponent) ; Strossa, Petr (oponent) Typ dokumentu: Disertační práce
Rok:
2015
Jazyk:
eng
Abstrakt: [eng][cze] In this thesis we analyze machine translation between Czech and Russian languages from the perspective of a linguist. We work with two types of Machine Translation systems - rule-based (TectoMT) and statistical (Moses). We experiment with different setups of these two systems in order to achieve the best possible quality. One of the questions we address in our work is whether relatedness of the discussed languages has some impact on machine translation. We explore the output of our two experimental systems and two commercial systems: PC Translator and Google Translate. We make a linguistically-motivated classification of errors for the language pair and describe each type of error in detail, analyzing whether it occurred due to some difference between Czech and Russian or is it caused by the system architecture. We then compare the usage of some specific linguistic phenomena in the two languages and state how the individual systems cope with mismatches. For some errors, we suggest ways to improve them and in several cases we implement those suggestions. In particular, we focus on one specific error type - surface valency. We research the mismatches between Czech and Russian valency, extract a lexicon of surface valency frames, incorporate the lexicon into the TectoMT translation pipeline and present...V této disertační práci zkoumáme strojový překlad mezi češtinou a ruštinou z hlediska lingvisty. Pracujeme s několika pravidlovými a statistickými překladovými systémy a pomocí změn v jejích nastavení se snážíme dosáhnout co nejlepších výsledků překladu. Jedna z otázek, které řešíme v naší práci, je nakolik příbuznost obou jazyků pomáhá strojovému překladu. Hlavním cílem práce je lingvistický rozbor chyb ve výstupu čtyř systémů strojového překladu, dvou experimentálních - TectoMT, Moses, a dvou komerčních - PC Translator a Google Translate. Analyzujeme každý typ chyb a řešíme, zda daná chyba souvisí s rozdílem mezi češtinou a ruštinou nebo zda je zapříčiněná architecturou jednotlivých systémů. Pro některé chyby nabízíme cesty, jak je opravit. Ve zvláštní kapitole se zaměřujeme na chyby v povrchové valenci sloves. Zkoumáme rozdíly v české a ruské povrchové valenci, popisujeme extrakci slovníku povrchových forem a tento slovník integrujeme do systému TectoMT. Dále nabízíme souhrn lingvistických pozorování o povaze rozdílů v české a ruské valenci. Powered by TCPDF (www.tcpdf.org)
Klíčová slova:
blízké jazyky; Moses; RBMT; ruština; slovanské jazyky; SMT; strojový překlad; valence; čeština; Czech; machine translation; Moses; RBMT; related languages; Russian; Slavic languages; SMT; valency