Název:
Detektor plagiátů textových dokumentů
Překlad názvu:
Text document plagiarism detector
Autoři:
Kořínek, Lukáš ; Horák, Karel (oponent) ; Petyovský, Petr (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2021
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [cze][eng]
Diplomová práce se zabývá rešerší metod detekce plagiátů v textových dokumentech a následným návrhem a implementací nového detektoru plagiátů, jehož primárním účelem je odhalování plagiátů v akademických pracích VUT v Brně. Vytvořené řešení aplikuje vícekrokové algoritmy předzpracování na cílové dokumenty, jejichž zpracovaná data jsou následně uložena do vlastního korpusu (báze dokumentů). Úloha hledání shod (možných plagiátů) porovnává vybraný dokument vůči zbytku korpusu, přičemž využívá paralelních výpočtů na grafické kartě. Cílem je dosáhnout co nejrychlejšího srovnání při zachování přijatelné kvality výstupu.
This diploma thesis is concerned with research on available methods of plagiarism detection and then with design and implementation of such detector. Primary aim is to detect plagiarism within academic works or theses issued at BUT. The detector uses sophisticated preprocessing algorithms to store documents in its own corpus (document database). Implemented comparison algorithms are designed for parallel execution on graphical processing units and they compare a single subject document against all other documents within the corpus in the shortest time possible, enabling near real-time detection while maintaining acceptable quality of output.
Klíčová slova:
C++; CUDA; n-gramy; NoSQL; paralelizace; textový korpus; zpracování textu; C++; CUDA; n-grams; NoSQL; parallelism; text corpus; text processing
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/196985