DOI: 10.5300/2019-1-4/73

Zpravodaj Československého sdružení uživatelů TEXu 1-4/2019

Pages: 73–86

Authors: Petr Sojka, Ondřej Sojka

The Unreasonable Effectiveness of Pattern Generation

Languages are constantly evolving, and so are their hyphenation rules and needs. The effectiveness and utility of TEX's hyphenation have been proven by its usage in almost all typesetting systems in use today. The current Czech hyphenation patterns were generated in 1995, and no hyphenated word database was freely available.

We have developed a new Czech word database and have used the patgen program to generate new effective Czech hyphenation patterns efficiently and evaluated their generalization qualities. We have achieved full coverage on the training dataset of 3,000,000 words, and developed a validation procedure of new patterns for Czech based on the testing database of 105,000 words approved by the Czech Academy of Science linguists.

Our pattern generation case study exemplifies a practical solution to the widespread dictionary problem. The study has proven the versatility, effectiveness, and extensibility of Liang’s approach to hyphenation developed for TEX. The unreasonable effectiveness of the pattern technology has led to applications that are and will be used, even more widely now, nearly 40 years after its inception.

patgen, hyphenation patterns, unreasonable effectiveness, Czech

Nepochopitelná efektivita generování vzorů dělení slov

Jazyky se vyvíjí a spolu s nimi i jejich potřeby a pravidla dělení slov. Mechanismus vzorů dělení slov v TEXu převzala většina dnešních sazebních systémů, což prokazuje jeho efektivitu a užitečnost. Současné vzory dělení slov pro češtinu ale vznikly v roce 1995, kdy ještě neexistovala žádná volně šiřitelná databáze slov.

Vyvinuli jsme novou českou databázi slov, použili jsme program patgen k vygenerování nových efektivních vzorů dělení slov pro češtinu a vyhodnotili jsme jejich generalizační schopnosti. Na trénovací datové sadě 3 milionů slov jsme dosáhli plného pokrytí. Dále jsme vyvinuli postup pro validaci nových vzorů dělení slov pro češtinu s využitím databáze 105 tisíc slov schválených lingvisty Akademie věd České republiky.

Naše případová studie generování vzorů dělení slov představuje praktické řešení častého slovníkového problému. Studie dokazuje pružnost, efektivitu a rozšiřitelnost Liangova přístupu k dělení slov vyvinutého pro TEX. Nepochopitelná efektivita mechanismu vzorů dělení slov dala vzniknout aplikacím, které ho využívají i téměř 40 let po jeho vzniku.

patgen, vzory dělení slov, nepochopitelná efektivita, čeština

References

  1. Alon Halevy, Peter Norvig, Fernando Pereira: The Unreasonable Effectiveness of Data. IEEE Intelligent Systems 24(2), 8–12 (2009).
    doi: 10.1109/MIS.2009.36
  2. Eugene P. Wigner: The unreasonable effectiveness of mathematics in the natural sciences. Richard courant lecture in mathematical sciences delivered at New York University, May 11, 1959. Communications on Pure and Applied Mathematics 13(1), 1–14 (1960).
    doi: 10.1002/cpa.3160130102
  3. R. W. Hamming: The Unreasonable Effectiveness of Mathematics. The American Mathematical Monthly 87(2), 81 (1980).
  4. Franklin M. Liang: Word Hy-phen-a-tion by Com-put-er. (STAN-CS-83-977) (1983).
  5. Petr Sojka: Competing Patterns in Language Engineering and Computer Typesetting. (2005).
  6. Arthur Reutenauer, Mojca Miklavec: TeX hyphenation patterns.
  7. Werner Lemberg: A database of German words with hyphenation information.
  8. Petr Sojka, Pavel Ševeček: Hyphenation in TeX – Quo Vadis? TUGboat 16(3), 280 (1995).
  9. Internetová jazyková příručka (Internet Language Reference Book).
  10. Petr Sojka: Hyphenation on Demand. TUGboat 20(3), 241 (1999).
  11. Ondřej Sojka, Petr Sojka: cshyphen repository.
  12. Petr Sojka: Notes on Compound Word Hyphenation in TeX. TUGboat 16(3), 290 (1995).
  13. Milos Jakubíček, Adam Kilgarriff, Vojtěch Kovář, Pavel Rychlý, Vít Suchomel: The TenTen Corpus Family. Proc. of 7th International Corpus Linguistics Conference (CL). , 125 (2013).
  14. Vít Suchomel, Jan Pomikálek, Adam Kilgarriff, Serge Sharoff: Efficient Web Crawling for Large Text Corpora. Proc. of the seventh Web as Corpus Workshop (WAC). , 39 (2012).
  15. Pavel Šmerk: Fast Morphological Analysis of Czech. Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2009. , 13 (2009).
  16. Kevin Patrick Scannell: Hyphenation patterns for minority languages. TUGboat 24(2), 236 (2003).
  17. Yan Shao, Christian Hardmeier, Joakim Nivre: Universal Word Segmentation: Implementation and Interpretation. Transactions of the Association for Computational Linguistics 6, 421–435 (2018).
    doi: 10.1162/tacl_a_00033
  18. Katrin Erk, Noah A. Smith: Rico Sennrich, Barry Haddow, Alexandra Birch: Neural Machine Translation of Rare Words with Subword Units. (2016)., 1715–1725
    doi: 10.18653/v1/P16-1162
  19. Sandra Kuebler, Garrett Nicolai: Amir Zeldes: A Characterwise Windowed Approach to Hebrew Morphological Segmentation. (2018)., 101–110
    doi: 10.18653/v1/W18-5811
  20. Guillaume Lample, Alexandre Sablayrolles, Marc'Aurelio Ranzato, Ludovic Denoyer, Hervé Jégou: Large Memory Layers with Product Keys. (2019).

Hlavní stránka Zpravodaje CSTUGu. Adresa redakce: zpravodaj@cstug.cz. (c) 1996-2012 CSTUG