DOI: 10.5300/2020-3-4/118

Zpravodaj Československého sdružení uživatelů TEXu 3-4/2020

Pages: 118–126

Authors: Petr Sojka, Ondřej Sojka

Towards New Czechoslovak Hyphenation Patterns

Space- and time-effective segmentation and hyphenation of natural languages stay at the core of every document preparation system, web browser, or mobile rendering system. Recently, the unreasonable effectiveness of pattern generation has been shown – it is possible to use hyphenation patterns to solve the dictionary problem for a single language without compromise. In this article, we will show how we applied the marvelous effectiveness of patgen for the generation of the new Czechoslovak hyphenation patterns that cover two languages. We show that the development of more universal hyphenation patterns is feasible, allows for significant quality improvements and space savings. We evaluate the new approach and the new Czechoslovak hyphenation patterns.

hyphenation, hyphenation patterns, patgen, syllabification, syllabic hyphenation, Czech, Slovak, Czechoslovak patterns

Na cestě k novým československým vzorům dělení

Prostorově a časově efektivní segmentace a dělení slov přirozených jazyků zůstává jádrem každého systému pro přípravu dokumentů, webového prohlížeče nebo zlomu dokumentů na mobilních zařízeních. Nedávno jsme ukázali obrovskou účinnost generování vzorů a bylo prokázáno, že je možné použít vzory dělení slov k vyřešení slovníkového problému (automatické segmentace) pro jeden jazyk bez kompromisů (100% pokrytí). V tomto článku ukazujeme, jak jsme použili úžasnou účinnost patgenu pro generování vzorů dělení slov, které pokrývají dva jazyky zároveň, pro nové, společné vzory československého dělení. Ukazujeme, že je možné vyvinout univerzálnější vzory dělení slov, což umožňuje jak kvalitativní zlepšení, tak i úsporu místa oproti předchozí dvojici vzorů pro jednotlivé jazyky. Hodnotíme nový přístup a nové společné československé vzory dělení.

patgen, vzory dělení slov, československé dělení, efektivní segmentace, slabičné dělení pro více jazyků

References

  1. Major Keary: On Hyphenation – Anarchy of Pedantry. PC Update, The magazine of the Melbourne PC User Group (2005).
  2. Yannick Marchand, Connie R. Adsett, Robert I. Damper: Automatic Syllabification in English: A Comparison of Different Algorithms. Language and Speech 52(1), 1–27 (2009).
    doi: 10.1177/0023830908099881
  3. Susan Bartlett, Grzegorz Kondrak, Colin Cherry: Automatic Syllabification with Structured SVMs for Letter-to-Phoneme Conversion. Proceedings of ACL-08: HLT. , 568 (2008).
  4. Nikolaos Trogkanis, Charles Elkan: Conditional Random Fields for Word Hyphenation. Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. , 366 (2010).
  5. Franklin M. Liang: Word Hy-phen-a-tion by Com-put-er. (STAN-CS-83-977) (1983).
  6. Yan Shao, Christian Hardmeier, Joakim Nivre: Universal Word Segmentation: Implementation and Interpretation. Transactions of the Association for Computational Linguistics 6, 421–435 (2018).
    doi: 10.1162/tacl_a_00033
  7. Arthur Reutenauer, Mojca Miklavec: TeX hyphenation patterns.
  8. R. E. Allen (editors): The Oxford Spelling Dictionary. II (1990).
  9. Philip Babcock Gove, Merriam Webster: Webster's Third New International Dictionary of the English language Unabridged. (2002).
  10. Anonymous: The Chicago Manual of Style. (2017).
  11. Petr Sojka: Notes on Compound Word Hyphenation in TeX. TUGboat 16(3), 290 (1995).
  12. Petr Sojka, Pavel Ševeček: Hyphenation in TeX—Quo Vadis? TUGboat 16(3), 280 (1995).
  13. Petr Sojka: Hyphenation on Demand. TUGboat 20(3), 241 (1999).
  14. Petr Sojka: Slovak Hyphenation Patterns: a Time for Change? Zpravodaj Československého sdružení uživatelů TeXu 14(3-4), 183–189 (2004).
    doi: 10.5300/2004-3-4/183
  15. Petr Sojka, Ondřej Sojka: The unreasonable effectiveness of pattern generation. TUGboat 40(2), 187 (2019).
  16. Miloš Jakubíček, Adam Kilgarriff, Vojtěch Kovář, Pavel Rychlý, Vít Suchomel: The TenTen Corpus Family. Proc. of the 7th International Corpus Linguistics Conference (CL). , 125 (2013).
  17. Adam Kilgarriff, Pavel Rychlý, Pavel Smrž, David Tugwell: The Sketch Engine. Proceedings of the Eleventh EURALEX International Congress. , 105 (2004).
  18. Petr Sojka, Ondřej Sojka: The Unreasonable Effectiveness of Pattern Generation. Zpravodaj Československého sdružení uživatelů TeXu 29(1-4), 73–86 (2019).
    doi: 10.5300/2019-1-4/73
  19. Janka Chlebikova: Ako rozděliť (slovo) Československo. Zpravodaj Československého sdružení uživatelů TeXu 1(4), 10–13 (1991).
    doi: 10.5300/1991-4/10
  20. Petr Sojka: Slovenské vzory dělení: čas pro změnu? Proceedings of SLT 2004, 4th seminar on Linux and TeX. , 67 (2004).
  21. Ondřej Sojka, Petr Sojka: cshyphen repository.

Hlavní stránka Zpravodaje CSTUGu. Adresa redakce: zpravodaj@cstug.cz. (c) 1996-2012 CSTUG