Factors of Readability in Text and Automated Text-Analysis Software

Authors

  • Látics Barbara University of Pécs Doctoral School of Education and Society, e-mail: lbarbi0604@gmail.com

DOI:

https://doi.org/10.33569/akk.7197

Keywords:

readability, Natural Language Processing, text factors, deep learning, computational linguistics, text-analysis

Abstract

Hard to read content can hinder understanding and learning in educational environments, which can affect students’ academic performance and reading comprehension. Traditional readability formulas are often based in surface-level characteristics of the text, such as average sentence and word length. They disregard further nuances in readability, which is why depending on them can be stifling and shallow (Marulli et al. 2024, Látics–Gombos 2025). This study identifies the major factors, which can determine the difficulty and readability of a text. Hungarian academic literature approaches the subject through student book-analysis, segmenting levels of language – morphology, semantics, syntax (Fóris 2002, Kojanitz 2004a, Domonkosi 2013). To make readability measurable, three methods can be employed (Lukács et al. 2022): Natural Language Processing based machine learning, which is more effective than readability formulas, but more potent still are neural web based deep learning models. Beyond more obvious aspects of text, in this study I present several modern text-analysis software as well. Understanding their operating principles can prove useful in the analysis of Hungarian texts through machine-based processes. They also provide a fuller picture of what categories the different input signals determining readability can be sorted into. There also exist Hungarian language processing tools, such as UDPipe, huspaCy, Magyarlánc, and especially e-magyar, whose latest, 2019 version (also known as emtsv) has already proven useful in practice. From the point of view of this study – to make readability a measurable metric – it can also prove to be an effective tool. 

References

Arany János (1954): Toldi. Budapest: Ifjúsági Könyvkiadó.

Bagdy Emőke – Safir Erika (szerk.) (2004): Klinikai pszichológiai esettanulmányok. Budapest: Animula.

Besznyák Rita (2023): Gyakorlóbeszédek graduálása a tolmácsképzésben korpusznyelvészeti módszerek bevonásával. [PhD-értekezés]. Budapest: Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. DOI: https://doi.org/10.15476/elte.2023.272

Bleasdale, F. A. (1987): Concreteness dependent associative priming. Separate lexical organization for concrete and abstract words. Journal of Experimental Psychology: Learning, Memory, and Cognition, 13, 582–594. DOI: https://doi.org/10.1037//0278-7393.13.4.582

Çel˙ikten, A. – Bulut, H. (2021): BERT Modeli ile Türkçe Medikal Metin Sınıflandırma Turkish Medical Text Classification Using BERT. 29th Signal Processing and Commu-nications Applications Conference (SIU). Istanbul.

Cs. Czachesz Erzsébet – Csirik János (2002): 10–16 éves tanulók írásbeli szókincsének gyakorisági szótára. Budapest: BIP.

Dárdai Ágnes – Dévényi Anna – Márhoffer Nikolett – Molnár-Kovács Zsófia (2015): Tankönyvkutatás, tankönyvfejlesztés külföldön II. Történelemtanítás: online történelemdidaktikai folyóirat, 6(1-2), [oldalszám nélkül]

Deme László (1971): Mondatszerkezeti sajátságok gyakorisági vizsgálata. Budapest: Akadémiai Kiadó.

Devlin, J. – Chang, M-W. – Lee, K. – Toutanova, K. (2019): BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, Minnesota. pp. 4171–4186.

Domonkosi Ágnes (2013): A tankönyvszöveg érthetőségének vizsgálati szempontjai. Az Eszterházy Károly Főiskola tudományos közleményei, 40, 27–35.

Elley, W. B. (1969): The assessment of readability by noun frequency counts. Reading Research Quarterly, 4, 411–427. DOI: https://doi.org/10.2307/747147

Eőry Vilma (2005): A tankönyvszöveg megértése. Iskolakultúra, 11, 59–62.

Eőry Vilma (2006): A jó tankönyv nyelvi követelményeinek rendszerezése. Könyv és Nevelés, 8(2), 28–33.

Eőry Vilma (2008): Milyen a jó tankönyvszöveg? In: Medve Anna – Szépe Görgy (szerk.): Anyanyelvi nevelési tanulmányok III.. Budapest: Iskolakultúra, pp. 7–16.

Fejes Katalin, B. (2002): A tankönyvszöveg szintaktikai jellemzői. Szeged: Juhász Gyula Felsőoktatási Kiadó.

Fóris Ágota (2002): Szótár és oktatás. Pécs: Iskolakultúrakönyvek 14.

Gombos Péter – Nagyházi Bernadette (2023): Bírósági ítéletek szövegeinek nyelvi sajátosságai. Magyar Nyelvőr, 147(4), 493–513. DOI: https://doi.org/10.38143/nyr.2023.4.493

Graesser, A. C. – McNamara, D. S. – Kulikowich, J. M. (2011): Coh-Metrix. Providing Mul-tilevel Analyses of Text Characteristics. Educational Researcher. 40(5), 223–234. DOI: https://doi.org/10.3102/0013189x11413260

Hidayat, H. (2023): A Using Text Evaluator to Analyze Reading Texts in Indonesian Grade X English Course Book. Native: Journal of English Teaching and Learning, 1(1), [oldalszám nélkül]

Horváth Péter – Kundráth Péter – Indig Balázs – Fellegi Zsófia – Szlávich Eszter – Bajzát Tímea Borbála – Sárközi-Lindner Zsófia – Vida Bence – Karabulut Aslihan – Timári Mária – Palkó Gábor (2024): ELTE Verskorpusz – a magyar kanonikus költészet gé-pileg annotált adatbázisa. XVIII. Magyar Számítógépes Nyelvészeti Konferencia. Szeged. pp. 375–388.

Horváth Péter (2020): A vershangzás jellemzőinek automatikus feltárása József Attila verseiben. Digitális Bölcsészet, 3, 3–27. DOI: https://doi.org/10.31400/dh-hun.2020.3.422

Hoss Alexandra (2022): Nyelvtechnológiai eszközök és eljárások alkalmazhatósága autizmusban. [PhD-értekezés]. Pécs: PTE BTK Nyelvtudományi Doktori Iskola.

Juhász Valéria – Radics Márta (2024): Beszédfeldolgozást vizsgáló tesztek iskoláskorig. Módszertani Közlemények, 64(2), 3–30. DOI: https://doi.org/10.14232/modszertani.2024.2.3-30

Juhász Valéria (2024): Az olvasástanulást támogató szintezett könyvek típusai. Az Aranyfa-sorozat szintezési jellemzőinek olvasásfejlesztési szempontú vizsgálata. In: Karlovitz János Tibor (szerk.): Pedagógiai gondolkodásunk a konfliktusokkal terhelt világban. pp. 232–252.

Klein-Braley, Ch. (1985): A cloze-up on the C-test. A study in the construct validation of authentic tests. Language Teaching, 2(1), 76–104. DOI: https://doi.org/10.1177/026553228500200108

Kojanitz László (2003a): Szakiskolai tankönyvek összehasonlító vizsgálata I. Új Pedagógia Szemle, 53(9), 14–24.

Kojanitz László (2003b): Szakiskolai tankönyvek összehasonlító vizsgálata II. Új Pedagógia Szemle, [lapszám nélkül], [oldalszám nélkül]

Kojanitz László (2004a): A pedagógiai szövegek analitikus vizsgálata. A szavak szintje. Magyar Pedagógia, 104(4), 29–442.

Kojanitz László (2004b): Lehet-e statisztikai eszközökkel mérni a tankönyvek minőségét?. Iskolakultúra, 14(9), 38–56.

Kóródi Bence (2022): Olvasókönyv 4. Hétszín sorozat. Budapest: Oktatási Hivatal.

Kövérné Nagyházi Bernadette (2003): A magyar nyelv szórendjének egy lehetséges tanítási modellje – kezdő szinten. Hungarológiai évkönyv, 4(1), 52–65.

Kroll, J. – Merves, S. (1986): Lexical access for concrete and abstract words. Journal of Experimental Psychology: Learning, Memory and Cognition, 12(1), 92–107. DOI: https://doi.org/10.1037//0278-7393.12.1.92

Látics Barbara – Gombos Péter (2025): Olvashatósági formulák és adaptálhatóságuk magyar nyelvre. Magyar Nyelvőr, 149(4), 486–502. DOI: https://doi.org/10.38143/nyr.2025.4.486

Legeza Márton (2020): Magyar nyelv 9. tankönyv. Budapest: Oktatási Hivatal.

Leroy, G. – Kauchak, D. (2014): The effect of word familiarity on actual and perceived text difficulty. Journal of the American Medical Informatics Association, 21(1), 169–172. DOI: https://doi.org/10.1136/amiajnl-2013-002172

Lukács Ágnes – Rácz Péter – Kas Bence (2022): Tankönyvi szövegek nyelvi feldolgozhatóságának mutatói és vizsgálati módszerei. Magyar Pedagógia, 122(2), 65–88. DOI: https://doi.org/10.14232/mped.2022.2.65

Marulli, F. – Campanilea, L. – de Biasea, M. S. – Marronea, S. – Verdea, L. – Bifulco, M. (2024): Understanding Readability of Large Language Models Output. An Empirical Analysis. Procedia Computer Science, 246, 5273–5282. DOI: https://doi.org/10.1016/j.procs.2024.09.636

Meyer, B. J. F. (2003): Text Coherence and Readability. Top Lang Disorders, 23(3), 204–224. DOI: https://doi.org/10.1097/00011363-200307000-00007

Mező Péter Dániel (2023): Szöveganalízis és mesterséges intelligencia. Bevezetés a gépi tanulás és a mintakeresés által nyújtott lehetőségekbe. Oipo: interdiszciplináris e-folyóirat, 5(2), 67–72. DOI: https://doi.org/10.35405/oxipo.2023.2.67

Mikk, J. (1980): Comprehension of text. Tallin: Valgus.

Mikk, J. (1997): Parts of speech in predicting reading comprehension. Journal of Quanti-tative Linguistics, 4(1–3). 156–163. DOI: https://doi.org/10.1080/09296179708590091

Mikk, J. (2000): Textbook. Research and writing. Frankfurt am Main: Peter Lang.

Minnick, C. (2025): Programozás MI-vel. Budapest: Panem Könyvek.

Mizumoto, A. – Eguchi, M. (2023): Exploring the potential of using an AI language model for automated essay scoring. Research Methods in Applied Linguistics, 2(2), 1–13. DOI: https://doi.org/10.2139/ssrn.4373111

Montgomery, T. A. (2025): Analyzing and Modifying Reading Activities for Japanese EFL Students with Dyslexic Tendencies. The Centre for the Study of English Language Teaching, 13, 1–12.

Nagy József (2004): A szóolvasó készség fejlődésének kritérumorienált diagnosztikus feltérképezése. Magyar Pedagógia, 104(2), 123–142.

Nagyházi Bernadette (2011): Az egyszerű mondat szórendjének egy lehetséges tanítási modellje a magyar mint idegen nyelv oktatásában. [PhD-értekezés]. Pécs: Pécsi Tudományegyetem.

Naismith, B. – Mulcaire, P. – Burstein, J. (2023): Automated evaluation of written dis-course coherence using GPT-4. Proceedings of the 18th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2023). Toronto, Canada. 394–403. DOI: https://doi.org/10.18653/v1/2023.bea-1.32

Napolitano, D. – Sheehan, K. M. – Mundkowsky, R. (2015): Online Readability and Text Complexity Analysis with TextEvaluator. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstra-tions. Princeton. DOI: https://doi.org/10.3115/v1/n15-3020

Oravetz Csaba – Váradi Tamás – Sass Bence 2014. The Hungarian Gigaword Corpus. In: Calzolari, Ncoletta et al. (ed.): Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14). Reykjavik. 1719–23.

Russel, S. J. – Norvig, P. (2023): Mesterséges intelligencia. Modern megközelítésben. I–II. kötet. Budapest: Taramix.

Setiawan, H. – Fatichah, H. – Saikhu, A. (2023): Multilabel Classification of Student Feed-back Data Using BERT and Machine Learning Methods. 14th International Conference on Information & Communication Technology and System (ICTS). Surabaya. DOI: https://doi.org/10.1109/icts58770.2023.10330849

Simon Eszter – Indig Balázs – Kalivoda Ágnes – Mittelholcz Iván – Sass Bálint – Vadász Noémi (2020): Újabb fejlemények az e-magyar háza táján. XVI. Magyar Számítógépes Nyelvészeti Konferencia. Szeged. pp. 29–42.

Simon Gábor (2024): A megszemélyesítés regiszterspecifikus mintázatai magyar nyelvű online sajtószövegekben. Jelentés és Nyelvhasználat, 11(1), 101–121. DOI: https://doi.org/10.14232/jeny.2024.1.4

Smeuninx, N. – de Clerck, B. – Aerts, W. (2020): Measuring the Readability of Sustainabi-lity Reports. A Corpus-Based Analysis Through Standard Formulae and NLP. Inter-national Journal of Business Communication, 57(1), 52–85. DOI: https://doi.org/10.1177/2329488416675456

Strain, E. – Patterson, K. – Seidenberg, M. S. (1995): Semantic effects in single-word naming. Journal of Experimental Psychology: Learning, Memory, and Cognition, 21(5), 1140–1154. DOI: https://doi.org/10.1037//0278-7393.21.5.1140

Szabó Gábor (2019): A szövegnehézség vizsgálata az emelt szintű angol érettségi olvasáskomponensében. Modern Nyelvoktatás, 25(3-4), 102–119.

Száray Miklós (2021): Történelem 10. a középiskolák számára. Budapest: Oktatási Hivatal.

Szécsényi Tibor – Nagy C. Katalin – Németh T. Enikő (2024): Felszólításannotálás a MedCollect egészségügyi álhírkorpuszban. XX. Magyar Számítógépes Nyelvészeti Konferencia. Szeged. pp. 159–170.

Todirascu, A. – François, T. – Gala, N. – Fairon, C. – Ligozat, A-L. – Bernhard, D. (2013): Coherence and cohesion for the assessment of text readability. Proceedings of 10th International Workshop on Natural Language Processing and Cognitive Science. Marseille, France. pp. 11–19.

Uibo, H. (1995): Computer readability analysis of Estonian texts. In: Kraav, I. I. – Mikk, J. Vassiltchenko, L. (ed.): Family and textbooks. Proceedings of the Department of Education, pp. 96–115.

Váradi, T. – Simon, E. – Sass, B. – Mittelholcz, I. – Novák, A. – Indig, B. (2018): E-magyar – A digital language processing system. In: Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Japan, Miyazaki.

Viharos Zsolt János – Kis Krisztián Balázs – Fodor Ádám – Büki Máté István (2021): Adaptive, Hybrid Feature Selection (AHFS). Pattern Recognition, 116(107932), 1–13. DOI: https://doi.org/10.1016/j.patcog.2021.107932

Vincze Veronika – Kicsi András – Főző Eszter – Vidács László (2021): A gépi elemzők kriminalisztikai szempontú felhasználásának lehetőségei. In: XVII. Magyar Számítógépes Nyelvészeti Konferencia. Szeged.

Zimányi Árpád (2025): Tankönyvi szövegek mondatszerkezeti sajátságainak vizsgálata. In: Takács Judit (szerk.): Varietas incognita. Válogatás Zimányi Árpád tanulmányaiból 70. születésnapja alkalmából. Eger: Eszterházy Károly Katolikus Egyetem Líceum Kiadó. pp. 49–56.

Zsibrita János – Vincze Veronika – Farkas Richárd (2013): Magyarlanc. A Toolkit for Morphological and Dependency Parsing of Hungarian. In: Proceedings of RANLP 2013. Hissar, Bulgaria. pp. 763–771.

Published

2025-12-29

Issue

Section

Nyelvészet

How to Cite

Barbara, L. (2025). Factors of Readability in Text and Automated Text-Analysis Software. MEDIATON OF HUNGARIAN LANGUAGE CULTURE, 8(2), 4-23. https://doi.org/10.33569/akk.7197

Similar Articles

1-10 of 16

You may also start an advanced similarity search for this article.