Olvashatóságot meghatározó szövegtényezők és automatizált szövegelemző szoftverek

Látics Barbara

doi:10.33569/akk.7197

Szerzők

Látics Barbara Pécsi Tudományegyetem Oktatás és Társadalom Neveléstudományi Doktori Iskola, e-mail: lbarbi0604@gmail.com

DOI:

https://doi.org/10.33569/akk.7197

Kulcsszavak:

olvashatóság, szövegtényezők, szöveganalízis, mélytanulás, számítógépes nyelvészet, természetes nyelvi feldolgozás

Absztrakt

Oktatási környezetben a rosszul olvasható tartalom akadályozhatja a megértést és a tanulást, ami hatással lehet a diákok tanulmányi eredményére és szövegértésére. A klasszikus olvashatósági formulák gyakran olyan felszíni szövegjellemzőkön alapulnak, mint például az átlagos mondat- és szóhosszúság. Nem veszik figyelembe az olvashatóság egyéb árnyalatait, ezért a rájuk való támaszkodás korlátozó és felszínes lehet (Marulli et al. 2024, Látics–Gombos 2025). A tanulmány azonosítja azokat a főbb tényezőket, amik hatással lehetnek egy szöveg nehézségére, olvashatóságára. A magyar nyelvű szakirodalom a tankönyvanalízis felől közelítve, a nyelvi szintek szegmentálásával – a szavak, a mondatok és a szöveg szintjén – tárja fel ezeket (Fóris 2002, Kojanitz 2004a, Domonkosi 2013). Az olvashatóság mérhetővé tétele háromféle módszerrel lehetséges (Lukács et al. 2022): az olvashatósági formulákkal szemben effektívebb megoldást jelentenek a természetesnyelv-feldolgozáson alapuló, gépi tanulási módszerek, de a leghatékonyabbnak mégis neurális hálókra épülő mély tanulási modellek bizonyulnak. A tanulmányban a kézzelfoghatóbb szövegtényezőkön túl néhány modernebb, automatikus szövegelemző szoftvert is bemutatok. Működési elvük ismerete hasznos lehet a magyar nyelvű szövegek géppel történő elemzésekor. Képet adnak arról is, hogy az olvashatóságot meghatározó bemeneti jegyek milyen főbb kategóriákba sorolhatók. Léteznek magyar nyelvfeldolgozó eszközláncok: UDPipe, huspaCy, Magyarlánc, s kiváltképp az e-magyar, melynek 2019-es (emtsv néven ismert) új verziója már a gyakorlatban is bizonyította a hatékonyságát. Kutatásunk szempontjából – az olvashatóság mérhetővé tételéhez – pedig hasznos eszköz lehet.

Hivatkozások

Arany János (1954): Toldi. Budapest: Ifjúsági Könyvkiadó.

Bagdy Emőke – Safir Erika (szerk.) (2004): Klinikai pszichológiai esettanulmányok. Budapest: Animula.

Besznyák Rita (2023): Gyakorlóbeszédek graduálása a tolmácsképzésben korpusznyelvészeti módszerek bevonásával. [PhD-értekezés]. Budapest: Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. DOI: https://doi.org/10.15476/elte.2023.272

Bleasdale, F. A. (1987): Concreteness dependent associative priming. Separate lexical organization for concrete and abstract words. Journal of Experimental Psychology: Learning, Memory, and Cognition, 13, 582–594. DOI: https://doi.org/10.1037//0278-7393.13.4.582

Çel˙ikten, A. – Bulut, H. (2021): BERT Modeli ile Türkçe Medikal Metin Sınıflandırma Turkish Medical Text Classification Using BERT. 29th Signal Processing and Commu-nications Applications Conference (SIU). Istanbul.

Cs. Czachesz Erzsébet – Csirik János (2002): 10–16 éves tanulók írásbeli szókincsének gyakorisági szótára. Budapest: BIP.

Dárdai Ágnes – Dévényi Anna – Márhoffer Nikolett – Molnár-Kovács Zsófia (2015): Tankönyvkutatás, tankönyvfejlesztés külföldön II. Történelemtanítás: online történelemdidaktikai folyóirat, 6(1-2), [oldalszám nélkül]

Deme László (1971): Mondatszerkezeti sajátságok gyakorisági vizsgálata. Budapest: Akadémiai Kiadó.

Devlin, J. – Chang, M-W. – Lee, K. – Toutanova, K. (2019): BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, Minnesota. pp. 4171–4186.

Domonkosi Ágnes (2013): A tankönyvszöveg érthetőségének vizsgálati szempontjai. Az Eszterházy Károly Főiskola tudományos közleményei, 40, 27–35.

Elley, W. B. (1969): The assessment of readability by noun frequency counts. Reading Research Quarterly, 4, 411–427. DOI: https://doi.org/10.2307/747147

Eőry Vilma (2005): A tankönyvszöveg megértése. Iskolakultúra, 11, 59–62.

Eőry Vilma (2006): A jó tankönyv nyelvi követelményeinek rendszerezése. Könyv és Nevelés, 8(2), 28–33.

Eőry Vilma (2008): Milyen a jó tankönyvszöveg? In: Medve Anna – Szépe Görgy (szerk.): Anyanyelvi nevelési tanulmányok III.. Budapest: Iskolakultúra, pp. 7–16.

Fejes Katalin, B. (2002): A tankönyvszöveg szintaktikai jellemzői. Szeged: Juhász Gyula Felsőoktatási Kiadó.

Fóris Ágota (2002): Szótár és oktatás. Pécs: Iskolakultúrakönyvek 14.

Gombos Péter – Nagyházi Bernadette (2023): Bírósági ítéletek szövegeinek nyelvi sajátosságai. Magyar Nyelvőr, 147(4), 493–513. DOI: https://doi.org/10.38143/nyr.2023.4.493

Graesser, A. C. – McNamara, D. S. – Kulikowich, J. M. (2011): Coh-Metrix. Providing Mul-tilevel Analyses of Text Characteristics. Educational Researcher. 40(5), 223–234. DOI: https://doi.org/10.3102/0013189x11413260

Hidayat, H. (2023): A Using Text Evaluator to Analyze Reading Texts in Indonesian Grade X English Course Book. Native: Journal of English Teaching and Learning, 1(1), [oldalszám nélkül]

Horváth Péter – Kundráth Péter – Indig Balázs – Fellegi Zsófia – Szlávich Eszter – Bajzát Tímea Borbála – Sárközi-Lindner Zsófia – Vida Bence – Karabulut Aslihan – Timári Mária – Palkó Gábor (2024): ELTE Verskorpusz – a magyar kanonikus költészet gé-pileg annotált adatbázisa. XVIII. Magyar Számítógépes Nyelvészeti Konferencia. Szeged. pp. 375–388.

Horváth Péter (2020): A vershangzás jellemzőinek automatikus feltárása József Attila verseiben. Digitális Bölcsészet, 3, 3–27. DOI: https://doi.org/10.31400/dh-hun.2020.3.422

Hoss Alexandra (2022): Nyelvtechnológiai eszközök és eljárások alkalmazhatósága autizmusban. [PhD-értekezés]. Pécs: PTE BTK Nyelvtudományi Doktori Iskola.

Juhász Valéria – Radics Márta (2024): Beszédfeldolgozást vizsgáló tesztek iskoláskorig. Módszertani Közlemények, 64(2), 3–30. DOI: https://doi.org/10.14232/modszertani.2024.2.3-30

Juhász Valéria (2024): Az olvasástanulást támogató szintezett könyvek típusai. Az Aranyfa-sorozat szintezési jellemzőinek olvasásfejlesztési szempontú vizsgálata. In: Karlovitz János Tibor (szerk.): Pedagógiai gondolkodásunk a konfliktusokkal terhelt világban. pp. 232–252.

Klein-Braley, Ch. (1985): A cloze-up on the C-test. A study in the construct validation of authentic tests. Language Teaching, 2(1), 76–104. DOI: https://doi.org/10.1177/026553228500200108

Kojanitz László (2003a): Szakiskolai tankönyvek összehasonlító vizsgálata I. Új Pedagógia Szemle, 53(9), 14–24.

Kojanitz László (2003b): Szakiskolai tankönyvek összehasonlító vizsgálata II. Új Pedagógia Szemle, [lapszám nélkül], [oldalszám nélkül]

Kojanitz László (2004a): A pedagógiai szövegek analitikus vizsgálata. A szavak szintje. Magyar Pedagógia, 104(4), 29–442.

Kojanitz László (2004b): Lehet-e statisztikai eszközökkel mérni a tankönyvek minőségét?. Iskolakultúra, 14(9), 38–56.

Kóródi Bence (2022): Olvasókönyv 4. Hétszín sorozat. Budapest: Oktatási Hivatal.

Kövérné Nagyházi Bernadette (2003): A magyar nyelv szórendjének egy lehetséges tanítási modellje – kezdő szinten. Hungarológiai évkönyv, 4(1), 52–65.

Kroll, J. – Merves, S. (1986): Lexical access for concrete and abstract words. Journal of Experimental Psychology: Learning, Memory and Cognition, 12(1), 92–107. DOI: https://doi.org/10.1037//0278-7393.12.1.92

Látics Barbara – Gombos Péter (2025): Olvashatósági formulák és adaptálhatóságuk magyar nyelvre. Magyar Nyelvőr, 149(4), 486–502. DOI: https://doi.org/10.38143/nyr.2025.4.486

Legeza Márton (2020): Magyar nyelv 9. tankönyv. Budapest: Oktatási Hivatal.

Leroy, G. – Kauchak, D. (2014): The effect of word familiarity on actual and perceived text difficulty. Journal of the American Medical Informatics Association, 21(1), 169–172. DOI: https://doi.org/10.1136/amiajnl-2013-002172

Lukács Ágnes – Rácz Péter – Kas Bence (2022): Tankönyvi szövegek nyelvi feldolgozhatóságának mutatói és vizsgálati módszerei. Magyar Pedagógia, 122(2), 65–88. DOI: https://doi.org/10.14232/mped.2022.2.65

Marulli, F. – Campanilea, L. – de Biasea, M. S. – Marronea, S. – Verdea, L. – Bifulco, M. (2024): Understanding Readability of Large Language Models Output. An Empirical Analysis. Procedia Computer Science, 246, 5273–5282. DOI: https://doi.org/10.1016/j.procs.2024.09.636

Meyer, B. J. F. (2003): Text Coherence and Readability. Top Lang Disorders, 23(3), 204–224. DOI: https://doi.org/10.1097/00011363-200307000-00007

Mező Péter Dániel (2023): Szöveganalízis és mesterséges intelligencia. Bevezetés a gépi tanulás és a mintakeresés által nyújtott lehetőségekbe. Oipo: interdiszciplináris e-folyóirat, 5(2), 67–72. DOI: https://doi.org/10.35405/oxipo.2023.2.67

Mikk, J. (1980): Comprehension of text. Tallin: Valgus.

Mikk, J. (1997): Parts of speech in predicting reading comprehension. Journal of Quanti-tative Linguistics, 4(1–3). 156–163. DOI: https://doi.org/10.1080/09296179708590091

Mikk, J. (2000): Textbook. Research and writing. Frankfurt am Main: Peter Lang.

Minnick, C. (2025): Programozás MI-vel. Budapest: Panem Könyvek.

Mizumoto, A. – Eguchi, M. (2023): Exploring the potential of using an AI language model for automated essay scoring. Research Methods in Applied Linguistics, 2(2), 1–13. DOI: https://doi.org/10.2139/ssrn.4373111

Montgomery, T. A. (2025): Analyzing and Modifying Reading Activities for Japanese EFL Students with Dyslexic Tendencies. The Centre for the Study of English Language Teaching, 13, 1–12.

Nagy József (2004): A szóolvasó készség fejlődésének kritérumorienált diagnosztikus feltérképezése. Magyar Pedagógia, 104(2), 123–142.

Nagyházi Bernadette (2011): Az egyszerű mondat szórendjének egy lehetséges tanítási modellje a magyar mint idegen nyelv oktatásában. [PhD-értekezés]. Pécs: Pécsi Tudományegyetem.

Naismith, B. – Mulcaire, P. – Burstein, J. (2023): Automated evaluation of written dis-course coherence using GPT-4. Proceedings of the 18th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2023). Toronto, Canada. 394–403. DOI: https://doi.org/10.18653/v1/2023.bea-1.32

Napolitano, D. – Sheehan, K. M. – Mundkowsky, R. (2015): Online Readability and Text Complexity Analysis with TextEvaluator. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstra-tions. Princeton. DOI: https://doi.org/10.3115/v1/n15-3020

Oravetz Csaba – Váradi Tamás – Sass Bence 2014. The Hungarian Gigaword Corpus. In: Calzolari, Ncoletta et al. (ed.): Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14). Reykjavik. 1719–23.

Russel, S. J. – Norvig, P. (2023): Mesterséges intelligencia. Modern megközelítésben. I–II. kötet. Budapest: Taramix.

Setiawan, H. – Fatichah, H. – Saikhu, A. (2023): Multilabel Classification of Student Feed-back Data Using BERT and Machine Learning Methods. 14th International Conference on Information & Communication Technology and System (ICTS). Surabaya. DOI: https://doi.org/10.1109/icts58770.2023.10330849

Simon Eszter – Indig Balázs – Kalivoda Ágnes – Mittelholcz Iván – Sass Bálint – Vadász Noémi (2020): Újabb fejlemények az e-magyar háza táján. XVI. Magyar Számítógépes Nyelvészeti Konferencia. Szeged. pp. 29–42.

Simon Gábor (2024): A megszemélyesítés regiszterspecifikus mintázatai magyar nyelvű online sajtószövegekben. Jelentés és Nyelvhasználat, 11(1), 101–121. DOI: https://doi.org/10.14232/jeny.2024.1.4

Smeuninx, N. – de Clerck, B. – Aerts, W. (2020): Measuring the Readability of Sustainabi-lity Reports. A Corpus-Based Analysis Through Standard Formulae and NLP. Inter-national Journal of Business Communication, 57(1), 52–85. DOI: https://doi.org/10.1177/2329488416675456

Strain, E. – Patterson, K. – Seidenberg, M. S. (1995): Semantic effects in single-word naming. Journal of Experimental Psychology: Learning, Memory, and Cognition, 21(5), 1140–1154. DOI: https://doi.org/10.1037//0278-7393.21.5.1140

Szabó Gábor (2019): A szövegnehézség vizsgálata az emelt szintű angol érettségi olvasáskomponensében. Modern Nyelvoktatás, 25(3-4), 102–119.

Száray Miklós (2021): Történelem 10. a középiskolák számára. Budapest: Oktatási Hivatal.

Szécsényi Tibor – Nagy C. Katalin – Németh T. Enikő (2024): Felszólításannotálás a MedCollect egészségügyi álhírkorpuszban. XX. Magyar Számítógépes Nyelvészeti Konferencia. Szeged. pp. 159–170.

Todirascu, A. – François, T. – Gala, N. – Fairon, C. – Ligozat, A-L. – Bernhard, D. (2013): Coherence and cohesion for the assessment of text readability. Proceedings of 10th International Workshop on Natural Language Processing and Cognitive Science. Marseille, France. pp. 11–19.

Uibo, H. (1995): Computer readability analysis of Estonian texts. In: Kraav, I. I. – Mikk, J. Vassiltchenko, L. (ed.): Family and textbooks. Proceedings of the Department of Education, pp. 96–115.

Váradi, T. – Simon, E. – Sass, B. – Mittelholcz, I. – Novák, A. – Indig, B. (2018): E-magyar – A digital language processing system. In: Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Japan, Miyazaki.

Viharos Zsolt János – Kis Krisztián Balázs – Fodor Ádám – Büki Máté István (2021): Adaptive, Hybrid Feature Selection (AHFS). Pattern Recognition, 116(107932), 1–13. DOI: https://doi.org/10.1016/j.patcog.2021.107932

Vincze Veronika – Kicsi András – Főző Eszter – Vidács László (2021): A gépi elemzők kriminalisztikai szempontú felhasználásának lehetőségei. In: XVII. Magyar Számítógépes Nyelvészeti Konferencia. Szeged.

Zimányi Árpád (2025): Tankönyvi szövegek mondatszerkezeti sajátságainak vizsgálata. In: Takács Judit (szerk.): Varietas incognita. Válogatás Zimányi Árpád tanulmányaiból 70. születésnapja alkalmából. Eger: Eszterházy Károly Katolikus Egyetem Líceum Kiadó. pp. 49–56.

Zsibrita János – Vincze Veronika – Farkas Richárd (2013): Magyarlanc. A Toolkit for Morphological and Dependency Parsing of Hungarian. In: Proceedings of RANLP 2013. Hissar, Bulgaria. pp. 763–771.

Olvashatóságot meghatározó szövegtényezők és automatizált szövegelemző szoftverek

Szerzők

DOI:

Kulcsszavak:

Absztrakt

Hivatkozások

Letöltések

Megjelent

Folyóirat szám

Rovat

License

Hogyan kell idézni

Hasonló cikkek

Make a Submission

Nyelv

Információ