Egy pajzsmirigy scintigráfiás leletek diktálására alkalmas rendszer technológiai háttere

Szerzők

  • Kocsor András MTA-SZTE Mesterséges Intelligencia Tanszéki Kutatócsoport, 6720 Szeged, Aradi vértanúk tere 1.
  • Bánhalmi András MTA-SZTE Mesterséges Intelligencia Tanszéki Kutatócsoport, 6720 Szeged, Aradi vértanúk tere 1.
  • Paczolay Dénes MTA-SZTE Mesterséges Intelligencia Tanszéki Kutatócsoport, 6720 Szeged, Aradi vértanúk tere 1.

Kulcsszavak:

folyamatos automatikus beszédfelismerés, diktáló rendszer, HMM, Rejtett Markov Modell, MSD, morfoszintaktikai leíró nyelvi modell, akusztikai modell, N-gram

Absztrakt

Az automatikus beszédfelismerési technológiák jelentős fejlődésével számos adminisztrációt megkövetelő szakmában megfogalmazott az igény az ún. beszédalapú dokumentálásra. Különösen igaz ez az orvosi vizsgálati eredmények rögzítésére, amely folyamat felgyorsítása különösen nagy jelentőséggel bír. Kisebb és speciális nyelvi tulajdonságokkal rendelkező nyelvekre egyenlőre nagyon kevés orvosi diktáló szoftver látott ez idáig napvilágot, amely többek között a nyelvi sajátosságokon túl a magas fejlesztési költségeknek tudható be. Szegeden kifejlesztettünk egy magyar nyelv automatikus felismerésére alkalmas magmodult, amelyre különböző speciális diktáló rendszer építhető. A magmodul tartalmazza az un. akusztikai modellt, amely alkalmas a magyar nyelv fonéma készletének felismerésére és reprezentatív módon történő modellezésére. A modell felépítése két egymástól relevánsan eltérő megközelítést alkalmaztunk. Az egyik a beszédfelismerés közismert és gyakran alkalmazott Rejtett Markov Modell, a másik pedig a Szegeden kifejlesztett újszerű sztohasztikus szegmentális megközelítés. Mindkét modell felépítéséhez egy nagyméretű, 500 beszélőt tartalmazó beszédkorpuszt használtunk fel, majd teszt adatbázisokban összehasonlítottuk a modulok teljesítményét. A magmodul mellé - a kifejlesztett módszerek alkalmazhatóságát bizonyítandó - kiépítettünk egy Windows-os környezetben használható pajzsmirigy scintigráfiás leletek diktálására alkalmas nyelvi modult, amelyet 9231 írott pajzsmirigy lelet és több mint 2500 szóalak alapján építettünk fel. Ismertetjük a kifejlesztett pajzsmirigydiktáló-rendszer felépítését, az épített nyelvi és akusztikai modellek technikájának a modellek hatékonyságát jellemző teszteredményeket, továbbá kitérünk a program felhasználási lehetőségeinek és technikájának különböző aspektusaira is.

Információk a szerzőről

  • Kocsor András, MTA-SZTE Mesterséges Intelligencia Tanszéki Kutatócsoport, 6720 Szeged, Aradi vértanúk tere 1.

    levelezőszerző
    kocsor@inf.u-szeged.hu

Hivatkozások

Becchetti, C., Ricotti, L. P. (2000). Speech Recognition, John Wiley & Sons LTD, Chichester, England

C. M. Bishop, (1995). Neural Networks for Pattern Recognition, Oxford University Press Duda, R. O., Hart, P. E., Stork, D. G. (2001). Pattern Classification, Wiley

Felföldi, L., Kocsor, A., Tóth, L. (2002). Classifier Combination in Speech Recognition, Conference of PhD students on Computer Sciences, Volume of Extended Abstracts, Szeged, Hungary, 30–31.

Huang, X., Acero, A., Hon, H. (2001). Spoken Language Processing, Prentice Hall, New Jersey

Kocsor, A., Tóth, L., Kuba Jr., A., Kovács, K., Jelasity, M., Gyimóthy, T., Csirik, J. (2000a). A Comparative Study of Several Feature Space Transformation and Learning Methods for Phoneme Classification, International Journal of Speech Technology, 3. 3/4. 263–276

Kocsor, A., Kuba, A., Tóth, L. (2000b). Phoneme Classification Using Kernel Principal Component Analysis, Periodica Polytechnica, 44(1) 77–90.

Kocsor, A., Kuba, A., Tóth, L., Jelasity, M., Felföldi, L., Gyimóthy, T., Csirik, J. (1999). A Segment-Based Statistical Speech Recognition System for Isolated/Continuous Number Recognition, Proceedings of the FUSST'99, Aug. 19–21, Sagadi, Estonia, 201–211.

Crochemore, M., Ryller, W. (1994). Text Algorithms, Oxford University Press, Oxford

Nyers, Á., (2004). Beszédfelismerés az orvosi dokumentáció korszerűsítésére, IME (Informatika és Menedzsment az Egészségügyben) 3(5) 39–43.

Moore, B. C. J. (1997). An Introduction to the Psychology of Hearing, Academic Press https://doi.org/10.1163/9789004658820

Rabiner, L. R., Juang, B. H. (1993). Fundamentals of Speech Recognition, Prentice-Hall, Englewood

Rabiner, L. R., Schafer, R.W. (1978). Digital Processing of Speech Signals, Prentice-Hall, Englewood

Smith, J., IBM, (2002). ViaVoice and Dragon Naturally Speaking XP, ANWALT S.32.

Tóth, L., Kocsor, A., Kovács, K. (2000). A Discriminative Segmental Speech Model and its Application to Hungarian Number Recognition, Springer Verlag, TSD'2000, 307–313.

Vapnik, V. N. (1998). Statistical Learning Theory, Wiley

Letöltések

Megjelent

2006-02-15

Hogyan kell idézni

Kocsor, A., Bánhalmi, A., & Paczolay, D. (2006). Egy pajzsmirigy scintigráfiás leletek diktálására alkalmas rendszer technológiai háttere. Acta Agraria Kaposváriensis, 10(1), 113-128. https://journal.uni-mate.hu/index.php/aak/article/view/1764