Egy pajzsmirigy scintigráfiás leletek diktálására alkalmas rendszer technológiai háttere
Kulcsszavak:
folyamatos automatikus beszédfelismerés, diktáló rendszer, HMM, Rejtett Markov Modell, MSD, morfoszintaktikai leíró nyelvi modell, akusztikai modell, N-gramAbsztrakt
Az automatikus beszédfelismerési technológiák jelentős fejlődésével számos adminisztrációt megkövetelő szakmában megfogalmazott az igény az ún. beszédalapú dokumentálásra. Különösen igaz ez az orvosi vizsgálati eredmények rögzítésére, amely folyamat felgyorsítása különösen nagy jelentőséggel bír. Kisebb és speciális nyelvi tulajdonságokkal rendelkező nyelvekre egyenlőre nagyon kevés orvosi diktáló szoftver látott ez idáig napvilágot, amely többek között a nyelvi sajátosságokon túl a magas fejlesztési költségeknek tudható be. Szegeden kifejlesztettünk egy magyar nyelv automatikus felismerésére alkalmas magmodult, amelyre különböző speciális diktáló rendszer építhető. A magmodul tartalmazza az un. akusztikai modellt, amely alkalmas a magyar nyelv fonéma készletének felismerésére és reprezentatív módon történő modellezésére. A modell felépítése két egymástól relevánsan eltérő megközelítést alkalmaztunk. Az egyik a beszédfelismerés közismert és gyakran alkalmazott Rejtett Markov Modell, a másik pedig a Szegeden kifejlesztett újszerű sztohasztikus szegmentális megközelítés. Mindkét modell felépítéséhez egy nagyméretű, 500 beszélőt tartalmazó beszédkorpuszt használtunk fel, majd teszt adatbázisokban összehasonlítottuk a modulok teljesítményét. A magmodul mellé - a kifejlesztett módszerek alkalmazhatóságát bizonyítandó - kiépítettünk egy Windows-os környezetben használható pajzsmirigy scintigráfiás leletek diktálására alkalmas nyelvi modult, amelyet 9231 írott pajzsmirigy lelet és több mint 2500 szóalak alapján építettünk fel. Ismertetjük a kifejlesztett pajzsmirigydiktáló-rendszer felépítését, az épített nyelvi és akusztikai modellek technikájának a modellek hatékonyságát jellemző teszteredményeket, továbbá kitérünk a program felhasználási lehetőségeinek és technikájának különböző aspektusaira is.
Hivatkozások
Becchetti, C., Ricotti, L. P. (2000). Speech Recognition, John Wiley & Sons LTD, Chichester, England
C. M. Bishop, (1995). Neural Networks for Pattern Recognition, Oxford University Press Duda, R. O., Hart, P. E., Stork, D. G. (2001). Pattern Classification, Wiley
Felföldi, L., Kocsor, A., Tóth, L. (2002). Classifier Combination in Speech Recognition, Conference of PhD students on Computer Sciences, Volume of Extended Abstracts, Szeged, Hungary, 30–31.
Huang, X., Acero, A., Hon, H. (2001). Spoken Language Processing, Prentice Hall, New Jersey
Kocsor, A., Tóth, L., Kuba Jr., A., Kovács, K., Jelasity, M., Gyimóthy, T., Csirik, J. (2000a). A Comparative Study of Several Feature Space Transformation and Learning Methods for Phoneme Classification, International Journal of Speech Technology, 3. 3/4. 263–276
Kocsor, A., Kuba, A., Tóth, L. (2000b). Phoneme Classification Using Kernel Principal Component Analysis, Periodica Polytechnica, 44(1) 77–90.
Kocsor, A., Kuba, A., Tóth, L., Jelasity, M., Felföldi, L., Gyimóthy, T., Csirik, J. (1999). A Segment-Based Statistical Speech Recognition System for Isolated/Continuous Number Recognition, Proceedings of the FUSST'99, Aug. 19–21, Sagadi, Estonia, 201–211.
Crochemore, M., Ryller, W. (1994). Text Algorithms, Oxford University Press, Oxford
Nyers, Á., (2004). Beszédfelismerés az orvosi dokumentáció korszerűsítésére, IME (Informatika és Menedzsment az Egészségügyben) 3(5) 39–43.
Moore, B. C. J. (1997). An Introduction to the Psychology of Hearing, Academic Press https://doi.org/10.1163/9789004658820
Rabiner, L. R., Juang, B. H. (1993). Fundamentals of Speech Recognition, Prentice-Hall, Englewood
Rabiner, L. R., Schafer, R.W. (1978). Digital Processing of Speech Signals, Prentice-Hall, Englewood
Smith, J., IBM, (2002). ViaVoice and Dragon Naturally Speaking XP, ANWALT S.32.
Tóth, L., Kocsor, A., Kovács, K. (2000). A Discriminative Segmental Speech Model and its Application to Hungarian Number Recognition, Springer Verlag, TSD'2000, 307–313.
Vapnik, V. N. (1998). Statistical Learning Theory, Wiley
Letöltések
Megjelent
Folyóirat szám
Rovat
License
Copyright (c) 2006 Kocsor András, Bánhalmi András, Paczolay Dénes

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
