Tájolás és hasznosság mérése rövid szöveges üzenetekben
Kulcsszavak:
nyelvfüggetlen, szövegelemzés, osztályozás, véleménybányászatAbsztrakt
A tanulmányban a szövegbányászat egy speciális ágával, a véleménybányászattal foglalkozunk. A vélemény tulajdonosa hisz egy témával kapcsolatos állításban, és ehhez általában jó vagy rossz érzést is társít. A vélemény negatív, pozitív vagy semleges tájolását a tulajdonos szöveges hozzászólásaiból (üzeneteiből) lehet kideríteni. A hozzászólás hasznossága az üzenetet olvasók számára azt mutatja meg, hogy az adott üzenet mekkora hatással lehet az olvasó véleményére. Tehát minél hasznosabb egy üzenet, annál nagyobb eséllyel befolyásolja a fizetőképes keresletet egy termék iránt. Így tehát a hasznosság annak mértéke is, hogy mekkora súllyal kell kezelni az üzenetet a számítások során. A rövid szöveges értékelések tájolási és hasznossági értékeinek mérési és előrejelzési lehetőségeit kétféle módszertani megközelítéssel is megvizsgáltuk: a szupport vektor gépek (SVM), és a mesterséges neurális hálózatok (NN) tanulóalgoritmusok segítségével. Elemzéseink során azt tapasztaltuk, hogy a tájolás és a hasznosság szerinti osztályozás hatékonysága eltér egymástól, ami arra utal, hogy a kétfajta jellemző más-más jellegű kapcsolatban áll a szöveges tartalommal. Ezért annak lehetőségét is megvizsgáltuk, hogy a szövegelemzés során használt szokásos adatok mellett milyen egyéb jellemzők bevonásával lehet javítani az osztályozás pontosságát.
Hivatkozások
Borgulya, I. (1998): Neurális hálók és fuzzy-rendszerek. Dialóg Campus: Pécs, 226 p. Cotton, N. J., Wilamowski, B. M. (2011): Compensation of Nonlinearities Using Neural Networks Implemented on Inexpensive Microcontrollers. IEEE Transactions on Industrial Electronics, 58(3), 733–740. https://doi.org/10.1109/TIE.2010.2098377
Crammer, K., Singer, Y., Cristianini, N., Shawe-Taylor, J., Williamson, B. (2001): On the algorithmic implementation of multiclass kernel-based vector machines. Journal of Machine Learning Research, 2. 265–292.
Fan, R. E., Chen, P. H., Lin, C. J. (2005): Working set selection using second order information for training SVM. Journal of Machine Learning Research, 6. 1889–1918.
Hanke, M., Halchenko, Y. O., Sederberg, P. B., Hanson, S. J., Haxby, J. V., Pollmann, S. (2009): PyMVPA: A Python toolbox for multivariate pattern analysis of fMRI data. Neuroinformatics, 7. 37–53. https://doi.org/10.1007/s12021-008-9041-y
Kryzanowski, L., Galler, M., Wright, D. W. (1993): Using Artificial Neural Networks to Pick Stocks. Financial Analysts Journal, 49(4), 21. https://doi.org/10.2469/faj.v49.n4.21
Kushal, D., Lawrence, S., Pennock, D. M. (2003): Mining the peanut gallery: Opinion extraction and semantic classification of product reviews. In: Proceedings of WWW-03, 519–528. p. https://doi.org/10.1145/775152.775226
Liu, B. (2010): Handbook of Natural Language Processing. 2nd Edition, CRC Press LCC, ISBN13 9781420085938, 627–660. p.
Nissen, S. (2003): Implementation of a Fast Artificial Neural Network Library, Report 31. Department of Computer Science University of Copenhagen (DIKU) 1–88. p.
Pang, B., Lee, L. (2008): Opinion mining and sentiment analysis. In Foundations and Trends in Information Retrieval, 2(1–2), 1–135. https://doi.org/10.1561/9781601981516
Qin, Y., Wang, X. (2009): Study on Multi-label Text Classification Based on SVM. Fuzzy Systems and Knowledge Discovery, 2009. FSKD '09. Sixth International Conference on, ISBN: 978-0-7695-3735-1, 300–304. https://doi.org/10.1109/FSKD.2009.207
Tikk, D. (szerk.) (2007): Szövegbányászat. Typotex: Budapest, 294. p.
Walczak, S. (2001): An Empirical Analysis of Data Requirements for Financial Forecasting with Neural Networks. Journal of Management Information Systems, 17(4), 203–222. https://doi.org/10.1080/07421222.2001.11045659
Letöltések
Megjelent
Folyóirat szám
Rovat
License
Copyright (c) 2011 Kovács Balázs, Kruzslicz Ferenc

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
