Anàlisi de sentiment per a textos curts en català i castellà aprofitant dades no supervisades

Item request has been placed!

Item request cannot be made.

Processing Request

Read More Add to Saved list

Author(s): Navarrete Jimenez, Daniel
Subject Terms:
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació; Speech processing systems; Intelligent agents (Computer software); Neural networks (Computer science); NLP; Transformer; semi-supervised learning; sentiment analysis; BERT; GAN-BERT; ELECTRA; aprendizaje semi-supervisado; análisis de sentimiento; Processament de la parla; Agents intel·ligents (Programari); Xarxes neuronals (Informàtica)
Document Type:
bachelor thesis
Language:
Catalan; Valencian

Additional Information
- Contributors:
  Universitat Politècnica de Catalunya. Departament de Ciències de la Computació; Moreno Bilbao, M. Asunción; Ruiz Costa-Jussà, Marta
- Publication Information:
  Universitat Politècnica de Catalunya
- Publication Date:
  2021
- Collection:
  Universitat Politècnica de Catalunya, BarcelonaTech: UPCommons - Global access to UPC knowledge
- Abstract:
  There may be a lot of abusive behaviour in conversations between teenagers, which take place through social media. In this project, we develop classifiers to find out which texts present abuse such as violence, sexual behaviour, disorder, anxiety. For this reason, we use different classifiers that take advantage of the most recent techniques based on language modeling using deep neural networks, namely Transformers. But we find it difficult to obtain supervised data, i.e. data tagged with the feeling it contains. Luckily, thanks to the countless sources of information available on the Internet, we can get unsupervised data and examples of text on the Internet. Consequently, this project aims to explore the possibility of using unsupervised data, beyond using a supervised set to train a system in the task of sentiment classification. More specifically in short texts, in informal contexts and in Catalan and Spanish. We have a set of about 200,000 supervised samples and a set of 300,000 unsupervised samples. We will introduce and study different models of Transformers (BERT, GAN- BERT, XLM-RoBERTa and ELECTRA) and their performance in the work of sentiment analysis. To finish with, based on models that achieve a better score in the binary classification task of feelings, i.e. with ELECTRA and XLM-RoBERTa, we construct a multi- label classifier. ; En las conversaciones entre adolescentes, que se dan por medio de las redes sociales, pueden existir muchos comportamientos abusivos. En este proyecto desarrollamos clasificadores que detecten qué textos presentan algún abuso como violencia, conductas sexuales, desórdenes, ansiedad. Por este motivo, usamos diferentes clasificadores que aprovechan las técnicas más recientes basadas en modelado de lenguaje mediante redes neuronales profundas, concretamente Transformers. Pero nos encontramos con la dificultad de obtener datos supervisados, es decir datos etiquetados con el sentimiento que contiene. Por suerte, gracias a la infinidad de fuentes de información de las que disponemos en la red, podemos conseguir datos y ejemplos de texto no supervisado a internet. Por consiguiente, este proyecto quiere explorar la posibilidad de utilizar datos no supervisados, más allá de usar un conjunto de datos supervisado para entrenar un sistema en la tarea de clasificación de sentimientos. Más concretamente en textos cortos, en contextos informales y de lengua catalana y castellana. Contamos con un set de cerca de 200.000 muestras supervisadas y un set de 300.000 muestras no supervisadas. Introduciremos y estudiaremos diferentes modelos de Transformers (BERT, GAN-BERT, XLM-RoBERTa y ELECTRA) y su rendimiento en la tarea de análisis de sentimientos. Finalmente, a partir de los modelos que consiguen una mejor puntuación en la tarea de clasificación binaria de sentimientos, es decir con ELECTRA y XLM-RoBERTa, construimos un clasificador multi-etiqueta. ; En les converses entre adolescents, que es donen per mitjà de les xarxes socials, poden existir molts comportaments abusius. En aquesta tesi desenvolupem classificadors que detectin quins textos presenten algun abús com violència, conductes sexuals, desordres, ansietat. Per aquest motiu, faig servir diferents classificadors que aprofiten les tècniques més recents basades en modelat de llenguatge mitjançant xarxes neuronals profundes, concretament Transformers. Però ens trobem amb la dificultat d?obtenir dades supervisades, és a dir dades etiquetades amb el sentiment que conté. Per sort, gràcies a la infinitat de fonts d?informació de les que disposem a la xarxa, podem aconseguir dades i exemples de text no supervisat a internet. Per consegüent, aquest projecte vol explorar la possibilitat d'utilitzar dades no supervisades, més enllà de fer servir un set supervisat per entrenar un sistema en la tasca de classificació de sentiments. Més concretament en textos curts, en contextos informals i de llengua catalana i castellana. Comptem amb un set de prop de 200.000 mostres supervisades i un set de 300.000 mostres no supervisades. Introduirem i estudiarem diferents models de Transformers (BERT,GAN-BERT,XLM-Roberta i Electra) i el seu rendiment en la tasca d'anàlisi de sentiments. Finalment, a partir dels models que aconsegueixen una millor puntuació en la tasca de classificació binària de sentiments, és a dir amb Electra i XLM-Roberta, construïm un classificador multi-label
- File Description:
  application/pdf
- Relation:
  http://hdl.handle.net/2117/344066; ETSETB-230.157289
- Online Access:
  http://hdl.handle.net/2117/344066
- Rights:
  S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada' ; Open Access
- Accession Number:
  edsbas.110DC26A

Comments

No Comments.