Universitat Rovira i Virgili

Defensa tesis doctoral de Damián Morales Sánchez

En la mañana del martes, 11 de julio de 2023, tuvo lugar en la Sala de Juntas del Campus Catalunya de la URV, la defensa de la tesis de doctorado: From White-Box Machine Learning to Fuzzy Logic for Automatic Gender Detection in Spanish Texts from Social Networks, presentada por el doctorando Damián Morales Sánchez. La tesis ha sido codirigida por los profesores María Dolores Jiménez López, del Departamento de Filologías Románicas y Antonio Moreno Ribas, del Departamento de Ingeniería Informática y Matemáticas, los dos de la Universitat Rovira i Virgili.

La tesis se ha llevado a cabo en el Programa de Doctorado en Estudios Humanísticos de la Universitat Rovira i Virgili. El tribunal de la tesis tuvo como presidente al Dr. Paolo Rosso de la Escuela Técnica Superior de Ingeniería Informática de la Universitat Politècnica de València, como secretaria a la Dra. Aïda Valls Mateu, de la Escuela Técnica Superior de Ingeniería (ETSE) de la URV y como vocal a la Dra. Leonor Becerra Bonache, del Laboratoire d'Informatique et Systèmes, Departament of Computer Science, de la Universidad Aix-Marseille.

RESUMEN

Esta disertación, enmarcada en el ámbito de la sociolingüística computacional, explora el uso de variables sociolingüísticas en modelos computacionales basados en Inteligencia Artificial para la detección automática del género en textos escritos en español.

Nuestro interés reside en diseñar modelos computacionales basados en algoritmos de aprendizaje automático de caja blanca y lógica difusa con variables derivadas de la sociolingüística.

Elaboramos una caracterización del género basada en niveles lingüísticos a partir de las publicaciones enmarcadas en el ámbito de la lengua y el género, el área de investigación de la comunicación mediada por computadora y el género, y la sociolingüística computacional. Esta caracterización constituye los fundamentos de nuestro análisis experimental.

En el análisis experimental, implementamos el algoritmo Decision Tree con variables ortográficas, morfológicas, En el análisis experimental, implementamos el algoritmo Decision Tree con variables ortográficas, morfológicas, léxicas, sintácticas, digitales y pragmático-discursivas en el conjunto de datos PAN-AP-13 a fin de identificar patrones sociolingüísticos de género. A partir de este primer experimento computacional, ampliamos nuestro análisis a otros conjuntos de datos y algoritmos; concretamente, exploramos, además del conjunto PAN-AP-13 y del algoritmo Decision Tree, los conjuntos de datos PAN-AP-15, PAN-AP-17, PAN-AP-18 y PAN-AP-19, y los algoritmos Random Forest y XGBoost. Diseñamos 63 modelos a partir de las combinaciones de los conjuntos de variables. La exactitud en la clasificación de los modelos resultantes, los cuales no suepraban las 160 variables lingüísticas, se situó en torno al 70%.

Culminamos el análisis experimental con una caracterización sociolingüística del género basada en 39 patrones organizados por su robustez.

Nuestra propuesta teórica presenta 64 modelos difusos, de los cuales 57 son modelos difusos ensamblados cuya salida final fue calculada utilizando el esquema de voto mayoritario. Según los resultados, el modelo ensamblado Ortográfico, Léxico, Sintáctico, Digital y Pragmático-Discursiveo (OLSDP) produjo los mejores resultados.

Los algoritmos de aprendizaje automático de caja blanca y la lógica difusa, junto con las variables inspiradas en la sociolingüística, deben incorporarse en la identificación automática del género a fin de dilucidar la compleja relación entre la lengua y el género.

Palabras Clave: Sociolingüística; Aprendizaje automático; Género

Compartir

  • Twitter
  • Google+
  • Facebook
  • Linkedin

Subir