Roger Arnau, Ana Coronado Ferrer, Álvaro González Cortés, Claudia Sánchez Arnau and Enrique A. Sánchez Pérez. Measuring Semantic Stability: Statistical Estimation of Semantic Projections via Word Embeddings. Axioms 2025, 14(5), 389. https://doi.org/10.3390/axioms14050389
Abstract:
We present a new framework to study the stability of semantic projections based on word embeddings. Roughly speaking, semantic projections are indices taking values in the interval [0, 1] that measure how terms share contextual meaning with the words of a given universe. Since there are many ways to define such projections, it is important to establish a procedure for verifying whether a group of them behaves similarly.
Moreover, when fixing one particular projection, it is important to assess whether the average projections remain consistent when replacing the original universe with a similar one describing the same semantic environment. The aim of this paper is to address the lack of formal tools for assessing the stability of semantic projections (that is, their invariance under formal changes which preserve the underlying semantic context) across alternative but semantically related universes in word embedding models. To address these problems, we employ a combination of statistical and AI methods, including correlation analysis, clustering, chi-squared distance measures, weighted approximations, and Lipschitz-based estimators. The methodology provides theoretical guarantees under mild mathematical assumptions, ensuring bounded errors in projection estimations based on the assumption of Lipschitz continuity. We demonstrate the practical applicability of our approach through two case studies involving agricultural terminology across multiple data sources (DOAJ, Scholar, Google, and Arxiv). Our results show that semantic stability can be quantitatively evaluated and that the careful modeling of projection functions and universes is crucial for robust semantic analysis in NLP.
Aplicación:
Este artículo aporta una base metodológica y matemática para que el uso de proyecciones semánticas con embeddings sea robusto, comparable y auditable cuando se trabaja con múltiples fuentes y universos léxicos, una condición crítica en procesos de prospectiva basados en señales textuales. Recordemos que la prospectiva y el análisis de futuros para la Huerta es uno de los temas centrales del proyecto Prometeo, por lo que este trabajo de fundamentación teórica es central para el proyecto. En particular, propone un marco formal para medir la estabilidad semántica (invariancia de las proyecciones ante cambios “equivalentes” del universo o de la proyección), combinando técnicas estadísticas y de IA (correlación, clustering, distancias chi-cuadrado, aproximaciones ponderadas y estimadores basados en Lipschitz) y ofreciendo garantías teóricas de error acotado bajo hipótesis suaves, lo que permite evaluar fiabilidad y sensibilidad de los indicadores semánticos usados en escenarios futuros. Además, demuestra la aplicabilidad con casos de estudio en terminología agrícola y comparación de fuentes (DOAJ, Scholar, Google y Arxiv), precisamente el tipo de heterogeneidad documental que caracteriza la construcción de escenarios en la Huerta (ciencia, divulgación, normativa, prensa y documentación técnica), proporcionando criterios para seleccionar fuentes coherentes, sintetizar resultados y transferir proyecciones entre universos.
We would like to acknowledge funding from the Generalitat Valenciana (Spain) through the PROMETEO 2024 CIPROM/2023/32 grant.
