Desarrollo de un sistema de normalización de direcciones postales mediante cadenas ocultas de Markov (HMM, por sus siglas en inglés), para su posterior cotejo con un callejero de direcciones normalizado del IBESTAT.
Las direcciones se preprocesan para realizar tareas de limpieza y aplicarles correcciones habituales, tras lo que se introducen en un normalizador probabilístico que ha sido previamente entrenado con miles de direcciones de muestra.
Finalmente, tras una fase de postprocesado, se cotejan con las existentes en un callejero normalizado, atendiendo a diferencias de escritura y de idioma (mallorquín/castellano), de formato, etc.
Los modelos son dinámicos y permiten su reentrenamiento a partir de nuevas direcciones normalizadas manualmente.