Índice
Introducción
Freeling es una suite de analizadores lingüísticos desarrollados y mantenidos por el TALP Research Center de la Universitat Politècnica de Catalunya. Se trata de una librería que puede ser instalada en varios sistemas operativos y versiones de éstos. Esencialmente, salvo Windows, la instalación consiste en la recompilación de las librerías para poder hacer uso de ésta en otros desarrollos. En el caso de Windows, la distribución incluye una versión binaria (compilada, ejecutable, a diferencia de las versiones destinadas a algún Unix, donde éste debe ser recompilado) de un programa que muestra lo que puede hacerse con ésta. Desafortunadamente, muchos usan este programa (o consideran a este programa) como «el parser Freeling» y se limitan y adaptan a lo que éste da y hace.
El registro de instalaciones descritas en este sitio son sólo experiencias personales que buscan, esencialmente, ser anotaciones para su autor como una referencia para posteriores consultas, pero que considerando pueden ser útiles a otros no ha tenido problema en compartirlas. Se recomienda consultar la página de Freeling para conocer la instalación en otros sistemas operativos y versiones no indicadas aquí, así como para instrucciones de uso en el desarrollo de aplicaciones e información técnica detallada de los componentes que conforman la suite de analizadores y servicios que provee la librería.
Existen algunas consideraciones o particularidades que deben tenerse presente en el uso de la herramienta dependiendo del sistema operativo o de la versión de la librería, pero también hay algunas que son independientes de estos factores. Aquí se mencionan algunas de ellas.
Con respecto a las convenciones empleadas y forma de citar estas páginas, recomendamos revisar nuestras guías.
Esquema de codificación en Windows
El esquema de codificación (encoding, locale) puede ser un dolor de cabeza, independientemente del sistema operativo pero el caso de Windows puede ser el más severo. Considérese el siguiente caso ocurrido en Windows 7.
El archivo de texto de entrada es creado como cualquier otro texto ASCII (en este caso empleando Vim, con el contenido:
El gato brincó sobre la reja.
pero al ver el contenido del archivo en pantalla se muestra (un 3/4
en lugar de una o
acentuada)
C:\Freeling>type input.txt
El gato brinc¾ sobre la reja.
y la ejecución del programa analizador de muestra (analyzer
) nos presenta (la cuarta línea de la salida muestra signos de interrogación y la tercer línea una palabra incompleta):
C:\Freeling>%FREELINGBIN%\analyzer -f es.cfg <input.txt
El el DA0MS0 1
gato gato NCMS000 1
brinc brinc NC00000 0.538028
� � Fz 1
sobre sobre SPS00 0.997091
la el DA0FS0 0.972269
reja reja NCFS000 1
. . Fp 1
La ejecución del comando chcp
nos indica:
C:\Freeling>chcp
Página de códigos activa: 850
por lo que es de suponerse que el esquema de codificación de caracteres es la causa.
Empatar la codificación del archivo con el usado en la línea de comandos (por ejemplo usando Notepad++ para convertir el archivo al esquema OEM 850 o similar, y guardarlo así— pudiendo requerir cambiar los caracteres que no se muestran apropiadamente) sólo permite ver el contenido del archivo apropiadamente
C:\Freeling>type input.txt
El gato brincó sobre la reja.
pero no así su reconocimiento, que seguirá mostrando equivocadamente el reconocimiento del texto. Para evitar esto, es necesario que el archivo de guarde como UTF-8, preferentemente sin BOM (el BOM no será reconocido por Freeling y sería marcado como un elemento sin reconocer). En este caso, mientras que el reconocimiento será el apropiado:
C:\Freeling>%FREELINGBIN%\analyzer -f es.cfg <input.txt
El el DA0MS0 1
gato gato NCMS000 1
brincó brincar VMIS3S0 1
sobre sobre SPS00 0.997091
la el DA0FS0 0.972269
reja reja NCFS000 1
. . Fp 1
mostrar el contenido en pantalla no lo hará.
C:\Freeling>type input.txt
El gato brinc├│ sobre la reja.
Para arreglar esto último es necesario que el código de caracteres de la sesión sea el esquema número 65001 y que el font de la consola sea Lucida Console o Consolas.
C:\Freeling>chcp 65001
Página de códigos activa: 65001
C:\Users\Piso1\Documents\Programas\Freeling>type input.txt
El gato brincó sobre la reja.
C:\Freeling>%FREELINGBIN%\analyzer -f es.cfg <input.txt
El el DA0MS0 1
gato gato NCMS000 1
brincó brincar VMIS3S0 1
sobre sobre SPS00 0.997091
la el DA0FS0 0.972269
reja reja NCFS000 1
. . Fp 1
|
© Todos los derechos reservados. Dr. Eduardo René Rodríguez Avila |
Creación: 2015.05.17 Última actualización: 2019.06.18 |
|||
El contenido de este sitio puede ser copiado y reproducido libremente mientras no sea alterado y se cite su origen. Marcas y productos registrados son citados por referencia y sin fines de lucro o dolo. Todas las opiniones son a título personal del o los autores de éstas y, salvo sea expresado de otro modo, deben considerarse como registro y expresión de la experiencia de uso de aquello que es tratado. Para conocer más sobre la posición de privacidad y responsabilidad de lo que se presenta en este sitio web y como ha sido obtenido, consulte la declaración al respecto. |