Presentación
En esta clase se hablo de extraccion de terminos.
Herramientas
Sumy extrae el resumen de un texto.
La instalación es muy simple desde una terminal con el pip de Python.
$ pip install sumy
Exiten varios algoritmos para este trabajo
- Luhn
- Edmundson
- LSA
- LexRank
- TextRank
Para el siguiente ejemplo utilizaremos el algoritmo Edmundson que sacaremos un resumen de un articulo del periodico La Razon.
Tambien se puede extraer resumen desde un documento local como se ve en el ejemplo siguiente.
NLTK El kit de herramientas de lenguaje natural, o más comúnmente NLTK, es un conjunto de bibliotecas y programas para el procesamiento del lenguaje natural (PLN) simbólico y estadísticos para el lenguaje de programación Python. NLTK incluye demostraciones gráficas y datos de muestra. Se acompaña de un libro que explica los conceptos subyacentes a las tareas de procesamiento del lenguaje compatibles el toolkit, además de programas de ejemplo.
NLTK está destinado a apoyar la investigación y la enseñanza en PLN o áreas muy relacionadas, que incluyen la lingüística empírica, las ciencias cognitivas, la inteligencia artificial, la recuperación de información, y el aprendizaje de la máquina. NLTK se ha utilizado con éxito como herramienta de enseñanza, como una herramienta de estudio individual, y como plataforma para los sistemas de investigación de prototipos y construcción.
Deteccion de idiomas
Un n-grama es una subsecuencia de n elementos de una secuencia dada. El estudio de los n-gramas es interesante en diversas áreas del conocimiento. Por ejemplo, es usado en el estudio del lenguaje natural, en el estudio de las secuencias de genes y en el estudio de las secuencias de aminoácidos.
Modelo de n-gram
Un modelo de n-grama es un tipo de modelo probabilístico que permite hacer una predicción estadística del próximo elemento de cierta secuencia de elementos sucedida hasta el momento. Un modelo de n-grama puede ser definido por una cadena de Márkov de orden n-1. Por tanto los modelos de n-grama son modelos ocultos de Márkov.
Más precisamente, un modelo de n-grama predice x_{i} basándose en x_{i-1}, x_{i-2}, \dots, x_{i-n}. Debido a limitaciones computacionales y a la normalmente naturaleza abierta de los problemas (suele haber infinitos elementos posibles), se suele asumir que cada elemento solo depende de los últimos n elementos de la secuencia.
Herramienta langdetect
LanDetect es una libreria hecha en Python de deteccion de idiomas portado desde el lenguaje de deteccion de Google.
Instalacion
$ pip install langdetect
Ejemplo
>>> from langdetect import detect
>>> detect("War doesn't show who's right, just who's left.")
'en'
>>> detect("Ein, zwei, drei, vier")
'de'
Algunas APIs que nos ayudaran en nuestro trabajo de extraccion de terminos.