Curso Web y Datos – Conclusión

Presentación

El curso concluyó con la presentación de la aplicación producto LYCAmap.

Resumen

De una Fuente del Tesoro compuesta por 10000 documentos que se hallaban en distintos tipos de idiomas, formatos, y trataban distintos tipos de temas se propuso un ánalisis del contenido, del cual se extrajeron datos de interés como ser idioma, autor, temática, origen, etc.

Las restricciones fueron que no se puede podía realizar ningún tipo de modificación de manera manual en ningún documento, cualquier modificación se tuvo que realizar de manera automática mediante un programa, si se deseaba extraer algún tipo de dato como nombres de países debía realizarse en un archivo separado.

Entre los lenguajes de programación que utilizaron durante el curso están:

  • PHP
  • Python
  • Bash
  • Make
  • JavaScript
  • HTML
  • CSS

Las bases de datos que nos fueron de ayuda son:

  • MySQL
  • PostgreSQL

Algunos frameworks que se necesitaron para el desarrollo del proyecto:

  • D3.js
  • gensim
  • Sphinx

Y el gestor de contenidos:

  • SPIP

Se trabajaron los documentos, mediante las herramientas ya mencionadas se sustrajeron contenidos de importancia con la herramienta Tika, como ser títulos, subtítulos, contenido, idioma, país de origen, enlace original del documento, categoría, etc.

Con estos datos sustraídos se realizaron visualizaciones con D3.js, gráficas de acuerdo a una opción especifica. Por ejemplo se realizaron conteos de cuantos documentos se hallan en un idioma como ser español o francés.

Con gensim se realizaron estadísticas de aparición de palabras dentro de un documento, con lo cual se puede definir a que categoría pertenece, que puede ser tecnología, religión, etc.

Se identifico el idioma del contenido del documento basándose en herramientas de reconocimiento de texto mediante formulas “N-Gram” y palabras de parada, contenidas dentro del paquete de herramientas de lenguaje NLTK.

Se realizaron visualizaciones para mostrar los datos hallados en un mapa del mundo de acuerdo a una opción especifica como ser el numero de textos de acuerdo a su país de origen, pintando los países de un color definido.

Se realizo una página web donde se muestran los resultados mediante el framework WordPress con un gestor de contenidos llamado SPIP.

La duración del proyecto fue de 8 días, y fue realizado por 30 personas durante 3 horas cada día.

Imágenes del la presentación

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *