Presentación
El día lunes 29 de Junio se dió inicio al curso de Web y Datos Organizado por ADSIB y GeoBolivia. El facilitador del curso Philippe Rivière nos brindo un vistazo rápido del calendario del curso y la hermeneutica de trabajo durante el transcurso del mismo.
Organización
Philippe Rivière propuso las metas del curso, el calendario y la organización.
Se dispone de una Fuente del Tesoro compuesta por 10000 documentos, estos documentos se hallan en distintos tipos de idiomas, formatos, y tratan distintos tipos de temas.
Las restricciones son que no se puede hacer ningún tipo de modificación de manera manual en ningún documento, cualquier modificación que se vaya a realizar debe ser realizada de manera automática mediante un programa, si se desea extraer algun tipo de dato como nombres de paises debe realizarse en un archivo separado. Todo el trabajo realizado debe documentarse en la Wiki y el código implementado debe versionarse en Git.
Para realizar el seguimiento del proyecto se puede acceder a este enlace e iniciar sesión de manera Standard usando los datos de la siguiente manera:
Username or Email: nombre@correo.com
Password: pasXXXXXXXX
Para el nombre de usuario se debe utilizar el correo desde el cual se envío la solicitud para realizar el curso.
Para la contraseña se debe reemplazar XXXXXXXX por el número de carnet o el número de celular de acuerdo a los datos enviados en la solicitud.
Tecnologías
Entre los lenguajes de programación que irán a utilizar durante el curso estan:
Las bases de datos que pueden ser de ayuda:
Algunos frameworks que se necesitarán para el desarrollo del proyecto:
Grupos
Durante todo el transcurso del curso se trabajará en grupos, cada persona pertenece a 2 grupos; existen dos tipos de grupos, los de letras y los de números, seis de cada tipo.
Grupos de Letras
- A: Comunicación externa
- B: Datos
- C: CMS
- D: Idiomas
- E: Extracción de términos
- F: Clasificacion NLP
Grupos de Números
- 0: Coordinación y ayuda en general
- 1: Documentación
- 2: Sitio Web
- 3: Cartografía
- 4: Visualizaciones
- 5: Tutoriales
Calendario
Cada día se tendrá una exposición de 20 minutos a cargo del facilitador o algún grupo. Las actividades detalladas a realizarse cada día son las siguientes:
- Martes 30 de Junio: Adquisición y depuración de datos con Pandoc y CSVKit
- Miercoles 1 de Julio: Cartografía y visualizaciones con D3.js
- Jueves 2 de Julio: Detección de idiomas y herramientas para tratamiento de textos.
- Viernes 3 de Julio: Extracción de términos con herramientas automáticas.
- Lunes 6 de Julio: Herramientas de Geocoding. Traducción automática, exploración de redes.
- Martes 7 de Julio: Indexación de textos.
- Miercoles 8 de Julio: Clasificación automática con gensim
- Jueves 9 de Julio: Recapitulación y depuración del proyecto.
- Viernes 10 de Julio: Presentación pública del proyecto y entrega de certificados.
- Lunes 13 y Martes 14 de Julio: Debate en línea acerca del proyecto.