Curso Web y Datos – Clase 2

Presentación

 

El día martes 30 de Junio se continuo con el curso de Web y Datos, hablando de herramientas de mucha utilidad para la automatización de procesos de todo tipo, como la navegación y descarga de archivos desde la web de manera repetitiva, búsqueda de información dentro de un trozo de texto, busqueda de etiquetas dentro de un código html, etc.


Herramientas

Wget

Web-get es un software que permite descargar cualquier tipo de documentos desde la internet; este software no tiene una interfaz gráfica, es decir que funciona solo en la terminal o consola. Viene instalado por defecto en casi todos los sistemas operativos basados en UNIX.

Uso

  • Descargar un archivo
  • Descargar un archivo renombrando el original
  • Descargar varios archivos mediante enlaces contenidos en un archivo de texto
  • Resumir descargas
  • Descargar en segundo plano y registrar los eventos en un archivo
  • Descargar con límite de velocidad y registrar los eventos en un archivo

Curl

Curl soporta transferencia bajo distintos protocolos FTP, FTPS, HTTP, HTTPS, SCP, SFTP, TFTP, Telnet, DICT, LDAP, LDAPS, FILE, POP3, IMAP, SMTP, RTMP y RTSP. Wget HTTP , soporte HTTPS y FTP.

Curl soporta tambien certificados SSL, HTTP POST, HTTP PUT, FTP uploading, HTTP form based upload, proxies, cookies, user+password authentication (Basic, Digest, NTLM, Negotiate, kerberos…) reaunudacion de descargas , proxy tunneling entre otros.

Curl puede ser compilado y funcional en más plataformas que wget.

Uso

  • Descargar un archivo
  • Descargar mutltiples archivos
  • Resumir descargas
  • Autenticarse mediante la terminal
  • Descargar archivos con autenticación por FTP
  • Subir archivos a un servidor FTP
  • Observar el intercambio de información
  • Enviar correos web

Grep

Grep es un comando muy útil que sirve para realizar búsqueda de texto en algun tipo de regitro, en un trozo de texto o dentro del contenido de un archivo.

Uso

  • Buscar texto en un archivo
  • Buscar texto en un mensaje registro

Beautiful Soup 4

Beautiful Soup es una libreria de Python, gracias a este conjunto de librerias podemos parsear código HTML o XML y visualizarlo de una manera más amigable. También se pueden localizar etiquetas en concreto dentro de cualquier archivo HTML, como ser enlaces o cabeceras.

Uso

  • Mostrar un archivo de manera amigable
  • Mostrar contenido de una etiqueta de HTML
  • Buscar todos los enlaces python for link in soup.find_all('a'): print(link.get('href')) # http://example.com/elsie # http://example.com/lacie # http://example.com/tillie

tika

Tika es un software muy útil en el ámbito del análisis de documentos. Se usa en tareas de indexación, análisis de contenidos, traducción y muchas otras tareas.

Imágenes del la clase

20150630_191546
20150630_193935
20150630_193951
20150630_194005
20150630_194616
DSC03703
DSC03704
DSC03707

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *