urllib.robotparser — Analizador para robots.txt

Código fuente: Lib/urllib/robotparser.py


Este módulo proporciona una clase única, RobotFileParser, que responde preguntas sobre si un agente de usuario en particular puede obtener una URL en el sitio web que publicó el archivo robots.txt. Para obtener más detalles sobre la estructura de los archivos robots.txt, consulte http://www.robotstxt.org/orig.html.

class urllib.robotparser.RobotFileParser(url='')

Esta clase proporciona métodos para leer, analizar y responder preguntas acerca de robots.txt

set_url(url)

Establece la URL que hace referencia a un archivo robots.txt.

read()

Lee la URL robots.txt y la envía al analizador.

parse(lines)

Analiza el argumento lines.

can_fetch(useragent, url)

Retorna True si el useragent tiene permiso para buscar la url de acuerdo con las reglas contenidas en el archivo robots.txt analizado.

mtime()

Retorna la hora en que se recuperó por última vez el archivo robots.txt. Esto es útil para arañas web de larga duración que necesitan buscar nuevos archivos robots.txt periódicamente.

modified()

Establece la hora a la que se recuperó por última vez el archivo robots.txt hasta la hora actual.

crawl_delay(useragent)

Retorna el valor del parámetro Crawl-delay de robots.txt para el useragent en cuestión. Si no existe tal parámetro o no se aplica al useragent especificado o la entrada robots.txt para este parámetro tiene una sintaxis no válida, devuelve None.

Nuevo en la versión 3.6.

request_rate(useragent)

Retorna el contenido del parámetro Request-rate de robots.txt como una tupla nombrada RequestRate(requests, seconds). Si no existe tal parámetro o no se aplica al useragent especificado o la entrada robots.txt para este parámetro tiene una sintaxis no válida, devuelve None.

Nuevo en la versión 3.6.

site_maps()

Retorna el contenido del parámetro Sitemap de robots.txt en forma de list(). Si no existe tal parámetro o la entrada robots.txt para este parámetro tiene una sintaxis no válida, devuelve None.

Nuevo en la versión 3.8.

El siguiente ejemplo demuestra el uso básico de la clase RobotFileParser:

>>>
>>> import urllib.robotparser
>>> rp = urllib.robotparser.RobotFileParser()
>>> rp.set_url("http://www.musi-cal.com/robots.txt")
>>> rp.read()
>>> rrate = rp.request_rate("*")
>>> rrate.requests
3
>>> rrate.seconds
20
>>> rp.crawl_delay("*")
6
>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
False
>>> rp.can_fetch("*", "http://www.musi-cal.com/")
True