urllib.robotparser — Parser for robots.txt

Código fuente: Lib/urllib/robotparser.py


This module provides a single class, RobotFileParser, which answers questions about whether or not a particular user agent can fetch a URL on the website that published the robots.txt file. For more details on the structure of robots.txt files, see http://www.robotstxt.org/orig.html.

class urllib.robotparser.RobotFileParser(url='')

Esta clase proporciona métodos para leer, analizar y responder preguntas acerca de robots.txt

set_url(url)

Establece la URL que hace referencia a un archivo robots.txt.

read()

Lee la URL robots.txt y la envía al analizador.

parse(lines)

Analiza el argumento lines.

can_fetch(useragent, url)

Retorna True si el useragent tiene permiso para buscar la url de acuerdo con las reglas contenidas en el archivo robots.txt analizado.

mtime()

Retorna la hora en que se recuperó por última vez el archivo robots.txt. Esto es útil para arañas web de larga duración que necesitan buscar nuevos archivos robots.txt periódicamente.

modified()

Establece la hora a la que se recuperó por última vez el archivo robots.txt hasta la hora actual.

crawl_delay(useragent)

Retorna el valor del parámetro Crawl-delay de robots.txt para el useragent en cuestión. Si no existe tal parámetro o no se aplica al useragent especificado o la entrada robots.txt para este parámetro tiene una sintaxis no válida, devuelve None.

Added in version 3.6.

request_rate(useragent)

Retorna el contenido del parámetro Request-rate de robots.txt como una tupla nombrada RequestRate(requests, seconds). Si no existe tal parámetro o no se aplica al useragent especificado o la entrada robots.txt para este parámetro tiene una sintaxis no válida, devuelve None.

Added in version 3.6.

site_maps()

Retorna el contenido del parámetro Sitemap de robots.txt en forma de list(). Si no existe tal parámetro o la entrada robots.txt para este parámetro tiene una sintaxis no válida, devuelve None.

Added in version 3.8.

El siguiente ejemplo demuestra el uso básico de la clase RobotFileParser:

>>> import urllib.robotparser
>>> rp = urllib.robotparser.RobotFileParser()
>>> rp.set_url("http://www.musi-cal.com/robots.txt")
>>> rp.read()
>>> rrate = rp.request_rate("*")
>>> rrate.requests
3
>>> rrate.seconds
20
>>> rp.crawl_delay("*")
6
>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
False
>>> rp.can_fetch("*", "http://www.musi-cal.com/")
True