`urllib.robotparser` — Parser for robots.txt¶

Código fuente: Lib/urllib/robotparser.py

This module provides a single class, RobotFileParser, which answers questions about whether or not a particular user agent can fetch a URL on the website that published the robots.txt file. For more details on the structure of robots.txt files, see http://www.robotstxt.org/orig.html.

class urllib.robotparser.RobotFileParser(url='')¶

Esta clase proporciona métodos para leer, analizar y responder preguntas acerca de robots.txt

set_url(url)¶: Establece la URL que hace referencia a un archivo robots.txt.

read()¶: Lee la URL robots.txt y la envía al analizador.

parse(lines)¶: Analiza el argumento lines.

can_fetch(useragent, url)¶: Retorna True si el useragent tiene permiso para buscar la url de acuerdo con las reglas contenidas en el archivo robots.txt analizado.

mtime()¶: Retorna la hora en que se recuperó por última vez el archivo robots.txt. Esto es útil para arañas web de larga duración que necesitan buscar nuevos archivos robots.txt periódicamente.

modified()¶: Establece la hora a la que se recuperó por última vez el archivo robots.txt hasta la hora actual.

crawl_delay(useragent)¶: Retorna el valor del parámetro Crawl-delay de robots.txt para el useragent en cuestión. Si no existe tal parámetro o no se aplica al useragent especificado o la entrada robots.txt para este parámetro tiene una sintaxis no válida, devuelve None.

Added in version 3.6.

request_rate(useragent)¶: Retorna el contenido del parámetro Request-rate de robots.txt como una tupla nombrada RequestRate(requests, seconds). Si no existe tal parámetro o no se aplica al useragent especificado o la entrada robots.txt para este parámetro tiene una sintaxis no válida, devuelve None.

Added in version 3.6.

site_maps()¶: Retorna el contenido del parámetro Sitemap de robots.txt en forma de list(). Si no existe tal parámetro o la entrada robots.txt para este parámetro tiene una sintaxis no válida, devuelve None.

Added in version 3.8.

El siguiente ejemplo demuestra el uso básico de la clase RobotFileParser:

>>> import urllib.robotparser
>>> rp = urllib.robotparser.RobotFileParser()
>>> rp.set_url("http://www.musi-cal.com/robots.txt")
>>> rp.read()
>>> rrate = rp.request_rate("*")
>>> rrate.requests
3
>>> rrate.seconds
20
>>> rp.crawl_delay("*")
6
>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
False
>>> rp.can_fetch("*", "http://www.musi-cal.com/")
True

`urllib.robotparser` — Parser for robots.txt¶

Tema anterior

Próximo tema

This page

urllib.robotparser — Parser for robots.txt¶

`urllib.robotparser` — Parser for robots.txt¶