21.10. urllib.robotparser — Analyseur de fichiers robots.txt

Code source : Lib/urllib/robotparser.py


Ce module fournit une simple classe, RobotFileParser, qui permet de savoir si un user-agent particulier peut accéder à une URL du site web qui a publié ce fichier robots.txt. Pour plus de détails sur la structure des fichiers robots.txt, voir http://www.robotstxt.org/orig.html.

class urllib.robotparser.RobotFileParser(url='')

Cette classe fournit des méthodes pour lire, analyser et répondre aux questions à propos du fichier robots.txt disponible à l’adresse url.

set_url(url)

Modifie l’URL référençant le fichier robots.txt.

read()

Lit le fichier robots.txt depuis son URL et envoie le contenu à l’analyseur.

parse(lines)

Analyse les lignes données en argument.

can_fetch(useragent, url)

Renvoie True si useragent est autorisé à accéder à url selon les règles contenues dans le fichier robots.txt analysé.

mtime()

Renvoie le temps auquel le fichier robots.txt a été téléchargé pour la dernière fois. Cela est utile pour des web spiders de longue durée qui doivent vérifier périodiquement si le fichier est mis à jour.

modified()

Indique que le fichier robots.txt a été téléchargé pour la dernière fois au temps courant.

The following example demonstrates basic use of the RobotFileParser class.

>>> import urllib.robotparser
>>> rp = urllib.robotparser.RobotFileParser()
>>> rp.set_url("http://www.musi-cal.com/robots.txt")
>>> rp.read()
>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
False
>>> rp.can_fetch("*", "http://www.musi-cal.com/")
True