13.3. robotparser
— Parser for robots.txt¶
Note
The robotparser
module has been renamed urllib.robotparser
in
Python 3.
The 2to3 tool will automatically adapt imports when converting
your sources to Python 3.
Ce module fournit une simple classe, RobotFileParser
, qui permet de savoir si un user-agent particulier peut accéder à une URL du site web qui a publié ce fichier robots.txt
. Pour plus de détails sur la structure des fichiers robots.txt
, voir http://www.robotstxt.org/orig.html.
-
class
robotparser.
RobotFileParser
(url='')¶ Cette classe fournit des méthodes pour lire, analyser et répondre aux questions à propos du fichier
robots.txt
disponible à l’adresse url.-
set_url
(url)¶ Modifie l’URL référençant le fichier
robots.txt
.
-
read
()¶ Lit le fichier
robots.txt
depuis son URL et envoie le contenu à l’analyseur.
-
parse
(lines)¶ Analyse les lignes données en argument.
-
can_fetch
(useragent, url)¶ Renvoie
True
si useragent est autorisé à accéder à url selon les règles contenues dans le fichierrobots.txt
analysé.
-
mtime
()¶ Renvoie le temps auquel le fichier
robots.txt
a été téléchargé pour la dernière fois. Cela est utile pour des web spiders de longue durée qui doivent vérifier périodiquement si le fichier est mis à jour.
-
modified
()¶ Indique que le fichier
robots.txt
a été téléchargé pour la dernière fois au temps courant.
-
The following example demonstrates basic use of the RobotFileParser class.
>>> import robotparser
>>> rp = robotparser.RobotFileParser()
>>> rp.set_url("http://www.musi-cal.com/robots.txt")
>>> rp.read()
>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
False
>>> rp.can_fetch("*", "http://www.musi-cal.com/")
True