21.10. `urllib.robotparser` — Analyseur de fichiers robots.txt¶

Code source : Lib/urllib/robotparser.py

Ce module fournit une simple classe, RobotFileParser, qui permet de savoir si un user-agent particulier peut accéder à une URL du site web qui a publié ce fichier robots.txt. Pour plus de détails sur la structure des fichiers robots.txt, voir http://www.robotstxt.org/orig.html.

class urllib.robotparser.RobotFileParser(url='')¶

Cette classe fournit des méthodes pour lire, analyser et répondre aux questions à propos du fichier robots.txt disponible à l’adresse url.

set_url(url)¶: Modifie l’URL référençant le fichier robots.txt.

read()¶: Lit le fichier robots.txt depuis son URL et envoie le contenu à l’analyseur.

parse(lines)¶: Analyse les lignes données en argument.

can_fetch(useragent, url)¶: Renvoie True si useragent est autorisé à accéder à url selon les règles contenues dans le fichier robots.txt analysé.

mtime()¶: Renvoie le temps auquel le fichier robots.txt a été téléchargé pour la dernière fois. Cela est utile pour des web spiders de longue durée qui doivent vérifier périodiquement si le fichier est mis à jour.

modified()¶: Indique que le fichier robots.txt a été téléchargé pour la dernière fois au temps courant.

The following example demonstrates basic use of the RobotFileParser class.

>>> import urllib.robotparser
>>> rp = urllib.robotparser.RobotFileParser()
>>> rp.set_url("http://www.musi-cal.com/robots.txt")
>>> rp.read()
>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
False
>>> rp.can_fetch("*", "http://www.musi-cal.com/")
True

21.10. `urllib.robotparser` — Analyseur de fichiers robots.txt¶

Sujet précédent

Sujet suivant

Cette page

21.10. urllib.robotparser — Analyseur de fichiers robots.txt¶

21.10. `urllib.robotparser` — Analyseur de fichiers robots.txt¶