13.3. "robotparser" —  Parser for robots.txt
********************************************

Note: The "robotparser" module has been renamed "urllib.robotparser"
  in Python 3. The *2to3* tool will automatically adapt imports when
  converting your sources to Python 3.

Ce module fournit une simple classe, "RobotFileParser", qui permet de
savoir si un *user-agent* particulier peut accéder à une URL du site
web qui a publié ce fichier "robots.txt".  Pour plus de détails sur la
structure des fichiers "robots.txt", voir
http://www.robotstxt.org/orig.html.

class robotparser.RobotFileParser(url='')

   Cette classe fournit des méthodes pour lire, analyser et répondre
   aux questions à propos du fichier "robots.txt" disponible à
   l’adresse *url*.

   set_url(url)

      Modifie l’URL référençant le fichier "robots.txt".

   read()

      Lit le fichier "robots.txt" depuis son URL et envoie le contenu
      à l’analyseur.

   parse(lines)

      Analyse les lignes données en argument.

   can_fetch(useragent, url)

      Renvoie "True" si *useragent* est autorisé à accéder à *url*
      selon les règles contenues dans le fichier "robots.txt" analysé.

   mtime()

      Renvoie le temps auquel le fichier "robots.txt" a été téléchargé
      pour la dernière fois.  Cela est utile pour des *web spiders* de
      longue durée qui doivent vérifier périodiquement si le fichier
      est mis à jour.

   modified()

      Indique que le fichier "robots.txt" a été téléchargé pour la
      dernière fois au temps courant.

The following example demonstrates basic use of the RobotFileParser
class.

   >>> import robotparser
   >>> rp = robotparser.RobotFileParser()
   >>> rp.set_url("http://www.musi-cal.com/robots.txt")
   >>> rp.read()
   >>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
   False
   >>> rp.can_fetch("*", "http://www.musi-cal.com/")
   True
