Nom de code : Bu-Google (2/5)

closeUne année au moins est passée depuis la publication de ce billet qui peut donc contenir des informations un peu datées.

Alors, comment on obtient cette petite chose ? Je vais décomposer les opérations, histoire de… Commençons par le commencement.

  1. Puisque Google ne rentre pas dans les SIGB, il faut exporter nos notices vers lui pour lui montrer. Pour ce faire, nous utilisons un service fourni par Ex-Libris pour Aleph, que nous lançons comme n’importe quel autre service Aleph, et qui crée un ensemble de fichier *.tar composé d’un export de nos notices bibliographiques (dont nous avons défini ce qu’elles devaient contenir, par ailleurs, dans un fichier de conf.).
  2. Cet ensemble de fichier *.tar est ensuite passé dans des scripts (toujours fournis par Ex-Libris) qui “déplient” les notices pour en faire une arborescence web qui devient donc lisible pour les bots de Google (ici, une de ces pages – celles vraiment exposées, vous ne pouvez pas les voir à cause du point suivant, le .htaccess…).
  3. Il ne reste plus qu’à exposer cette arborescence (elle est là, si ça vous intéresse) sur un serveur web type Apache pour que les bots viennent l’indexer, et à créer une petite règle dans le .htaccess qui renvoie toute requête autre que celle d’un bots non pas vers l’arborescence exposée, mais vers la notice catalogue réelle. <MàJ> La règle peut être aussi dans le httpd.conf, c’est d’ailleurs là que nous l’avons posée. </MàJ>
  4. Pour faciliter le boulot aux bots, nous créons (mais c’est optionnel) une carte de l’arborescence avec Google Sitemap Gen, un script python tout con (tiens, ça rime).

Et voilà : nos données catalogue sont visibles par Google et d’une manière générale, les moteurs de recherche (m’enfin, vu la prédominance de Google, les autres, franchement, je m’en fous).

Ces opérations sont automatiques, et sont effectuées par nos machines le dimanche matin, tôt, quand tout le monde est à la messe sort de boîte.

Demain, je reviens sur la page d’accueil et la manière dont nous la construisons.

5 thoughts on “Nom de code : Bu-Google (2/5)

  1. Tu veux pas mettre directement la ligne .htaccess, et un bout de Sitemap pour voir à quoi ça ressemble ?
    Tiens, vous n’avez pas exporté la date de publication dans vos pages ? pardon, elle est dans les métadonnées

    Question subsidiaire : les scripts Ex-Libris, ils sont déjà dans Aleph ou il faut aller les chercher dans leur doc en ligne (ou les leur demander poliment) ?

    Je trouve que les boîtes ferment bien tard à Angers (ou alors la messe est particulièrement tôt !)

  2. Je grille peut-être les étapes suivantes mais la règle dans le .htaccess pour renvoyer la requête est faite comment ? ISBN ?

    Si je comprends bien, en résumé, il y a un site “fantôme” avec toutes le notices. Il n’est pas trop “volumineux” ? (on a un petit serveur chez nous….)

    Au niveau de l’export hebdo ça se passe comment : tout est exporté à nouveau ou seulement les notices ajoutées/modifiées ?

    En tout cas merci pour ces infos !

  3. C’est peut-être plus lisible :

    <html>

        <head>

            <meta http-equiv=”Content-Type”  content=”text/html;charset=utf-8″/>

            <title>Picq, Thierry. Manager une équipe projet. — Paris : Dunod, 1999,226 p.; 24 cm.(Fonctions de l’entreprise. Série Animation des hommes)ISBN 2-10-004031-6[000271010]</ title>

            <meta name=”robots” content=”noarchive”>

            <meta name=”description”   content=”Picq, Thierry. Manager une équipe projet. — Paris : Dunod, 1999,226 p.; 24 cm.(Fonctions de l’entreprise. Série Animation des hommes)ISBN 2-10-004031-6[000271010]”>

            <meta   name=”keywords”   content=”manager une équipe projet  0, thierry picq  0, picq  0, thierry  0, personnel  0, participation à la gestion  0, gestion de projets  0, groupes de travail  0, personnel  0, motivation  0, personnel  0, direction  0″>

        </head>

        <style type=”text/css”>body {font-family:’zyksun’,’Bitstream Cyberbit’,’Arial Unicode MS’,’Arial’,’Helvetica’,’serif’; }</style>

        <body>

            <h1>Manager une équipe projet Thierry Picq</h1>

            <h1>Picq Thierry</h1>

            <p><b>Personnel Participation à la gestion</b></p>

            <p><b>Gestion de projets</b></p>

            <p><b>Groupes de travail</b></p>

            <p><b>Personnel Motivation</b></p>

            <p><b>Personnel Direction</b></p>

            <p><b>Fonctions de l’entreprise Série Animation des hommes</b></p>

            <p><b>2-10-004031-6</b></p>

            <!–This document was last updated on 20090607,at 01.34 –>

        </body>

    </html&gt

Leave a Reply

Your email address will not be published. Required fields are marked *