Nom de code : Bu-Google (4/5)

closeUne année au moins est passée depuis la publication de ce billet qui peut donc contenir des informations un peu datées.

Bon, tout est en place, tout est validé par les outils de diagnostic Google mais…. à cette date (1), certaines requêtes ne renvoient rien alors que nous avons forcément des documents en magasin et dans le SIGB (si vous voulez vérifier, essayer une requête avec Duras dans Bugoogle, vous n’obtiendrez rien. Et pourtant, la Marguerite, Dieu sait si on l’aime). Que se passe-t-il ?

Et bien, nous avons un souci avec les bots. Bien que tout soit fait pour les accueillir au mieux (arborescence, sitemap), ils ne grappillent que quelques notices par jour (alors qu’en principe, un bot, c’est vorace). Et je n’ai pas d’explication, d’autant que nous avions fait des tests sur une sous-partie de cette arborescence (disons 5% du volume total) qui avait été totalement indexée en quelques heures.

Donc, je suis preneur de tout conseil sur la manière dont je pourrais motiver les bots (en précisant de suite : le site a été signalé via les Google webmasters tools, etc…) parce que ça m’éviterait de grogner comme un vieil ours quand que je ne comprends pas le pourquoi du comment.

Autre mystère : si vous allez sur ce moteur personnalisé Google qui effectue également ses recherches sur l’arborescence déjà évoquée, vous trouverez bien des résultats (14 réponses à cette heure) sur Duras (j’ai rajouté ses résultats en onglet CSE sur Bu-Google). Et si vous faites une recherche Duras depuis le “vrai” Google, vous obtiendrez 45 résultats (2). Nous avons donc trois points d’entrée Googlesque qui effectuent des requêtes au même endroit et ne ramènent pas la même chose…

Ces problèmes d’indexation et de réponses, d’une manière générale, expliquent pourquoi nous ne sommes pas encore passés en production publique avec cet outil. Or c’est bel et bien le but. Je vous en parle demain, pour clore cette saga.

(1) ça peut changer très vite : quand les bots arrivent, ils voient tout…
(2) Merci à Lully1804 pour avoir remarqué cette autre différence.
(3) Evidemment, en production, il semble du coup plus logique de passer par un onglet CSE…

4 thoughts on “Nom de code : Bu-Google (4/5)

  1. Bonjour,

    quelles différences entre les services Google recherche personnalisée, l’export catalogue et la recherche du “vrai google” directement dans votre base biblio OPD01?

    Pourquoi développer BU-Google si des interfaces configurées par recherche sur site ou recherche personnalisée fonctionne (mieux) ?

    je ne comprends pas trop les différences de focntionnement et avantages de l’un sur l’autre?

    Si les google bots ne peuvent explorer votre SIGB, que fait la recherche “DURAS site:http://catalogue.univ-angers.fr/OPD01” ? D’où viennent les réponses?

  2. @Chaps :

    1/ un bots ne peut pas rentrer dans le SIGB, je dois donc exporter mes notices pour qu’il puisse voir lesdites notices et les indexer. Tous les modes de recherche (recherche personnalisée, “vrai” Google) ont un préalable : que les bots voient nos notices et les indexent ;

    2/ Les bots n’explorent pas notre SIGB, ils explorent cet export (qui est donc à http://catalogue.univ-angers.fr/OPD01 ) mais ils ne l’explorent pas totalement pour l’heure. Ceci explique pourquoi la requête “DURAS site:http://catalogue.univ-angers.fr/OPD01” ramènent bien des réponses. Le problème, c’est que cette requête ne ramène pas tout ce que nous avons exporté, lié à Duras ;

    3/ De plus, les différents mode de recherche (recherche personnalisée, “vrai” Google) ne ramènent pas le même nombre de réponses alors que les bots ont indexé le même export ;

    4/ Bu-Google nous permet de ventiler les recherches ; c’est “juste” un choix de présentation (même si derrière il y a une option politique puisque nous incluons un onglet Université) sachant que la doc. Google en propose d’autres, de ces choix de présentation (et la recherche personnalisée est un exemple).

    Voilà, j’espère que j’ai été un peu plus clair. Sinon, il suffit de me le dire pour que je précise à nouveau.

  3. Non vous avez été plus clair (pour moi en tout cas). Donc la “source” dans laquelle Google vient chercher pour ses 3 “modes de recherche” est la même : votre export de catalogue restructuré.

    Vous ne savez pas non plus pourquoi les réponses varient alors que la source est la même: des bots différents pour le “vrai” Google, le CSE et BU-Google, des index Google non partagés et mis à jour de façon asynchrone ?…

    Question subsidiaire: quel contrôle avez-vous sur le format de présentation des notices de votre catalogue dans BU-Google? Par exemple, pourriez-vous mettre en évidence l’année d’édition des livres qui apparaissent en résultat de la recherche?

  4. @chaps : à mon avis, la piste des index asynchrones peut être la bonne. Pour la question subsidiaire, nous contrôlons la présentation à peu près comme nous le voulons dans la limite du raisonnable et du réalisable (i.e. dans la mesure de ce que permet le fichier de conf. )

Leave a Reply

Your email address will not be published. Required fields are marked *