Table des matières

Page obsolète

Fichier searchlog-filter.xml : filtrer l'origine de la recherche

Le serveur Scrutari enregistre les recherches effectuées par les internautes dans des journaux mensuels. Le contenu de ces journaux est décrit plus précisement dans la page sur le format XML d'un journal de recherche mensuel. Un journal enregistre la séquence de recherche demandée mais aussi l'adresse IP, le site d'origine ou la page référente (Referrer), ces informations étant collectées par le client Scrutari et étant transmises au serveur en même temps que la requête. Il enregistre également le nombre de fiches répondant aux critères de la recherche.

Les informations contenues dans les journaux sont précieuses pour suivre l'évolution de l'usage du serveur Scrutari. Il peut donc se révéler particulièrement utiles de ne conserver dans les journaux que les recherches qui semblent pertinentes, par exemple en excluant les recherches que l'on effectue soi-même ou celles effectuées par des robots. C'est ce que permet le fichier de configuration searchlog-filter.xml : définir les recherches qui ne seront pas conservées par le serveur Scrutari.

Structure du format XML

L'élément racine est l'élément <searchlog-filter>. Il ne possède pas d'attributs et contient en nombre illimité un seul type d'élément : l'élément <deny>. Cet élément <deny> peut posséder trois attributs :

La condition doit s'entendre de la manière suivante : toute recherche qui répond à la condition n'est pas conservée. Au moins un de ces attributs doit être présent, la présence de plusieurs de ces attributs est possible, cela correspond à une relation ET (pour ne pas être conservée, une requête doit répondre à la fois aux deux ou trois conditions précisées).

Le nombre d'éléments <deny> est illimité : une recherche ne devra répondre à aucune des conditions ainsi définies pour être conservées (On peut donc parler d'une relation OU entre les différents éléments <deny>).

Pour les différentes conditions :

Exemple

L'exemple suivant est celui de la Coredem en juiN 2009

<searchlog-filter>
	<deny ip="62.160.23.122"/>
	<deny ip="66.249.71.147"/>
	<deny site="coredem_ui"/> 	
	<deny site="!*" ref="!*"/>
</searchlog-filter> 

Les deux premières conditions portent sur des adresses IP (la première étant celle de la FPH, la seconde celle d'un robot de Google identifié pour passer régulièrement sur le site).

La troisième condition porte sur la valeur de site « coredem_ui », cette valeur n'est (normalement) utilisée que dans l'interface du client Scrutari de la Coredem lorsque l'internaute demande la même recherche en changeant de langue d'interface. Comme la recherche est identique à la recherche initiale, il n'est pas utile de la conserver.

La quatrième condition porte sur l'absence à la fois de l'information sur le site et de l'information sur la page réferente : si ces deux informations sont absentes, cela signifie très probablement que la requête a été effectuée par un robot.

DTD

<!ELEMENT searchlog-filter (deny*)>
 
<!ELEMENT deny EMPTY>
   <!ATTLIST deny ip CDATA #IMPLIED
                 site CDATA #IMPLIED
                 ref CDATA #IMPLIED >