Ceci est une ancienne révision du document !



Moteurs de recherches

Un moteur de recherche est une application permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains sites Web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même.

Vous connaissez certainement les moteurs de recherches non-libres : Google, Yahoo!, Microsoft Bing, …

Pourquoi faut il ne pas utiliser les moteurs non-libres ? En y faisant des recherches sur ces moteurs, et en utilisant les services associés ( Gmail, Yahoo Mail, MSN live, … ), vous acceptez généralement une clause qui permet à ses propriétaires d'utiliser vos informations personnelles, notamment pour cibler leurs publicités, et leur donne beaucoup de pouvoir.

Déclarations d'Eric Schmidt (Google)

  • "Nous savons à "peu près" qui vous êtes, à "peu près" ce qui vous intéresse, à peu près qui sont vos amis" ( à peu près, car les méthodes d'analyses et modélisations sont probabilistes, il faut lire on sait à X% qui vous êtes vraiment ).
  • "Si 'je' regarde suffisamment vos messages et vos déplacements, avec de l'intelligence artificielle, nous pouvons prédire ce que vous allez faire"
  • Un document récent indique également que Google pourrait commencer à vendre des annonces sur le Web basées sur les choses qu'il connaissait des gens de leur compte Gmail, et aussi de leur utilisation du service Google Checkout, un rival de PayPal.

D'autres liens pour faire le tour de la question: Le document montre une compréhension des implications de confidentialité. Rien ne se passerait "sans considération fort au sujet de la vie privée, au niveau juridiques et de l'industrie les meilleures pratiques à l'esprit». Un objectif devrait être de limiter le sentiment des utilisateurs sur "Terrifiant" lié à la consultation des annonces très ciblées. ( le document )

  • Google travaille sur un service en utilisant la «découverte contextuelle» pour pousser l'information aux gens avant qu'ils aient commencé à chercher, en fonction de facteurs tels que leur historique de navigation ou de l'emplacement actuel.
  • Video Le plan de google (masterplanthemovie.com)
  • Prochaine étape de google : robotique, et … intelligence artificielle
  • et la "neutralité du net" en question chez google est l'opposé de ce que cela semble dire 1): il s'agit de contrôler les autoroutes de l'information : de revenir au format minitel 2.0 ( notamment par android , et avec des accord politique, et financier avec les FAI), et enfin la télévision minitel 2.0 (1984).
  • La net neutralité réel est en 4 points :
    • Transmission des données par les opérateurs sans en examiner le contenu ;
    • Transmission des données sans prise en compte de la source ou de la destination des données ;
    • Transmission des données sans privilégier un protocole de communication ;
    • Transmission des données sans en altérer le contenu.
    • Google ne donne qu'une apparence d'ouverture : de la transparence, ce n'est pas la même chose : au profit de qui : et ca vous coûte quoi ? Votre liberté ?

Décentralisés

Centralisés

Profit company

  • Wikia Search (site) (source)
  • OpenWebSpider ( site ) Open Source multi-thread Web Spider (robot à chenilles) et moteur de recherche avec beaucoup de fonctionnalités intéressantes
  • ex-crawler ( site )

Pour les cartes

  • Local Lucene ( site )

Libre :

  • Décentralisé :
  • Centralisé :
    • Scuttle (site) open source PHP et MySQL dans la meme vision que Delicious- a été en développement depuis 2005. Il prend en charge plusieurs utilisateurs, vous pouvez donc l'hôte d'une copie de celui-ci et laisser tous vos amis ou collègues de l'utiliser….
    • Selflicious (site) nouveau site web basé sur Python personnels bookmarking application très similaire à Delicious. Il est conçu pour une seule personne pour ranger leurs signets sur un serveur web.
    • Ma.gnolia (code) Infortuné concurrent Delicious, Ma.gnolia a publié son code de retour en 2008. L'entreprise a fermé ses portes en 2010.

Non libre :

  • via des marque-pages : delicious
  • via des boutons sur les pages et les articles : digg

Distribué :

Centralisé :

  • Lucene (apache) ( utilisé sur Salesforce, LinkedIn, Twitter, itunes, etc. )
    • Le site LinkedIn(350+ million requêtes par semaine ) utilise bobo (site) pour la recherche, et Zoie pour l'indexation.
    • Solr Server (site) (java)lucene accessible en http. Caractéristiques supplémentaires comparé a lucene : des analyseurs de requête supplémentaire, la mise en cache HTTP, facettage de recherche, mettant en évidence, et bien d'autres. Le meilleur de tous, une fois que vous mettre en place le serveur Solr, vous pouvez en parler directement via REST XML / JSON API
    • CLucene - a C++ search engine ( site )
  • Nutch (wiki)
  • Xapian (site)
  • OSS Open Search Server ( site )
  • Jumper 2.0 Collaborative Search Engine (site)

Non-Libre :

  • IntraCherche (site) dédié aux PME, dont le principal atout est de pouvoir être facilement mis en place dans l'entreprise, sans requérir de serveur web.
  • Compass semantic/java (site)
  • regain ( site )
  • Phraseanet (site) : pour le multimedia

Optimisation pour les moteurs de recherche ou SEO ( search engine optimisation).

  • SEO Panel - A control panel for SEO (site)
  • SEO Tools (site)

Robot.txt

Robots.txt, ou le fichier d'exclusion des robots, est une ressource de format texte qui peut être placée à la racine d'un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d'indexation des moteurs de recherche. ( voir aussi Spider trap )

Exemple pour bloquer un indexer spécifique :

User-agent: googlebot
Disallow: /

htaccess

Contributeurs : Psychederic, …


  • utilisateurs/psychederic/moteur_de_recherche.1543485269.txt.gz
  • Dernière modification: Le 29/11/2018, 10:54
  • par cmail