Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
moteur_de_recherche [Le 11/11/2010, 15:34]
psychederic
— (Version actuelle)
Ligne 1: Ligne 1:
-{{tag>​portail internet}} 
  
----- 
-======Moteurs de recherches====== 
- 
-Un moteur de recherche est une application permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains sites Web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même. 
- 
-=====Moteurs de recherches non-libres===== 
- 
-Vous connaissez certainement les moteurs de recherches non-libres : Google, Yahoo!, Microsoft Bing, ... 
- 
-Pourquoi faut il ne pas utiliser les moteurs non-libres ? En y faisant des recherches sur ces moteurs, et en utilisant les services associés ( Gmail, Yahoo Mail, MSN live, ... ), vous acceptez généralement une clause qui permet à ses propriétaires d'​utiliser **vos informations personnelles**,​ notamment pour cibler leurs publicités,​ et leur donne beaucoup de pouvoir. 
- 
-[[http://​standblog.org/​blog/​post/​2010/​09/​06/​Declarations-d-Eric-Schmidt-%28Google%29|Déclarations d'Eric Schmidt (Google)]] 
-  * "Nous savons à "peu près" qui vous êtes, à "peu près" ce qui vous intéresse, à peu près qui sont vos amis" ( a peu près, car les méthodes d'​analyses et modélisations sont probabilistes,​ il faut lire on sait à X% qui vous êtes vraiment ). 
-  * "Si '​je'​ regarde suffisamment vos messages et vos déplacements,​ avec de l'​[[intelligence artificielle]],​ nous pouvons prédire ce que vous allez faire" 
-  * [[http://​translate.google.com/​translate?​hl=fr&​sl=en&​tl=fr&​u=http%3A%2F%2Fwww.wired.com%2Fdangerroom%2F2010%2F07%2Fexclusive-google-cia%2F|La nouvelle startup de google ( avec la cia )]] : [[https://​www.recordedfuture.com/​|Recorded Future]] 
-  * [[http://​translate.google.com/​translate?​js=n&​prev=_t&​hl=fr&​ie=UTF-8&​layout=2&​eotf=1&​sl=auto&​tl=fr&​u=http%3A%2F%2Fonline.wsj.com%2Farticle%2FSB10001424052748703309704575413553851854026.html%3Fmod%3Dwsj_share_twitter%23|Un document récent]] indique également que Google pourrait commencer à vendre des annonces sur le Web basée sur les choses qu'il connaissait des gens de leur compte Gmail, et aussi de leur utilisation du service Google Checkout, un rival de PayPal. 
-D'​autres liens pour faire le tour de la question: Le document montre une compréhension des implications de confidentialité. Rien ne se passerait "sans considération fort  au sujet de la vie privée, au niveau juridiques et de l'​industrie les meilleures pratiques à l'​esprit». **Un objectif devrait être de limiter le sentiment des utilisateurs sur "​Terrifiant"​** lié à la consultation des annonces très ciblées. ( le document ) 
-  * [[http://​standblog.org/​blog/​post/​2010/​09/​20/​Faut-il-avoir-confiance-en-Google|Faut-il avoir confiance en Google ?]] (stangblog) 
-  * [[http://​masterplanthemovie.com/​|Video Le plan de google]] (masterplanthemovie.com) 
-  * Prochaine étape de google : [[robotique]],​ et ... [[intelligence artificielle]] 
-  * et la "​neutralité du net" en question chez google est l'​opposé de ce que cela semble dire (([[http://​www.boingboing.net/​2010/​09/​24/​tim-wu-on-net-neutra.html|Tim Wu on Net Neutrality/​Google-Verizon betrayal]])):​ il s'agit de contrôler les autoroutes de l'​information : de revenir au format minitel 2.0 ( notamment par android , et avec des accord politique, et financier avec les FAI), et enfin la télévision minitel 2.0 (1984). ​ 
-  * La [[wpfr>​net neutralité]] réel est en 4 points : 
-    * Transmission des données par les opérateurs sans en examiner le contenu ; 
-    * Transmission des données sans prise en compte de la source ou de la destination des données ; 
-    * Transmission des données sans privilégier un protocole de communication ; 
-    * Transmission des données sans en altérer le contenu. 
-    * **Google ne donne qu'une apparence d'​ouverture** : [[http://​www.generation-nt.com/​google-censure-gouvernement-carte-actualite-1001091.html|de la transparence]],​ ce n'est pas la même chose : au profit de qui : et ca vous coute quoi ? **Votre liberté ?** 
- 
-=====Pour les fichiers locaux===== 
- 
-Voir [[recherche de fichiers]] 
- 
-=====Pour Internet===== 
- 
-====Décentralisés==== 
- 
-Libres: 
-   * [[Seeks]] ​ 
-   * [[Yacy]] 
- 
-Non libre : 
-   * [[Majestic-12 Dsearch]] ([[http://​www.majestic12.co.uk/​projects/​dsearch/​|site]]) ([[http://​www.majestic12.co.uk/​projects/​dsearch/​stats.php|stats]]) 
- 
- 
-====Centralisés==== 
-Profit company ​ 
-   * Wikia Search (site) (source) 
- 
-   * OpenWebSpider ​ ( [[http://​sourceforge.net/​projects/​openwebspider/​|site]] ) Open Source multi-thread Web Spider (robot à chenilles) et moteur de recherche avec beaucoup de fonctionnalités intéressantes 
-   * ex-crawler ​ ( [[http://​sourceforge.net/​projects/​ex-crawler/​|site]] ) 
- 
- 
-====Participatifs==== 
- 
-  * via des marque pages : [[http://​www.delicious.com/?​view=hotlist|delicious]] 
-  * via des boutons sur les pages et les articles : [[http://​digg.com/​news|digg]] 
- 
-====Pour les cartes==== 
-   * Local Lucene ( [[http://​sourceforge.net/​projects/​locallucene/​|site]] ) 
- 
-=====Pour un intranet===== 
- 
-Distribué :  
-   * [[SolrCloud]] (apache) ([[http://​wiki.apache.org/​solr/​SolrCloud|site]])( basé sur [[Solr Server]] qui a déjà la possibilité de faire des [[http://​wiki.apache.org/​solr/​DistributedSearch|requêtes distribuées]] ) 
-   * [[ElasticSearch]] ([[http://​www.elasticsearch.com/​|site]]) met en oeuvre un moteur de recherche distribué RESTful construit au-dessus de Lucene. JSON natif, prend en charge le basculement automatique vers le serveur maître, réplication de l'​index,​ les opérations atomiques (pas besoin de valider) 
-   * [[Katta]] ([[http://​katta.sourceforge.net/​|site]]) 
- 
-Centralisé :  
-   * [[Lucene]] (apache) ( utilisé sur Salesforce, LinkedIn, Twitter, itunes , etc )  
-     * Le site LinkedIn(350+ million requetes par semaines ) utilise [[bobo]] ([[http://​sna-projects.com/​bobo/​|site]]) pour la recherche, et [[Zoie]] pour l'​indexation. 
-     * [[Solr Server]] ([[http://​lucene.apache.org/​solr/​|site]]) (java)lucene accessible en http. Caractéristiques supplémentaires comparé a lucene : des analyseurs de requête supplémentaire,​ la mise en cache HTTP, facettage de recherche, mettant en évidence, et [[http://​lucene.apache.org/​solr/​features.html|bien d'​autres]]. Le meilleur de tous, une fois que vous mettre en place le serveur Solr, vous pouvez en parler directement via REST XML / JSON API 
-     * CLucene - a C++ search engine ( [[http://​sourceforge.net/​projects/​clucene/​|site]] ) 
-   * Nutch ([[http://​en.wikipedia.org/​wiki/​Nutch|wiki]]) 
-   * Xapian ([[http://​en.wikipedia.org/​wiki/​Xapian|site]]) 
-   * OSS Open Search Server ( [[http://​sourceforge.net/​projects/​opensearchserve/​|site]] ) 
- 
-   * Jumper 2.0 Collaborative Search Engine ([[http://​www.jumpernetworks.com/​downloads.html|site]]) 
-=====Pour un site===== 
-   * Compass ​ semantic/​java ([[http://​sourceforge.net/​projects/​compass/​|site]]) 
-   * regain ( [[http://​sourceforge.net/​projects/​regain/​|site]] ) 
-   * Phraseanet ([[http://​sourceforge.net/​projects/​phraseanet/​|site]]) : pour le multimedia 
- 
-=====SEO - Optimisation pour les moteurs de recherche===== 
-[[wpfr>​Optimisation pour les moteurs de recherche]] ou SEO ( search engine optimisation). 
-   * SEO Panel - A control panel for SEO ([[http://​sourceforge.net/​projects/​seopanel/​|site]]) 
-   * SEO Tools ([[http://​sourceforge.net/​projects/​seo/​|site]]) 
- 
-=====Blocage des moteurs de recherches qui indexent vos sites===== 
- 
-====Robot.txt==== 
- 
-[[wpfr>​Robots.txt]],​ ou le fichier d'​exclusion des robots, est une ressource de format texte qui peut être placée à la racine d'un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les [[wpfr>​robots d'​indexation]] des moteurs de recherche. ( voir aussi [[wpfr>​Spider trap]] ) 
- 
-Exemple pour bloquer un indexer spécifique :<​code>​ 
-User-agent: googlebot 
-Disallow: / 
-</​code>​ 
- 
-[[http://​www.outilsdunet.info/​webmaster/​generateur_robot_txt/​|Un générateur de robot.txt]] 
- 
-====htaccess==== 
-    
-Des générateurs :  
-   * [[http://​cooletips.de/​htaccess/​|cooletpis]] 
-   * [[http://​www.htaccesseditor.com/​en.shtml|htaccesseditor]] 
-   * [[http://​www.tools.dynamicdrive.com/​password/​|.htaccess Password Generator]] 
- 
-=====Voir aussi===== 
- 
-   * (en) [[http://​en.wikipedia.org/​wiki/​List_of_search_engines#​Open_source_search_engines|Liste des moteurs de recherches libres]] 
-   * (en) [[http://​sourceforge.net/​search/?​words=%22search+engine%22&​sort=num_downloads_week&​sortdir=desc&​offset=0&​type_of_search=soft|Liste de moteurs, sur sourceforge]],​ [[http://​sourceforge.net/​search/?​words=%22web+crawler%22&​type_of_search=soft&​sort=num_downloads_week&​sortdir=desc&​limit=25|les web crawler]], [[http://​sourceforge.net/​search/?​words=%22web+spider%22&​type_of_search=soft&​sort=num_downloads_week&​sortdir=desc&​limit=25|les web spider]], [[http://​sourceforge.net/​search/?​words=webbots&​type_of_search=soft&​sort=num_downloads_week&​sortdir=desc&​limit=25|les webbots]] 
-   * (en) [[https://​zooie.wordpress.com/​2009/​07/​06/​a-comparison-of-open-source-search-engines-and-indexing-twitter/​|A Comparison of Open Source Search Engines]] 
-   * (en) [[http://​www.igvita.com/​2010/​10/​22/​open-source-search-with-lucene-solr/​|Open Source Search with Lucene & Solr]] 
-   * [[http://​translate.google.com/​translate?​js=n&​prev=_t&​hl=fr&​ie=UTF-8&​layout=2&​eotf=1&​sl=en&​tl=fr&​u=http%3A%2F%2Fwww.connectivism.ca%2F%3Fp%3D198|L'"​ouverture"​ n'est plus si ouvert que cela]] (george siemens) 
-   * Les [[wpfr>​Sitemaps]] (xml) 
-   * [[http://​www.dataliberation.org/​|The Data Liberation Front]] : libéré vos informations des services de google 
-   * [[http://​www.2600.com/​googleblacklist/​|Les mots blacklistés]] : on remarque sur servitude est interdit : surement il doit être remplacé par devoir, ou [[wpfr>​Soumission librement consentie]] comme dans la novlangue de [[1984 (roman)|1984]] ? 
- 
-=====Liste des logiciels en rapport===== 
- 
- 
-{{backlinks>​moteur_de_recherche}} 
- 
-Contributeurs : [[:​utilisateurs:​psychederic|Psychederic]],​ ...// 
  • moteur_de_recherche.1289486060.txt.gz
  • Dernière modification: Le 18/04/2011, 14:40
  • (modification externe)