Search engine works with words, but some noun is compound by multiple words. New York is a noun, not two words. With a list of noun, search engine can handle it well, and wikipedia can help.
Moteur de recherche
Looking for New York, the shingle way
Par Mathieu Lecarme le dimanche, 6 avril 2008, 14:17
Using Compass without dirtying its hands with java
Par Mathieu Lecarme le mardi, 11 mars 2008, 20:35
Compass is a nice project using Lucene to bring easy search to java project.
But sometimes, we don't need java in a project.
A lexicon approach for Lucene full text search engine.
Par Mathieu Lecarme le vendredi, 7 mars 2008, 23:24
Lucene uses an index to find document from thier words. Storing more informations with each words, ie building a lexicon, can expands Lucene search and helps query refining.
Dissection d'un moteur de recherche (4) : la complétion et proposition d'orthographe
Par Mathieu Lecarme le lundi, 21 mai 2007, 20:07
Google en proposant une complétion automatique pour son moteur a une fois de plus donné le ton. Cette fonction est maintenant intégré dans tous les navigateurs webs. On commence à taper ce que l'on recherche, et un menu propose une fin possible, diminuant au fur et à mesure que l'on tape.
Dissection d'un moteur de recherche (3): l'index inversé et les attributs
Par Mathieu Lecarme le lundi, 21 mai 2007, 19:30
Quand on parle d'indexation, c'est qu'il y a un index. L'astuce de base de la recherche full text, et d'utiliser un index, le même que l'on trouve à la fin d'un livre de recettes de cuisines.
Dissection d'un moteur de recherche (2) : normalisation du contenu
Par Mathieu Lecarme le jeudi, 5 avril 2007, 22:11
Les textes à indexer peuvent provenir de sources différentes, dans des formats différents, et des langues différentes. Il faut commencer par tout homogénéiser avant d'attaquer l'analyse.
Dissection d'un moteur de recherche (1) : l'index
Par Mathieu Lecarme le mercredi, 4 avril 2007, 23:53
Les principes de fonctionnement d'une base de données relationnelle sont à peu près connus, par contre, ceux d'un moteur de recherches sont bien plus nébuleux, avec un côté magique. Pourtant, Google a démontré l'intérêt d'un moteur de recherche, une petite dissection s'impose pour voir ce qu'il y a dans le ventre de la recherche full text.
Moteur de recherche, bis
Par Mathieu Lecarme le mardi, 30 août 2005, 16:26
Faire de la recherche full text, n'est pas trés compliqué, mais il y différents à-cotés tout aussi intéressants. Les filtrages, les suggestions, les pages proches...
moteur de recherche
Par Mathieu Lecarme le mardi, 23 août 2005, 19:12
Empiler des tonnes d'informations, c'est bien, pouvoir les retrouver, c'est encore mieux. Le problèmes existe sur les serveurs, et maintenant sur les ordinateurs aux disques durs garagantuesques.
mnogosearch depuis PHP
Par Mathieu Lecarme le dimanche, 18 avril 2004, 11:11
Aprés la class PHP pour utiliser htdig , puis le decryptage du protocole de mnogosearchd et le client en Python , voici la class PHP pour utiliser mnogosearch, le moteur de recherche russe.
« billets précédents - page 1 de 2

