Introduction à ElasticSearch

ElasticSearch est un moteur de recherche open source développé en java. Il est basé sur la librairie Apache Lucene. Cette dernière étant assez difficile à mettre en oeuvre, ElasticSearch facilite l'utilisation de Lucene en intégrant la librairie dans une application Java modulaire, facilement configurable et capable de fonctionner en cluster.
Il suffit de quelques minutes à peine pour disposer d'un moteur de recherche clusterisé, automatiquement sauvegardé et répliqué, interrogeable via une API REST et proposant toutes les fonctionnalités d'un moteur de recherche dernière génération.

La configuration se fait très simplement, et permet de répartir automatiquement le volume des données indexées et la charge d'utilisation sur l'ensemble des machines appartenant au cluster (ici, un cluster n'est pas un ensemble de serveur, mais un ensemble de nœuds). Pour absorber plus de données ou plus de charge, il suffira d'ajouter de nouvelles machines au cluster.

Les principales fonctionnalités d'ElasticSearch
Nous avons droit à toutes les fonctionnalités d'un moteur de recherche nouvelle génération :
- les recherches par mots clés façon Google
- les recherches par combinaison de critères et de filtres
- le tri et la pagination des résultats
- la gestion des synonymes
- l'extraction de texte à partir de documents binaires (photo, pdf...)
- l'analyse et la navigation par facettes (c'est-à-dire permettre d’effectuer une recherche en fonction de multiples critères)

Système de plugins
ElasticSearch permet aussi d'ajouter facilement de nouvelles fonctionnalités au moteur de recherche grâce à des plugins.
On peut ajouter par exemple:
- des analyseurs syntaxiques
- des interfaces d'administrations
- des plugins qui permettent d'indexer différentes sources de données (bases de données relationnelles, NoSQL, annuaire LDAP, système de fichiers, flux RSS etc).

API REST
ElasticSearch dispose d'une API REST très complète permettant d'utiliser le moteur de recherche avec de simples requêtes HTTP/JSON. REST qui fournit une interface à toutes les manipulations que l’on peut faire sur Elasticsearch.

Cluster et node
Un node est une instance d'un serveur ElasticSearch. Lorsqu'on a un gros volume de données à gérer, ou penser à la tolérance de pannes, on utilise une configuration multi-nodes.
Un cluster est un ensemble de plusieurs nodes qui travaillent ensemble. Cette solution permet de gérer des grosse charges, d'avoir un travail ininterrompu dans le cas où un noeud devient inaccessible.




Aucun commentaire:

Enregistrer un commentaire