What is Solr?

22 novembre 2024

Kevin Montgomery

9 min de lecture

Solr est l'une des principales plateformes de recherche pour les sites Web, les entreprises et plus encore, mais Solr est plus qu'un simple moteur de recherche de base.

Qu'est-ce que Solr ?

Apache Solr est une plateforme de recherche open source. Elle offre une recherche plein texte et une indexation en temps réel pour de grands volumes de contenu. Solr offre également des requêtes, des filtres et des facettes de recherche puissants et personnalisables, ainsi qu'une évolutivité robuste et une prise en charge du calcul distribué.

Solr peut être utilisé comme moteur de recherche autonome pour la recherche de sites Web, de contenu et de mots clés et intégré dans des applications de recherche et de traitement de données plus vastes via diverses API et méthodes de déploiement.

Qui est Apache ?

Le Fondation Apache Software est une organisation à but non lucratif qui assure le support et la maintenance de divers logiciels et plateformes open source, dont Solr. Apache et les mainteneurs bénévoles de Solr acceptent les contributions de la communauté open source pour les nouvelles fonctionnalités, les corrections de bugs, les mises à jour de sécurité et autres améliorations de la plateforme. Apache maintient, héberge et distribue Solr et met la plateforme de recherche à disposition sous la licence Apache v2.0.

Qu'est-ce que Lucene ?

Lucene est une bibliothèque de moteur de recherche open source gérée par Apache. Lucene est un moteur de recherche fondamental qui inclut des fonctionnalités d'indexation de contenu et de recherche.

Les plateformes de recherche comme Solr s'appuient sur Lucene et étendent les fonctionnalités principales d'indexation et de recherche. Elles ajoutent également des fonctionnalités supplémentaires telles que le facettage, le filtrage, la recherche géospatiale et l'analyse. Solr inclut également de puissantes API, des fonctionnalités de réplication de données, la mise en cache et des interfaces d'administration pour la gestion, la mise à l'échelle et le déploiement des fonctionnalités de recherche Solr.

Lucene, Solr et Elasticsearch

Le moteur de recherche Lucene est utilisé par plusieurs plateformes de recherche, notamment Solr, Elasticsearch, OpenSearch et autres. Chaque plateforme ajoute des fonctionnalités et un support différents au moteur de recherche Lucene.

Chargement..........

Les données ne sont pas disponibles

Solr vs. bases de données relationnelles

Solr a été conçu avant tout comme un moteur de recherche. De nombreuses méthodes d'interrogation, l'indexation des données et l'infrastructure sous-jacente sont donc conçues pour prendre en charge la recherche par mots-clés dans divers contenus textuels. Les bases de données relationnelles, quant à elles, sont optimisées pour interroger les champs d'un schéma de base de données fixe, joindre des ensembles de données disparates et mettre à jour rapidement des enregistrements spécifiques.

Les organisations devront déterminer si et quand utiliser Solr ou un système de base de données relationnelle. Souvent, elles utiliseront les deux ensemble. Le choix dépend de leur infrastructure et de leurs besoins système. De nombreux systèmes de gestion de contenu, tels que Sitecore et Drupal, utilisez Solr pour la fonctionnalité de recherche et les bases de données relationnelles pour les fonctionnalités principales du CMS et le stockage d'état.

La gestion de l'infrastructure nécessaire à la prise en charge des bases de données relationnelles ou de Solr peut constituer un autre défi lors de la planification des systèmes de stockage et d'interrogation des données. Les organisations peuvent choisir d'exploiter leur infrastructure de stockage de données en interne ou de faire appel à un fournisseur de bases de données ou de recherche géré pour l'héberger.

Comment fonctionne Solr ?

Comme la plupart des plateformes de recherche, Solr crée un index de documents à rechercher. Cet index est constitué de contenus sources tels que des sites web, des PDF et des documents Word. Les utilisateurs peuvent y rechercher des documents correspondant à des mots-clés, des filtres ou d'autres paramètres de recherche spécifiques. Solr classe ensuite ces documents en fonction de leur pertinence par rapport à la requête et affiche une liste complète de résultats.

Voyons comment fonctionne chacune de ces étapes.

1. Indexation du contenu

Solr peut indexer et rechercher du contenu provenant de diverses sources, notamment des formats structurés et non structurés comme des sites web, des textes longs, des ensembles de données variés, etc.

Tout d'abord, le contenu est envoyé à l'API Solr. Solr le traite ensuite en mots-clés, expressions et autres types de données, tels que des adresses e-mail et des numéros de téléphone. Solr attribue un « jeton » à chaque mot-clé, expression ou donnée et stocke ces jetons dans l'index de recherche afin de déterminer quel document contient ces différents jetons.

2. Interrogation, recherche et découverte de documents pertinents

Une fois que Solr a traité tout le contenu et créé un index de recherche, nous pouvons commencer à interroger et à rechercher des documents. Solr utilise la recherche lexicale par mots-clés pour trouver les documents correspondants. Pour ce faire, il traite une requête en mots-clés, expressions et autres éléments. Solr analyse l'index de recherche à la recherche de correspondances exactes et « suffisamment proches » et crée une liste de résultats incluant tous les documents correspondants.

3. Filtrage des résultats de recherche

Solr intègre des fonctions de facettage et de filtrage puissantes et personnalisables pour affiner les résultats de recherche en fonction de la requête de l'utilisateur. Les requêtes Solr peuvent inclure une logique de filtrage complexe et des fonctions permettant d'effectuer des calculs et des transformations sur des champs existants. Les résultats sont ensuite filtrés en fonction de ces résultats. Le filtrage et le facettage sont des outils de recherche puissants, utiles aux utilisateurs finaux et aux consommateurs de données, comme génération augmentée de récupération (RAG) Recherche. Ces fonctionnalités facilitent la recherche de données pertinentes dans des documents et des ensembles de données volumineux. Elles facilitent également la journalisation et la informatique, ainsi que traitement géospatial.

4. Quels documents sont les plus pertinents ?

Enfin, Solr classe les résultats de recherche selon des modèles de pertinence. Ces modèles déterminent la pertinence d'un résultat de recherche, d'un champ ou d'un type de correspondance spécifique par rapport à la requête d'un utilisateur. La pertinence de la recherche mesure généralement la qualité de la recherche. Cependant, elle est très subjective et dépend de l'intention de l'utilisateur et du contenu source. Les utilisateurs jugent les résultats de recherche plus pertinents lorsqu'ils incluent du contenu qui répond directement à leur requête ou qui s'y rapporte.

Solr inclut de robustes options de modélisation de la pertinence permettant d'optimiser ou de déprioriser des résultats de recherche spécifiques en fonction de champs spécifiques, du format du contenu, des filtres de recherche, etc. Solr inclut également Module d'apprentissage automatique « Apprendre à classer » qui peut reclasser les résultats avant qu'ils ne soient envoyés à l'utilisateur afin que les résultats les plus pertinents soient affichés en premier.

5. Personnalisation de Solr

Solr est facile à prendre en main et fonctionne efficacement dès sa sortie d'usine. Il peut être personnalisé et adapté pour des recherches plus précises, une indexation de contenu diversifiée, ainsi que des workflows d'apprentissage automatique et d'IA.

Personnaliser Solr pour l'adapter à votre contenu et à vos données spécifiques peut améliorer la pertinence et les résultats de recherche. Cela permet aux utilisateurs de trouver rapidement des réponses à leurs questions et d'accroître leur engagement. D'autres personnalisations incluent l'intégration de sources tierces avec des contenus et des données publics et privés. Cela permet une navigation sécurisée et recherches conformes.

Que puis-je construire avec Solr ?

Solr est généralement utilisé comme plateforme de recherche textuelle à grande échelle, mais il peut également être intégré à des produits, des piles technologiques et des workflows de traitement de données plus importants. Les API Solr, combinées à Zookeeper et à d'autres méthodologies d'orchestration, permettent une prise en charge, un déploiement, une isolation et une gestion DevOps complets au sein de votre écosystème cloud ou serveur existant.

Recherche de site Web
Solr excelle dans les applications de recherche de sites Web avec les services Web et les API inclus, ainsi que de nombreuses intégrations tierces pour les CMS populaires tels que Sitecore et Drupal

Catalogues de produits et commerce électronique
Solr peut gérer de grands volumes de données de catalogues produits, notamment leurs descriptions, leur localisation géographique et leurs attributs. Les sites web, les systèmes de point de vente et les plateformes de gestion des stocks peuvent s'intégrer à Solr pour garantir la mise à jour constante des informations produit.

Recherche de connaissances d'entreprise
Solr s'adapte facilement à la recherche interne dans les bases de connaissances. Il s'intègre en toute sécurité aux systèmes de stockage de documents, aux plateformes de gestion des ressources numériques et à d'autres sources de données à accès contrôlé, tout en utilisant l'authentification unique (SSO) et d'autres méthodes d'authentification.
Analyse, recherche et traitement de données
Les fonctionnalités de Solr peuvent également être intégrées à des workflows de traitement de données plus volumineux. Solr peut être utilisé pour indexer de grands volumes de contenu web, de transcriptions, de documentation d'assistance, d'historique client, etc.

Comment puis-je utiliser Solr efficacement ?

Une fois implémenté, Solr offre flexibilité, personnalisation et résilience de niveau production pour la recherche distribuée à grande échelle et en volume. Open source, Solr est extrêmement facile à exécuter localement et à développer immédiatement, tout en permettant un déploiement sur un large éventail de serveurs, de plateformes et de fournisseurs cloud.

Personnalisation de Solr

Solr fonctionne généralement bien « prêt à l'emploi », mais de nombreuses fonctionnalités et fonctions de Solr peuvent être personnalisées et configurées selon les besoins.

Voici quelques exemples de personnalisation de Solr :

Ingestion de contenu personnalisé pour les formats de documents complexes tels que les formats PDF et Microsoft Office
Traitement d'images et de vidéos pour extraire des fonctionnalités, des balises, des entités et d'autres informations visuelles
Empreintes acoustiques et transcription pour pistes audio, musique, podcasts et autres enregistrements sonores
Traitement du langage naturel
Recherche vectorielle pour la compréhension et la découverte sémantiques

API et intégration

Solr comprend une variété de points de terminaison API pour les fonctionnalités de base telles que l'indexation du contenu et l'interrogation des résultats de recherche, ainsi que des opérations plus avancées pour gérer le fonctionnement de Solr et les environnements et infrastructures Solr sous-jacents.

Hébergement DIY ou hébergement géré

Solr peut fonctionner sur une large gamme de plateformes et de matériels, notamment un environnement d'exécution Java (JRE) ou une machine virtuelle Java (VM). Solr peut être déployé sur un hôte unique avec une ou plusieurs instances ou nœuds, et sur plusieurs hôtes dans différentes régions ou centres de données.

L'infrastructure Solr peut être gérée en interne, notamment avec du matériel sur site, des serveurs et des centres de données colocalisés comme Hetzner, ou sur des plateformes cloud comme Amazon Web Services, Google Cloud Platform et Microsoft Azure. D'autres options incluent des plateformes d'hébergement géré qui fournissent des environnements Solr complets aux clients tout en gérant la scalabilité, la gestion de l'infrastructure et le support.

Nœuds, clusters et multirégions

Solr est conçu pour évoluer sur des serveurs uniques, ainsi que sur plusieurs serveurs et centres de données. Solr peut s'exécuter sur une instance ou un nœud individuel, et plusieurs nœuds peuvent être combinés en un seul cluster pour une disponibilité, une disponibilité et une persistance des données améliorées. La distribution de Solr sur plusieurs serveurs et centres de données permet de réduire la latence et les temps de réponse, et de fournir des sauvegardes et des basculements pour une haute disponibilité.

Nœud Solr unique

Cluster Solr avec gestion Zookeeper

Solr multirégional

Collections, éclats et répliques

Une collection est un index de tous les contenus et données de documents indexés par Solr. À mesure que les collections grandissent, il peut être nécessaire de les diviser en fragments plus petits. Ces fragments sont des segments individuels de la collection, répartis sur plusieurs nœuds ou clusters, pour accélérer la recherche, l'indexation et la mise à jour d'une très grande collection de documents.

Les répliques sont des copies de la collection ou de fragments individuels, répartis sur différents nœuds, clusters et centres de données. Solr met à jour les différentes répliques selon les besoins lorsqu'un document est ajouté, modifié ou supprimé de la collection.

Les répliques et les fragments peuvent ajouter une certaine complexité à une instance Solr, mais peuvent fournir une recherche et une mise à jour plus rapides, minimiser la perte de données lorsqu'un nœud ou un cluster tombe en panne et aider à évoluer horizontalement à mesure que le volume de recherche augmente.

Gestion de l'infrastructure Solr

Solr bénéficie d'un soutien et d'une stabilité solides de la part de la communauté open source. Cependant, ses performances peuvent être affectées si l'infrastructure sous-jacente n'est pas correctement configurée ou gérée. Problèmes de validation, pannes de mémoire, et des caches mal configurés peuvent avoir un impact sur les performances de Solr, les problèmes de réseau cloud, les instances sous-provisionnées et les problèmes de concurrence des données peuvent entraîner des temps d'arrêt, des pannes et des performances plus lentes.

Versions, mises à jour et sécurité

Solr est toujours en développement et de nouvelles fonctionnalités, un support, des correctifs et des mises à jour de performances sont ajoutés régulièrement. Le déploiement de Solr en production nécessite généralement une maintenance supplémentaire pour garantir la mise à jour de Solr et des services sous-jacents.

Comment commencer à utiliser Solr

Solr est une plateforme flexible qui s'exécute dans divers environnements. Vous pouvez la personnaliser et l'étendre selon vos besoins pour l'adapter à une grande variété de types de contenu, de plans de déploiement et d'expériences de recherche. Compte tenu de sa vaste gamme de fonctionnalités, Solr peut être difficile à prendre en main, mais la communauté et l'écosystème de développement de Solr peuvent aider les organisations à planifier, développer et optimiser Solr pour une recherche engageante.

Infrastructure Solr

Solr peut fonctionner sur tout système d'exploitation incluant un environnement d'exécution Java. Solr fonctionne généralement comme un service web autonome sur une instance dédiée dans les environnements de production. Les instances Solr doivent être dimensionnées et provisionnées de manière appropriée pour gérer la quantité attendue de documents et le volume de recherches entrantes.

Gestion Solr

Solr inclut des fonctionnalités de reporting et d'administration de base permettant de surveiller le volume de recherche, l'utilisation du processeur et de la mémoire, la latence des réponses, etc. Ces indicateurs de base peuvent indiquer lorsqu'une instance Solr connaît une forte augmentation du volume et nécessite des ressources supplémentaires pour maintenir une expérience de recherche efficace.

La stabilité de Solr repose également sur les configurations sous-jacentes du serveur et du réseau ainsi que sur des étapes proactives telles que la configuration des processus de sauvegarde et de restauration, la configuration de Zookeeper et la fourniture d'options de reprise après sinistre pour une haute disponibilité et une perte de données réduite.

Recherche gérée par SearchStax

Recherche gérée par SeachStax est un service Solr hébergé qui simplifie la création et la mise à l'échelle d'expériences de recherche Solr sans se soucier de l'infrastructure et de la gestion de Solr. SearchStax gère l'infrastructure afin que vous puissiez développer facilement l'expérience de recherche Solr sans les soucis de maintenance.

Commencer aujourd'hui avec notre essai gratuit de 14 jours Découvrez la rapidité avec laquelle vous pouvez commencer à utiliser Solr. Les instances de recherche gérée peuvent être déployées chez la plupart des principaux fournisseurs de cloud et dans toutes les régions, garantissant ainsi un service hautes performances, quel que soit l'emplacement de vos utilisateurs et de vos données.

Qu'est-ce que Solr ?

Qu'est-ce que Solr ?

Qui est Apache ?

Qu'est-ce que Lucene ?

Lucene, Solr et Elasticsearch

Solr vs. bases de données relationnelles

Comment fonctionne Solr ?

1. Indexation du contenu

2. Interrogation, recherche et découverte de documents pertinents

3. Filtrage des résultats de recherche

4. Quels documents sont les plus pertinents ?

5. Personnalisation de Solr

Que puis-je construire avec Solr ?

Comment puis-je utiliser Solr efficacement ?

Personnalisation de Solr

API et intégration

Hébergement DIY ou hébergement géré

Nœuds, clusters et multirégions

Nœud Solr unique

Cluster Solr avec gestion Zookeeper

Solr multirégional

Collections, éclats et répliques

Gestion de l'infrastructure Solr

Versions, mises à jour et sécurité

Comment commencer à utiliser Solr

Infrastructure Solr

Gestion Solr

Recherche gérée par SearchStax

Par Kevin Montgomery

Ingénieur marketing produit

« Solr peut être difficile à utiliser, mais il offre flexibilité, personnalisation et résilience au niveau de la production pour la recherche distribuée à grande échelle et à volume élevé. »

Recevez notre newsletter

Vous aimerez peut-être aussi :

Produits

Tarification

Ressources

Services

Ressources

Tarification

Entreprise