Indexation chinoise dans Solr

03 juillet 2019

Karan Jeet Singh

2 min de lecture

Certains de nos clients SearchStax indexent des sites web multilingues. On nous a récemment demandé comment activer l'indexation Solr du mandarin sur une plateforme cloud. (Cet article décrit l'indexation.) chinois traditionnel caractères. Il est également possible d'utiliser chinois simplifié en suivant une série d'étapes similaires. Contactez-nous à support@demo.searchstax.com pour un exemple.)

Solr n'analyse pas le texte chinois par défaut, mais il est fourni avec le tokeniseurs inclus. La configuration par défaut du Tokeniseur de soins intensifs Convient aux textes en chinois traditionnel. Il suit les règles de séparation des mots de l'algorithme de segmentation de texte Unicode pour les textes non chinois et utilise un dictionnaire pour segmenter les mots chinois. Pour utiliser ce tokenizer, vous devez ajouter des fichiers .jar supplémentaires au classpath de Solr (comme décrit ci-dessous).

Étape 1 : obtenir les fichiers de configuration.

Pour ajouter l'indexation en chinois traditionnel à votre projet Solr, vous devez modifier les fichiers de configuration de votre projet. Si vous devez télécharger les fichiers d'un projet existant, consultez la section Comment puis-je consulter mes configurations Zookeeper ?

Étape 2. Ajoutez la bibliothèque requise.

Mise à jour solrconfig.xml fichier en ajoutant la ligne suivante après toutes les déclarations lib.

				
					<!-- Bibliothèque chinoise traditionnelle --> <lib dir="${solr.install.dir:../../../..}/contrib/analysis-extras/lucene-libs" regex="lucene-analyzers-icu-\d.*\.jar" /> <lib dir="${solr.install.dir:../../../..}/contrib/analysis-extras/lib" regex="icu4j-\d.*\.jar" /> <!-- Bibliothèque chinoise traditionnelle - FIN -->

Cette bibliothèque est fournie avec Solr, vous n'avez donc pas besoin de modifier votre déploiement de quelque manière que ce soit pour le faire fonctionner.

Étape 3. Mettre à jour le schéma

A. Créez un nouveau type de champ dans le schéma géré fichier avec SmartChineseAnalyzer.

B. Créez un champ qui utilise ce type de champ.

Étape 4 : télécharger la configuration et recharger la collection

Téléchargez la configuration modifiée sur votre serveur cloud SearchStax et rechargez votre collection. Voir Comment mettre à jour le schéma Solr ? pour des instructions étape par étape.

Indexation chinoise dans Solr

Étape 1 : obtenir les fichiers de configuration.

Étape 2. Ajoutez la bibliothèque requise.

Étape 3. Mettre à jour le schéma

Étape 4 : télécharger la configuration et recharger la collection

Par Karan Jeet Singh

Ingénieur en solutions

« Cela montre clairement que le marketing doit s'approprier pleinement l'expérience numérique - à partir du moment où un étudiant atterrit sur le site Web pour explorer et se renseigner sur les offres jusqu'à la collecte de sa toge et de sa casquette. »

Recevez notre newsletter

Vous aimerez peut-être aussi :

Produits

Tarification

Ressources

Services

Ressources

Tarification

Entreprise