2.X/3. Dealing with Human Language

3-2-3. Installing the ICU Plug-in

drscg 2017. 9. 24. 17:33

The ICU analysis plug-in for Elasticsearch uses the International Components for Unicode (ICU) libraries (see site.project.org) to provide a rich set of tools for dealing with Unicode. These include the icu_tokenizer, which is particularly useful for Asian languages, and a number of token filters that are essential for correct matching and sorting in all languages other than English.

Elasticsearch를 위한 ICU analysis plug-in은, unicode를 다루기 위한 도구 집합을 제공하기 위해, International Components for Unicode (ICU) library(site.project.org 참조)를 사용한다. 이들은, 특히 아시아 언어에 유용한 icu_tokenizer 와, 영어 이외의 모든 언어를 올바르게 일치시키고 정렬하기 위한, 기본적인 다수의 token filter를 포함한다.

Note

The ICU plug-in is an essential tool for dealing with languages other than English, and it is highly recommended that you install and use it. Unfortunately, because it is based on the external ICU libraries, different versions of the ICU plug-in may not be compatible with previous versions. When upgrading, you may need to reindex your data.

ICU plug-in은 영어 이외의 언어를 다루기 위한 기본적인 도구이다. 그리고 그것을 설치해서 사용하기를 강력히 추천한다. 불행하게도, 외부 ICU library를 기반으로 하기 때문에, ICU plug-in의 다른 버전은 이전 버전과 호환되지 않는다. 업그레이드 시에는 데이터를 다시 색인 해야 할 수도 있다.

To install the plug-in, first shut down your Elasticsearch node and then run the following command from the Elasticsearch home directory:

plug-in을 설치하기 위해, 먼저 Elasticsearch node를 중지하고, Elasticsearch home directory에서 다음 명령을 실행하자.

./bin/plugin -install elasticsearch/elasticsearch-analysis-icu/$VERSION 

현재 $VERSION 은 https://github.com/elasticsearch/elasticsearch-analysis-icu 에서 찾을 수 있다.

Once installed, restart Elasticsearch, and you should see a line similar to the following in the startup logs:

설치가 되었으면, Elasticsearch를 다시 시작하자. 그러면, 로그의 시작부분에서 다음과 유사한 라인을 볼 수 있을 것이다.

[INFO][plugins] [Mysterio] loaded [marvel, analysis-icu], sites [marvel]

If you are running a cluster with multiple nodes, you will need to install the plug-in on every node in the cluster.

다수의 node에서 cluster를 운영하고 있다면, plug-in을 cluster의 모든 node에 설치해야 한다.

'2.X > 3. Dealing with Human Language' 카테고리의 다른 글

3-2-1. standard Analyzer  (0) 2017.09.24
3-2-2. standard Tokenizer  (0) 2017.09.24
3-2-4. icu_tokenizer  (0) 2017.09.24
3-2-5. Tidying Up Input Text  (0) 2017.09.24
3-3. Normalizing Tokens  (0) 2017.09.24