Standard 7

1-06-3. Analysis and Analyzers

Analysis is a process that consists of the following:analysis 프로세스는 다음과 같이 구성된다.First, tokenizing a block of text into individual terms suitable for use in an inverted index,먼저, 문장(text)을, inverted index에서 사용하기에 적합한, 개별 단어(term) 로 분리한다.Then normalizing these terms into a standard form to improve their "searchability" or recall그리고, "검색 능력", recall 을 개선하기 위해, 표준 형태로 이들 단어를 정규화한다.This job is perfor..

1-10-04. Configuring Analyzers

The third important index setting is the analysis section, which is used to configure existing analyzers or to create new custom analyzers specific to your index.세 번째로 중요한 index 설정은 analysis 부분이다. 이것은 기존의 analyzer를 설정하거나, index에 지정된 새로운 사용자 정의 analyzer를 생성하는데 사용된다.In Analysis and Analyzers, we introduced some of the built-in analyzers, which are used to convert full-text strings into an inverted..

1-10-05. Custom Analyzers

While Elasticsearch comes with a number of analyzers available out of the box, the real power comes from the ability to create your own custom analyzers by combining character filters, tokenizers, and token filters in a configuration that suits your particular data.Elasticsearch가 수많은 내장 analyzer를 제공하지만, 진정한 힘은 자신의 특별한 데이터에 적합한 설정에서, character filters, tokenizers 그리고 token filters를 조합하여, 자신만의 사용자..

3-2-1. standard Analyzer

The standard analyzer is used by default for any full-text analyzed string field. If we were to reimplement the standard analyzer as a custom analyzer, it would be defined as follows:standard analyzer는 모든 full-text analyzed string field에 대해 기본적으로 사용된다. standard analyzer를 사용자 정의(custom) analyzer로 다시 구현한다면, 아래와 같이 정의된다.{ "type": "custom", "tokenizer": "standard", "filter": [ "lowercase", "stop" ] ..

3-2-2. standard Tokenizer

A tokenizer accepts a string as input, processes the string to break it into individual words, or tokens(perhaps discarding some characters like punctuation), and emits a token stream as output.tokenizer 는 입력으로 string을 받고, string을 개별 단어나 token 으로 나누고(아마도, 문장 부호 같은 몇 가지 문자는 버린다), token stream 을 출력한다.What is interesting is the algorithm that is used to identify words. The whitespace tokenizer simp..

3-2-5. Tidying Up Input Text

Tokenizers produce the best results when the input text is clean, valid text, where valid means that it follows the punctuation rules that the Unicode algorithm expects. Quite often, though, the text we need to process is anything but clean. Cleaning it up before tokenization improves the quality of the output.tokenizer는 입력 문장(text)이 깔끔할 경우 최고의 결과를 만들어 낸다. 유효한 곳에 유효한 문장(valid text, where valid)이..