analyzer 11

1-06-3. Analysis and Analyzers

Analysis is a process that consists of the following:analysis 프로세스는 다음과 같이 구성된다.First, tokenizing a block of text into individual terms suitable for use in an inverted index,먼저, 문장(text)을, inverted index에서 사용하기에 적합한, 개별 단어(term) 로 분리한다.Then normalizing these terms into a standard form to improve their "searchability" or recall그리고, "검색 능력", recall 을 개선하기 위해, 표준 형태로 이들 단어를 정규화한다.This job is perfor..

1-06-4. Mapping

In order to be able to treat date fields as dates, numeric fields as numbers, and string fields as full-text or exact-value strings, Elasticsearch needs to know what type of data each field contains. This information is contained in the mapping.date field를 날짜로, 숫자 field를 숫자로, string field를 full-text나 exact-value 문자열로 처리하기 위해서는, Elasticsearch는 각 field가 가지고 있는 데이터의 type을 알아야 한다. 이 정보는 mapping에 있다...

1-10-04. Configuring Analyzers

The third important index setting is the analysis section, which is used to configure existing analyzers or to create new custom analyzers specific to your index.세 번째로 중요한 index 설정은 analysis 부분이다. 이것은 기존의 analyzer를 설정하거나, index에 지정된 새로운 사용자 정의 analyzer를 생성하는데 사용된다.In Analysis and Analyzers, we introduced some of the built-in analyzers, which are used to convert full-text strings into an inverted..

1-10-05. Custom Analyzers

While Elasticsearch comes with a number of analyzers available out of the box, the real power comes from the ability to create your own custom analyzers by combining character filters, tokenizers, and token filters in a configuration that suits your particular data.Elasticsearch가 수많은 내장 analyzer를 제공하지만, 진정한 힘은 자신의 특별한 데이터에 적합한 설정에서, character filters, tokenizers 그리고 token filters를 조합하여, 자신만의 사용자..

1-10-07. The Root Object

The uppermost level of a mapping is known as the root object. It may contain the following:mapping의 최상위 단계는 root object 로 알려져 있다. 아래와 같은 것을 포함하고 있다.A properties section, which lists the mapping for each field that a document may containdocument가 가지게 될, 각 field의 mapping을 나열하는 properties 부분.Various metadata fields, all of which start with an underscore, such as _type, _id, and _source_type, _id, _..

2-2. Full-Text Search

Now that we have covered the simple case of searching for structured data, it is time to explore full-text search: how to search within full-text fields in order to find the most relevant documents.지금까지 구조화된 데이터를 위한, 간단한 검색을 살펴봤다. 이제 full-text 검색(full-text search) 을 탐험할 시간이다. 가장 적합한 document를 찾기 위해, full-text field를 검색하는 방법을 알아 보자.The two most important aspects of full-text search are as follows..

2-2-7. Controlling Analysis

Queries can find only terms that actually exist in the inverted index, so it is important to ensure that the same analysis process is applied both to the document at index time, and to the query string at search time so that the terms in the query match the terms in the inverted index.query는 inverted index에 실제로 존재하는 단어만을 찾을 수 있다. 따라서 document를 index할할 때 적용되는 프로세스와, 검색 시 query string에 적용되는 프로세스가,..

3-1. Getting Started with Languages

Elasticsearch ships with a collection of language analyzers that provide good, basic, out-of-the-box support for many of the world’s most common languages:Elasticsearch는 세상의 대부분의 공용 언어에 대해, 적절하고 기본적인, 즉시 사용 가능한 language analyzer collection(언어 분석기 모음)을 가지고 있다.Arabic, Armenian, Basque, Brazilian, Bulgarian, Catalan, Chinese, Czech, Danish, Dutch, English, Finnish, French, Galician, German, Greek, ..

3-1-1. Using Language Analyzers

The built-in language analyzers are available globally and don’t need to be configured before being used. They can be specified directly in the field mapping:내장된 language analyzer는 범용적으로 이용할 수 있고, 사용하기 전에 설정할 필요가 없다. field mapping에서 바로 지정할 수 있다.PUT /my_index { "mappings": { "blog": { "properties": { "title": { "type": "string", "analyzer": "english" } } } } }title field는, 기본값인 standard analyzer ..

3-1-2. Configuring Language Analyzers

While the language analyzers can be used out of the box without any configuration, most of them do allow you to control aspects of their behavior, specifically:language analyzer는, 어떤 설정 없이, 즉시 사용할 수 있지만, 대부분은 특별히 작동 방식을 제어할 수 있다.Stem-word exclusionImagine, for instance, that users searching for the "World Health Organization" are instead getting results for "organ health". The reason for this co..