2.X/3. Dealing with Human Language

3-6-2. Formatting Synonyms

drscg 2017. 9. 24. 12:46

In their simplest form, synonyms are listed as comma-separated values:

가장 단순한 형태로, 동의어는, 다음과 같이, comma로 구분된 값으로 나열된다.

"jump,leap,hop"

If any of these terms is encountered, it is replaced by all of the listed synonyms. For instance:

이들 단어 중 하나를 만나면, 그것은 나열된 동의어 모두로 대체된다. 예를 들자면,

Original terms:   Replaced by:
────────────────────────────────
jump             (jump,leap,hop)
leap             (jump,leap,hop)
hop              (jump,leap,hop)

Alternatively, with the => syntax, it is possible to specify a list of terms to match (on the left side), and a list of one or more replacements (on the right side):

=> 문법으로 대신하여, 왼쪽에 일치할 단어의 목록을 지정하고, 오른쪽에 하나 이상의 대체 단어 목록을 지정하는 것이 가능하다.

"u s a,united states,united states of america => usa"
"g b,gb,great britain => britain,england,scotland,wales"
Original terms:   Replaced by:
────────────────────────────────
u s a            (usa)
united states    (usa)
great britain    (britain,england,scotland,wales)

If multiple rules for the same synonyms are specified, they are merged together. The order of rules is not respected. Instead, the longest matching rule wins. Take the following rules as an example:

동일한 동의어에 대해 여러 가지 규칙이 지정되면, 그들 모두는 병합된다. 규칙의 순서는 관계없다. 다만, 일치하는 규칙 중 가장 긴 것이 적용된다. 예를 들어 다음과 같은 규칙을 보자.

"united states            => usa",
"united states of america => usa"

If these rules conflicted, Elasticsearch would turn United States of America into the terms (usa),(of),(america). Instead, the longest sequence wins, and we end up with just the term (usa).

이들 규칙이 충돌하면, Elasticsearch는 United States of America 를 (usa),(of),(america) 라는 단어로 바꾼다. 가장 긴 것이 적용되어, 결국 단어 (usa) 가 된다.

'2.X > 3. Dealing with Human Language' 카테고리의 다른 글

3-6. Synonyms  (0) 2017.09.24
3-6-1. Using Synonyms  (0) 2017.09.24
3-6-3. Expand or contract  (0) 2017.09.24
3-6-4. Synonyms and The Analysis Chain  (0) 2017.09.24
3-6-5. Multiword Synonyms and Phrase Queries  (0) 2017.09.24