2.X/3. Dealing with Human Language

3-6. Synonyms

drscg 2017. 9. 24. 12:49

While stemming helps to broaden the scope of search by simplifying inflected words to their root form, synonyms broaden the scope by relating concepts and ideas. Perhaps no documents match a query for "English queen", but documents that contain "British monarch" would probably be considered a good match.

형태소 분석은 굴절된 단어를 원형으로 단순화하여, 검색의 범위를 확장하는데 도움이 되는 반면에, 동의어는, 개념과 뜻을 관련시켜, 범위를 확대한다. "English queen" 에 대한 검색은 일치하는 document가 없을지도 모르지만, "British monarch" 를 포함하는 document는 아마도 잘 일치하는 것으로 간주될 것이다.

A user might search for "the US" and expect to find documents that contain United StatesUSAU.S.A.America, or the States. However, they wouldn’t expect to see results about the states of matter or state machines.

사용자가 "the US" 를 검색하면, United StatesUSAU.S.A.America 또는 the States 를 포함하는 document를 발견하기를 기대할 것이다. 그러나 the states of matter 또는 state machines 라는 결과를 보기를 기대하지는 않을 것이다.

This example provides a valuable lesson. It demonstrates how simple it is for a human to distinguish between separate concepts, and how tricky it can be for mere machines. The natural tendency is to try to provide synonyms for every word in the language, to ensure that any document is findable with even the most remotely related terms.

이 예제는 귀중한 교훈을 제공한다. 사람이 개별 개념을 구분하는 것이 얼마나 간단한 지와, 단순한 기계에게 그것이 얼마나 까다로울 수 있는지를 설명한다. 언어에서 모든 단어에 대해 동의어를 제공하거나, 아주 약간이라도 연관되어 있는 단어로, 어떤 document라도 발견할 수 있다는 것이, 자연스러운 추세이다.

This is a mistake. In the same way that we prefer light or minimal stemming to aggressive stemming, synonyms should be used only where necessary. Users understand why their results are limited to the words in their search query. They are less understanding when their results seems almost random.

이것은 실수다. 적극적인 형태소 분석보다는 덜 혹은 최소한의 형태소 분석을 선호하는 것과 마찬가지로, 동의어는 필요한 곳에만 사용되어야 한다. 사용자들은, 자신의 검색 query에서, 그들의 결과가 왜 그 단어로 제한되었는지 이해한다. 그들은 결과가 거의 무작위로 보이는 경우 이해하지 못한다.

Synonyms can be used to conflate words that have pretty much the same meaning, such as jumpleap, and hop, or pamphletleaflet, and brochure. Alternatively, they can be used to make a word more generic. For instance, bird could be used as a more general synonym for owl or pigeon, and adult could be used for man or woman.

동의어는 jumpleap 그리고 hop 또는 pamphletleaflet 그리고 brochure 같은, 거의 동일한 의미를 가진 단어를 혼합하는데 사용될 수 있다. 또는 단어를 더 일반적으로 만드는데 사용된다. 예를 들면, bird(새)는 owl(부엉이)pigeon(비둘기) 에 대한 더 일반적인 동의어로 사용될 수 있다. 그리고, adult(성인) 는 man(남자) 이나 woman(여자) 대신 사용될 수 있다.

Synonyms appear to be a simple concept but they are quite tricky to get right. In this chapter, we explain the mechanics of using synonyms and discuss the limitations and gotchas.

동의어는 간단한 개념으로 보이지만, 정확하게 하기에는 매우 까다롭다. 이번 장에서는, 동의어 사용의 개념을 설명하고, 한계와 문제점에 대해 이야기할 것이다.

Tip

Synonyms are used to broaden the scope of what is considered a matching document. Just as with stemming or partial matching, synonym fields should not be used alone but should be combined with a query on a main field that contains the original text in unadulterated form. See Most Fields for an explanation of how to maintain relevance when using synonyms.

동의어는 일치하는 document로 간주되는 범위를 확장하는데 사용된다. 형태소 분석과 부분 일치와 마찬가지로, 동의어 field는 단독으로 사용되지는 않는다. 그러나, 완전한 형태로, 원래의 텍스트를 포함하는 주 field에 대한 query와 결합되어야 한다. 동의어를 사용하는 경우, relevance를 유지하는 방법에 대한 설명은 Most Fields를 참고하자.


'2.X > 3. Dealing with Human Language' 카테고리의 다른 글

3-5-6. common_grams Token Filter  (0) 2017.09.24
3-5-7. Stopwords and Relevance  (0) 2017.09.24
3-6-1. Using Synonyms  (0) 2017.09.24
3-6-2. Formatting Synonyms  (0) 2017.09.24
3-6-3. Expand or contract  (0) 2017.09.24