2.X/3. Dealing with Human Language

3-5-7. Stopwords and Relevance

drscg 2017. 9. 24. 12:51

The last topic to cover before moving on from stopwords is that of relevance. Leaving stopwords in your index could make the relevance calculation less accurate, especially if your documents are very long.

불용어를 마치기 전의, 마지막 주제는 relevance를 다루는 것이다. index에 불용어를 남겨두면, 특히 document가 매우 길 경우, relevance 계산이 부정확해질 수 있다.

As we have already discussed in Term-frequency saturation, the reason for this is that term-frequency/inverse document frequency doesn’t impose an upper limit on the impact of term frequency. Very common words may have a low weight because of inverse document frequency but, in long documents, the sheer number of occurrences of stopwords in a single document may lead to their weight being artificially boosted.

Term-frequency saturation에서 이미 언급했지만, 그 이유는 term-frequency/inverse document frequency 단어 빈도의 영향에 상한을 두지 않기 때문이다. 매우 흔한 단어는 IDF 때문에 낮은 비중을 가진다. 하지만, 긴 document에서, 단일 document에 나타나는 불용어의 횟수만으로도, 그들의 비중이 부자연스럽게 강조된다.

You may want to consider using the Okapi BM25 similarity on long fields that include stopwords instead of the default Lucene similarity.

기본인 Lucene similarity 대신에, 불용어를 포함하는 긴 field에 Okapi BM25 similarity의 사용을 고려하자.

'2.X > 3. Dealing with Human Language' 카테고리의 다른 글

3-5-5. Stopwords and Phrase Queries  (0) 2017.09.24
3-5-6. common_grams Token Filter  (0) 2017.09.24
3-6. Synonyms  (0) 2017.09.24
3-6-1. Using Synonyms  (0) 2017.09.24
3-6-2. Formatting Synonyms  (0) 2017.09.24