2.X/3. Dealing with Human Language

3-3. Normalizing Tokens

drscg 2017. 9. 24. 17:26

Breaking text into tokens is only half the job. To make those tokens more easily searchable, they need to go through a normalization process to remove insignificant differences between otherwise identical words, such as uppercase versus lowercase. Perhaps we also need to remove significant differences, to make estaésta, and está all searchable as the same word. Would you search for déjà vu, or just for deja vu?

문장(text)을 token으로 나누는 것은 전체 작업의 절반 정도일 뿐이다. 그 token을 더 쉽게 검색할 수 있도록 하기 위해, 대문자와 소문자처럼, 동일한 단어 사이의 사소한 차이점을 제거하기 위하여, 어떤 정규화(normalization) 프로세스를 거쳐야 한다. estaésta, 그리고 está 모두를 동일한 단어로 검색 가능하도록 만들기 위해, 의미 있는 차이점도 제거해야 한다. déjà vu 를 검색할 것인가? 아니면, 단순하게 deja vu를 검색할 것인가?

This is the job of the token filters, which receive a stream of tokens from the tokenizer. You can have multiple token filters, each doing its particular job. Each receives the new token stream as output by the token filter before it.

이것이 token filter의 역할이다. token filter는 tokenizer에서 나온 token stream을 받는다. 다수의 token filter를 가질 수 있고, 각각은 자신의 독특한 역할을 수행한다. 각각의 token filter는 직전 token filter에 의해 출력된 새로운 token stream을 받는다.

'2.X > 3. Dealing with Human Language' 카테고리의 다른 글

3-2-4. icu_tokenizer  (0) 2017.09.24
3-2-5. Tidying Up Input Text  (0) 2017.09.24
3-3-1. In That Case  (0) 2017.09.24
3-3-2. You Have an Accent  (0) 2017.09.24
3-3-3. Living in a Unicode World  (0) 2017.09.24