fix: Set default tokenizer language to actual language parameter. #71

Peaverin · 2022-11-09T23:47:22Z

Currently, the default tokenizer (nltk.tokenize.sent_tokenize) is not using the language set in the constructor, but the default language as set in nltk.tokenize.sent_tokenize method, which is english (see https://www.nltk.org/api/nltk.tokenize.html#nltk.tokenize.sent_tokenize).
This is a simple fix that sets the default tokenizer as the nlkt tokenize function but changing the default language parameter to the one set by the user in Rake constructor.

Note that the word tokenizer does not need the change as nltk.tokenize.wordpunct_tokenize is language agnostic.

fix: Set default tokenizer language to actual language parameter.

1dbba83

Peaverin changed the title ~~fix: Set default tokenizers language to actual language parameter.~~ fix: Set default tokenizer language to actual language parameter. Nov 9, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix: Set default tokenizer language to actual language parameter. #71

fix: Set default tokenizer language to actual language parameter. #71

Peaverin commented Nov 9, 2022 •

edited

Loading

fix: Set default tokenizer language to actual language parameter. #71

Are you sure you want to change the base?

fix: Set default tokenizer language to actual language parameter. #71

Conversation

Peaverin commented Nov 9, 2022 • edited Loading

Peaverin commented Nov 9, 2022 •

edited

Loading