Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

你好。我想问下familia在输入文本预测主题时的分词是直接采用vocab.txt的词表进行匹配分词的吗 #107

Open
poppybrown opened this issue Jul 28, 2020 · 2 comments

Comments

@poppybrown
Copy link

No description provided.

@DesmonDay
Copy link
Collaborator

是的。在C++版本的代码中,我们使用简单的最大前向匹配进行分词,直接按照vocab.txt中的词典进行匹配。

另外,PaddleHub 1.8版本上线了LDA模型的使用,使用起来很简单,具体可见:https://www.paddlepaddle.org.cn/hublist?filter=en_category&value=SemanticModel

PaddleHub中的分词使用自带的LAC分词器分词后,再与词典进行匹配。

@poppybrown
Copy link
Author

是的。在C++版本的代码中,我们使用简单的最大前向匹配进行分词,直接按照vocab.txt中的词典进行匹配。

另外,PaddleHub 1.8版本上线了LDA模型的使用,使用起来很简单,具体可见:https://www.paddlepaddle.org.cn/hublist?filter=en_category&value=SemanticModel

PaddleHub中的分词使用自带的LAC分词器分词后,再与词典进行匹配。

你好,那这样子其实用lda做关键词提取时,对于lac分完的词如果没有出现在词表里,是不是也无法提取出来?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants