Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

새로운 문서에 대한 get_topic_words 또는 get_topic_word_dist #185

Open
tkddnd0214 opened this issue Sep 16, 2022 · 1 comment
Open

Comments

@tkddnd0214
Copy link

tkddnd0214 commented Sep 16, 2022

안녕하십니까
너무 자주 문의를 드려, 귀찮으실까 죄송스럽네요.

mdl.make_doc을 통한 새로운 문서 집합에 대해서도
mdl.get_topic_words 나 mdl.get_topic_word_dist 같은 결과물을 낼 수 있는지 문의드립니다.

※ 해당 함수들의 def 를 참고해보고 싶었는데 찾지를 못해서
def를 볼수 있다면 어디서 확인할 수 있는지도 문의드립니다.

답변 부탁드리겠습니다.
감사합니다.

@bab2min
Copy link
Owner

bab2min commented Sep 18, 2022

안녕하세요~ @tkddnd0214
mdl.get_topic_words는 토픽 모델 전체의 토픽-단어 분포를 가져오는 메소드입니다. make_doc으로 생성한 새로운 문서에 대해서 추론을 할 경우 토픽-단어 분포는 고정된 상태에서 각 문서별로 문서-토픽 분포를 추정하는 것입니다. (즉, 문서-단어 분포를 문서-토픽 분포와 토픽-단어 분포로 분해하는데 토픽-단어 분포는 고정된 상황)
따라서 애초에 새로운 문서 집합에 대해서는 문서-토픽 분포를 구해야하는 것이지 토픽-단어 분포를 구해야하는 것이 아닙니다.
그리고 새로운 문서에 대한 문서-토픽 분포는 기존 문서에 대한 문서-토픽 분포를 구할때와 마찬가지로 doc.get_topics() 혹은 doc.get_topic_dist()를 사용하시면 되겠습니다.

만약 새로운 문서 집합에 대해 토픽-단어 분포를 새로 학습하고 싶으신거라면 make_doc을 사용하실게 아니라 토픽 모델을 새로 생성하셔서 add_doc을 하는게 맞구요.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants