'파이썬 라이브러리를 활용한 머신러닝' 책으로 공부한 내용을 바탕으로 작성한 글입니다. 토픽 모델링이란? 문서를 하나 또는 그 이상의 토픽으로 할당하는 작업인 비지도 학습 예) 정치,스포츠, 금융 등의 토픽으로 묶을 수 있는 뉴스 데이터 학습된 각 성분은 하나의 토픽에 해당하고, 문서를 표현한 성분의 계수는 문서가 어떤 토픽에 얼마만큼 연관되어 있는지를 말해준다. 잠재 디리클레 할당 LDA(Latent Dirichlet Allocation) 레이블이 없거나, 큰 규모의 텍스트 말뭉치를 해석하는데 좋은 방법이다. random_state 매개변수를 바꾸면 결과가 많이 달라진다. LDA 모델은 함께 자주 나타나는 단어와 그룹(토픽)을 찾는 것이다. 영화 리뷰 데이터셋에 LDA 적용해보기 텍스트 문서에 대한 비..