RSC02 - Contents, Model based filtering
Contents based filtering
아이템 특성화
- TG-IDF 해당 문서에서 다른 문서보다 자주 등장하는 단어에 높은 값 부여
-> 문서를 대표하는 특정 단어를 알아낼 수 있음
- Word2Vec
유사도 측정 방법
-
자카드 유사도
-
유클리드 유사도
-
코사인 유사도
(가장 많이 사용됨)
- 피어슨 상관계수
콘텐츠 기반 필터링
Memory collaborative filtering
- 장점
- 단점
User based
- 평점을 기반으로 user-item matrix 만들기
- 빈 값을 0으로 채우고, 사용자 사이의 유사도를 계산
Item based
- 평점을 기반으로 user-item matrix 만들기
- 빈 값을 0으로 채우고, 아이템 사이의 유사도를 계산
Model based CF
-> Sparsity, Scalability, 계산량 증가 의 문제 해결
- 장점
Clustering(군집화)
종류
- K-Means 가장 가까운 중심점을 갖는 군집에 각 항목을 할당하는 과정 반복하여
k 개의 군집으로 항목들을 나누는 알고리즘
-
랜덤하게 초기 중심점 배치
-
각 데이터를 가장 가까운 중심점으로 할당
-
모인 데이터에서 중심점 업데이트
-
더이상 업데이트 없을 때까지 2,3 반복
- 군집화의 단점
댓글남기기