최대 1 분 소요

Contents based filtering

아이템 특성화

  • TG-IDF 해당 문서에서 다른 문서보다 자주 등장하는 단어에 높은 값 부여

-> 문서를 대표하는 특정 단어를 알아낼 수 있음

image-20221024140327737

  • Word2Vec

유사도 측정 방법

  • 자카드 유사도

  • 유클리드 유사도

  • 코사인 유사도

image-20221024135449576

(가장 많이 사용됨)

  • 피어슨 상관계수

image-20221024135946592

콘텐츠 기반 필터링

image-20221024140500789

Memory collaborative filtering

image-20221024140544056

  • 장점

image-20221024141136244

  • 단점

image-20221024141148990

User based

  1. 평점을 기반으로 user-item matrix 만들기
  2. 빈 값을 0으로 채우고, 사용자 사이의 유사도를 계산

    Item based

  3. 평점을 기반으로 user-item matrix 만들기
  4. 빈 값을 0으로 채우고, 아이템 사이의 유사도를 계산

Model based CF

-> Sparsity, Scalability, 계산량 증가 의 문제 해결

  • 장점

image-20221024141301572

Clustering(군집화)

종류

image-20221024141355959

  • K-Means 가장 가까운 중심점을 갖는 군집에 각 항목을 할당하는 과정 반복하여

k 개의 군집으로 항목들을 나누는 알고리즘

image-20221024141703061

  1. 랜덤하게 초기 중심점 배치

  2. 각 데이터를 가장 가까운 중심점으로 할당

  3. 모인 데이터에서 중심점 업데이트

  4. 더이상 업데이트 없을 때까지 2,3 반복

  • 군집화의 단점

image-20221024142448785

코드실습

댓글남기기