[Data Science]

Unsupervised Learning (비지도 학습) 1. Association Analysis (연관 분석) 장바구니 분석 대용량 데이터 아이템 간 연관성 찾아냄 EX) 월마트 : 맥주 - 기저귀 연관성 용어 Support (지지도) 거래집합 -> (해당 항목집합) 상대적 발생 빈도 (전체 경우의 수) 계산량 ↓ Apriori 알고리즘 Ex) 맥주 구매인 -> 대부분 콜라도 구매 Confidence (향상도) Rule Strength (연관규칙 강도) [선행항목 A / 후행항목 B] A∩B /A Lift (향상도) 항목 A, B : 구매 패턴 독립적 or 상관 관계 파악 (A 구매 → B 확률) / (B 임의로 구매 될 확률) Lift(A->B) = support(A,B) / support(A) * ..
Supervised learning (지도학습 분석기법) 1. Dedision Tree (의사결정나무) 데이터 분류, 예측 -> 도표화 장점) 1. IF THEN 형태 표현 : 결과 이해 / 해석 용이 2. 통계적 가정 필요X 3. 분류 과정 -> 변수 중요도 파악 가능 단점) 1. 적합 모형 만듦 -> 시간 소요 多 2. 변수 간 상관성 파악 어려움 (∵각각 하나의 변수 기준 구분) Data Set : Titanic training (생존요인 관련 속성만 포함) 생존확률에 가장 큰 영향 미치는 속성 : 성별 > 승선한 부모/자녀 수 > 승선한 형제자매/배우자 수 > Passenger Fare 순 2. K-NN (K-Nearest Neighbor / 최근접 이웃 알고리즘) New data - Neares..
·[Data Science]/R
1. sex table + edu table 같이 보기 두 데이터를 같이 보고 싶다면 한 테이블로 묶어주는 변수명을 만들어주면 된다. 변수명을 지정하려면 rownames와 colnames를 지정해주면 된다. sex_edu의 요약 정보도 확인할 수 있다.
·[Data Science]/R
간단한 명령어 입력으로 수학적 계산을 할 수 있다는 것이 좋다. 그리고 R에서는 함수나 변수도 자동입력이 안되고 "나 )같은 것도 직접 쳐야 하는데 RStudio에서는 자동으로 입력되고, 선택할 수도 있으니 편리하다. 1. 변수 salary의 통계량 계산 mean : 평균 sd : 표준편차 summary : 최소, 최대, 1사분위수, 3사분위수, 평균, 중앙값 tapply : 변수 두개의 평균, 표준편차 동시에 구하기 rownames : 분석 결과 시 (행)변수명 지정 가능 결과를 봤을 때 변수명이 1, 2라 직관적으로 확인하고 싶다면 mean_Sal_Sex 변수명 지정 후 tapply 함수 그대로 사용, rownames 이용해서 변수명 지정 → mean_Sal_Sex 처음 변수명 입력하면 직관적으로 확..
·[Data Science]/R
1. csv 파일 불러오기 (파일명 : ex8-1.csv) ex8=read.csv("C:/csv/ex8-1.csv") ex8은 변수명의 개념이다. 마음대로 지정 가능하나 파일명을 대표하는 이름이기 때문에 간략하고 대표적인 이름을 지어야 한다. 1-1. csv 불러오기 실패 RStudio를 사용했다. R보다 깔끔한 환경이 마음에 든다. 알맞게 작성한 것 같은데 csv 파일을 불러오지 못했다. 경로도 바꿔보고 파일명도 바꿔봤지만 실패했다. 고민 후 csv 파일을 열었다. 혹시나 하는 마음에 csv 파일 내 변수명을 영어로 바꿨다. 변수명은 원래 한글로 적혀있었다. edu는 원래 교육 수준이었다. 변수명을 영문으로 바꾸고 난 뒤 다시 csv 파일 불러오기 명령어를 입력했다. 성공했다. 변수명이 무조건 영문으로..
soheepark
'[Data Science]' 카테고리의 글 목록 (2 Page)