새책 | eBook | 알라딘 직접배송 중고 | 이 광활한 우주점 | 판매자 중고 (19) |
31,500원(절판) | 출간알림 신청![]() | - | - | 2,000원 |
1장 기계 학습 소개
__기계 학습의 기원
__기계 학습의 사용과 남용
____윤리성 고려
__기계는 어떻게 학습하는가?
____추상화와 지식의 표현성
____일반화
____학습 성공하기
__데이터에 기계 학습을 적용하는 단계
__기계 학습 알고리즘 선택
____입력 데이터에 대한 고려
____기계 학습 알고리즘의 종류에 대한 의견
____데이터에 맞는 적당한 알고리즘 선정
__기계 학습을 위한 R 사용
____R 패키지 설치와 로딩
________R 패키지 설치
________point-and-click 인터페이스로 패키지 설치
________R 패키지 로드
__정리
2장 데이터 관리와 이해
__R의 데이터 구조
__벡터
__팩터
____리스트
____데이터 프레임
____매트릭스와 어레이
__R과 데이터 관리
____R 데이터 구조로 로드와 저장
____CSV 파일의 데이터 임포트와 저장
____SQL 데이터베이스로부터 데이터 임포트
__데이터 이해와 탐험
____데이터 구조 살펴보기
____수치 변수 살펴보기
______중심 경향 측정: 평균과 중앙값
______퍼짐 측정: 사분위수와 5개 수의 요약
______수치 변수 시각화: boxplots
______수치 변수 시각화: 히스토그램
______수치 데이터의 이해: 단일 분포와 정규 분포
______퍼짐 측정: 분산과 표준 편차
____범주형 변수 살펴보기
______중심 경향 측정: 최빈값
____변수 사이 관계 살펴보기
______관계 시각화: 산점도
______관계 살펴보기: 이원 교차표
__정리
3장 게으른 학습: 최근접 이웃을 사용한 분류
__최근접 이웃을 사용한 분류의 이해
____kNN 알고리즘
______거리 계산
______적당한 k 선택
______kNN을 사용하기 위한 데이터 준비
____왜 kNN 알고리즘은 게으른가?
__kNN 알고리즘과 유방암 진찰
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
______변환: 수치 데이터 정규화하기
______데이터 전처리: 훈련과 테스트 데이터 만들기
____3단계: 데이터에 적용해 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 높이기
______변환: z 점수 표준화
______k의 대안적인 값 테스트
__정리
4장 확률론적 학습: 나이브 베이즈를 사용한 분류
__나이브 베이즈 이해
____베이지안 기법의 기본적인 개념
______확률
______조건부 확률
______베이즈 이론과 조건 확률
____나이브 베이즈 알고리즘
______나이브 베이즈 분류
______라플라스 추정기
______나이브 베이즈와 수치 속성 사용
______예제: 나이브 베이즈로 핸드폰 스팸 제거
____1단계: 데이터 모으기
____2단계: 데이터 준비와 탐구
____데이터 준비: 분석을 위한 텍스트 데이터 처리
______데이터 준비: 훈련과 테스트 데이터셋 생성
______텍스트 데이터 시각화: 단어 클라우드
______데이터 준비: 빈도 단어에 대한 지표 속성 생성
____3단계: 데이터를 적용해 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 향상
__정리
5장 분할 정복: 결정 트리와 규칙을 사용한 분류
__결정 트리 이해
____나누어 정복하기
____C5.0 결정 트리 알고리즘
______최적의 구분 선택
______결정 트리 가지치기
__예제: C5.0 결정 트리를 사용한 위험 은행 대출 확인
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
______데이터 준비: 임의의 훈련 데이터와 테스트 데이터 생성
____3단계: 데이터에 대한 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델의 성능 향상
______결정 트리의 정확도 향상
______다른 것보다 좀 더 고비용 실수를 만들기
__분류 규칙 이해
____구분해 정복하기
____One Rule 알고리즘
____RIPPER 알고리즘
____결정 트리로부터 규칙
__예제: 규칙 학습기로 독버섯 식별
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
____3단계: 데이터에 대해 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 향상
__정리
6장 수치 데이터 예측: 회귀 기법
__회귀 이해
____단순 선형 회귀
____정규 최소 제곱 추정
____상관관계
____다중 선형 회귀
__예제: 선형 회귀를 사용한 의료비 예측
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
______속성 간의 관계 살펴보기: 상관관계 매트릭스
______속성 간의 관계 시각화: 산점도 매트릭스
____3단계: 데이터로 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 향상
______모델 명세: 비선형 관계 추가
______변환: 수치 변수를 이진 지시자로 변환
______모델 명세: 상호 작용 효과 추가
______모두 다 적용: 향상된 회귀 모델
__회귀 트리와 모델 트리 이해
____회귀에 트리 추가
__예제: 회귀 트리와 모델 트리를 사용해 와인의 품질 추정
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
____3단계: 데이터에 적용해 모델 훈련
______결정 트리 시각화
____4단계: 모델 성능 평가
______평균 절대 오차를 이용한 성능 측정
____5단계: 모델 성능 향상
__정리
7장 블랙박스 기법: 신경망과 서포트 벡터 머신
__신경망 이해
____생물체에서 인공 뉴런으로
____활성 함수
____망 구성
______층의 개수
______정보 진행 방향
______각 측의 노드 수
____역전파로 신경망 훈련
__ANNS와 콘크리트의 내구력 모델화
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
____3단계: 데이터로 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 향상
__서포트 벡터 머신 이해
____초평면과 분류
____최대 마진 찾기
______선형적으로 구별 가능한 데이터의 경우
______비선형적으로 구별 가능한 데이터의 경우
____비선형 공간에서 커널 사용
__SVM으로 OCR 수행
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
____3단계: 데이터로 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 향상
__정리
8장 패턴 검색: 연관 규칙을 사용한 장바구니 분석
__연관 규칙 이해
____연관 규칙 학습을 위한 아프리오리 알고리즘
______규칙 흥미 측정: 지지도와 신뢰도
______아프리오리 원칙과 규칙 집합 생성
__예제: 연관 규칙과 자주 구매하는 식료품 식별
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
______데이터 준비: 거래 데이터를 위한 희소 매트릭스 생성
______제품 지지도 아이템 빈도 도식 시각화
______거래 데이터 시각화: 희소 매트릭스를 도식화
____3단계: 데이터로 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 향상
______연관 규칙의 집합 정렬
______연관 규칙의 부분집합 취하기
______연관 규칙을 파일이나 데이터 프레임으로 저장
__정리
9장 데이터의 그룹 검색: k 평균을 이용한 군집화
__군집화 이해
____기계 학습 태스크로서 군집화
____군집화를 위한 k 평균 알고리즘
______군집 지정과 변경을 위한 거리 사용
______군집의 적당한 개수 선택
______k 평균을 이용한 10대 시장 영역 검색
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
______데이터 준비: 결측치에 대한 더미 코딩
______데이터 준비: 결측치 대체
____3단계: 데이터에 대한 모델 훈련
____4단계: 모델 평가
____5단계: 모델 성능 향상
__정리
10장 모델 성능 평가
__분류를 위한 성능 측정
____R에서 분류 예측 데이터로 작업
____혼돈 매트릭스 심층 학습
____성능을 측정하기 위한 혼돈 매트릭스 사용
____정확도를 넘어: 다른 성능 측정
______카파 통계
______민감도와 특이도
______정밀도와 재현율
______F 측정
____성능 균형의 시각화
______ROC 커브
____미래 성능 추정
______홀드아웃 기법
______교차 검증
______부트스트랩 샘플링
__정리
11장 모델 성능 향상
__좀 더 나은 성능을 위한 증권 모델 조절
____자동화된 매개변수 조율을 위한 caret 사용
______간단한 조절 모델 생성
______조절 과정 변경
__메타 학습을 활용한 모델 성능 향상
____앙상블 이해
____배깅
____부스팅
____랜덤 포레스트
______랜덤 포레스트 훈련
______랜덤 포레스트 성능 평가
__정리
12장 특화된 기계 학습 주제
__특별한 데이터와 작업
____RCurl 패키지로 웹에서 데이터 수집
____XML 패키지로 XML 쓰고 읽기
____rjson 패키지로 JSON 읽고 쓰기
____xlsx을 사용해 마이크로소프트 엑셀 스프레드시트 읽고 쓰기
____바이오인포매틱스 데이터로 작업
____소셜 네트워크 데이터와 그래프 데이터로 작업
__R 성능 향상
____매우 큰 데이터 관리
____데이터 테이블(data.table)로 빠른 데이터 프레임 생성
____ff로 디스크 기반 데이터 프레임 생성
____bigmemory로 거대한 매트릭스 사용
__병렬 계산으로 빠른 학습
____실행 시간 측정
____foreach로 병렬 작업
____멀티코어로 멀티태스킹 운영체제 사용
____snow와 snowfall로 멀티워크스테이션과 네트워킹
____맵리듀스와 하둡으로 병렬 클라우드 계산
__GPU 계산
__최적화된 기계 학습 배포
____biglm으로 좀 더 큰 회귀 모델 생성
____bigrf로 좀 더 크고 빠른 랜덤 포레스트 생성
____caret과 병렬로 모델 훈련과 평가
__정리