소장자료 검색


트윗 페이스북

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집

표지이미지
펼쳐보기

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집
파주 : 제이펍, 2020
xxxix, 488 p. : 삽화, 도표 ; 23 cm
Hulu 데이터 과학팀의 한문명은 '葫芦娃' 이고, 주거웨의 한문명은 '诸葛越' 임
Hulu 데이터 과학팀: 왕지에, 지앙윈셩, 리판딩, 왕위징, 조우한닝, 씨에시아오후이, 천라밍, 리우춘양, 리우천하오, 쉬샤오란, 펑웨이, 둥찌엔치앙, 리우멍이, 장궈신
참고문헌(p. 465-468)과 찾아보기 수록
₩34000


  소장사항 : 을지대학교 학술정보원[성남] [ 004.73 호95ㄷ ]

등록번호 소장정보
1096562 대출가능
  • Vol.Copy :
  • 별치기호 :
  • 소장위치 : 자료열람실
  • 을지 도서대출 신청 가능 권수 없음
1096563 대출가능
  • Vol.Copy : c.2
  • 별치기호 :
  • 소장위치 : 자료열람실
  • 을지 도서대출 신청 가능 권수 없음



  책소개 인터파크 바로가기

로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지! 분야별, 난이도별로 잘 구성된 실전 면접 문제! 이 책은 간단한 내용부터 복잡한 내용까지, 로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지 차례대로 전개되며, 머신러닝 각각의 영역을 포괄하는 간결한 문답 형식으로 되어 있습니다. 따라서 인공지능 분야에 종사하기 위해 알아야 할 기술을 잘 설명하고 있는 동시에 독자들의 필요에 따라, 역량에 따라 주제와 난이도별로 골라 읽는 학습을 통해 필수 기술을 익힐 수 있도록 도와줍니다. Hulu 데이터 과학팀 실전 면접 문제 수록! Hulu(훌루)는 넷플릭스 대항마로 월트 디즈니가 설립한 OTT(Over The Top) 서비스 회사이며, 이 책은 스탠퍼드대학교, 칭화대학교, 베이징대학교 등 일류 대학 출신들로 구성된 Hulu 데이터 과학팀 멤버 15인이 튼튼한 수학 기초, 알고리즘 시스템에 대한 완전한 이해, 모델에 대한 깊은 이해를 제공하기 위해 집필한 서적입니다. 데이터 과학자/데이터 엔지니어가 알아야 할 필수 스킬 트리 PDF 파일 제공! 데이터 과학자/데이터 엔지니어를 위한 스킬 트리(기술 로드맵) PDF 파일이 온라인으로 무료 제공됩니다.

  본문중에서

데이터 과학자로 향하는 길은 순탄치 않을 것입니다. 하지만 그 길에는 아름다움과 광활함이 함께할 것입니다. 여러분이 해야 할 일은 자신이 어떤 일을 하고 싶은지를 명확히 하고, 묵묵히 이 책의 내용을 최대한 습득한 후, 조용히 이 책을 덮고서 생활 속 사소한 곳에서 머신러닝의 매력을 느껴보는 것입니다. _xxii페이지 머신러닝 문제에서 특성은 벡터의 형태로 표현되는 경우가 많습니다. 따라서 두 특성 벡터 사이의 유사도를 분석할 때 코사인 유사도를 자주 사용합니다. 코사인 유사도 값의 범위는 [-1, 1]이고, 같은 두 벡터 사이의 유사도는 1입니다. 만약 거리와 유사한 형태로 표현하고 싶다면 1에서 코사인 유사도를 뺀 것이 코사인 거리가 됩니다. 따라서 코사인 거리가 취할 수 있는 값의 범위는 [0, 2]가 되고, 동일한 두 벡터의 코사인 거리는 0이 됩니다. _38페이지 같은 선형 차원축소 방법이지만 PCA는 비지도(unsupervised) 차원축소 알고리즘인 반면, LDA는 지도(supervised) 차원축소 알고리즘입니다. 따라서 원리와 응용 두 측면에서 두 알고리즘은 큰 차이점이 존재하지만, 두 방법 모두 수학적 방법론에서 시작했기 때문에 공통적인 특성도 존재함을 쉽게 알 수 있습니다. _101페이지 위 문제에서 우리는 몇 가지 자주 사용하는 샘플링 알고리즘에 대해서만 간단한 소개를 했습니다. 실제 면접에서 면접관은 지원자에게 익숙한 샘플링 방법을 골라 해당 알고리즘에 대한 이론 증명, 장단점, 적용 등에 대해 깊게 물어볼 확률이 높습니다. 예를 들면, 왜 기각 샘플링이나 중요도 샘플링은 고차원 공간에서의 효율이 낮아 사용할 수 없는지? 혹은 하나의 불규칙한 다변형 중에서 하나의 점을 추출하는 방법은 어떤 것이 있는지? 등에 관해 물어볼 수 있습니다. _211페이지 그림 9.14는 합성곱 신경망을 설명하는 전통적인 도표입니다. 이는 얀 르쿤이 1998년에 고안한 합성곱 신경망 구조인데, 입력 후 몇 개의 컨볼루션층과 풀링층 연산을 거쳐 완전 연결층을 더하면 예측 결과를 바로 출력하고, 성공적으로 손글씨 인식을 할 수 있습니다. _263페이지

  목차

CHAPTER 1 피처 엔지니어링 1 ① 피처 정규화 3 ② 범주형 피처 6 ③ 고차원 결합 피처의 처리 방법 9 ④ 결합 피처 12 ⑤ 텍스트 표현 모델 14 ⑥ Word2Vec 17 ⑦ 이미지 데이터가 부족할 때는 어떻게 처리해야 할까요? 20 CHAPTER 2 모델 평가 23 ① 평가 지표의 한계 25 ② ROC 곡선 31 ③ 코사인 거리의 응용 38 ④ A/B 테스트의 함정 43 ⑤ 모델 평가 방법 46 ⑥ 하이퍼파라미터 튜닝 49 ⑦ 과적합과 과소적합 52 CHAPTER 3 클래식 알고리즘 55 ① 서포트 벡터 머신 57 ② 로지스틱 회귀 67 ③ 의사결정 트리 71 CHAPTER 4 차원축소 85 ① PCA 최대분산 이론 87 ② PCA 최소제곱오차 이론 92 ③ 선형판별분석 96 ④ 선형판별분석과 주성분분석 101 CHAPTER 5 비지도학습 107 ① k평균 클러스터링 109 ② 가우스 혼합 모델 121 ③ 자기 조직화 지도 125 ④ 클러스터링 알고리즘 평가 131 CHAPTER 6 확률 그래프 모델 137 ① 확률 그래프 모델의 결합확률분포 139 ② 확률 그래프 표현 142 ③ 생성모델과 판별모델 146 ④ 마르코프 모델 148 ⑤ 토픽 모델 156 CHAPTER 7 최적화 알고리즘 163 ① 지도학습에서의 손실함수 165 ② 머신러닝에서의 최적화 문제 169 ③ 전통적인 최적화 알고리즘 172 ④ 경사하강법 검증 방법 177 ⑤ 확률적 경사하강법 180 ⑥ 확률적 경사하강법의 가속 184 ⑦ L1 정규화와 희소성 192 CHAPTER 8 샘플링 199 ① 샘플링의 역할 201 ② 균등분포의 난수 204 ③ 자주 사용하는 샘플링 방법 207 ④ 가우스 분포 샘플링 212 ⑤ 마르코프 체인 몬테카를로 219 ⑥ 베이지안 네트워크 샘플링 225 ⑦ 불균형 샘플 집합에서의 리샘플링 230 CHAPTER 9 피드 포워드 신경망 235 ① 다층 퍼셉트론과 부울 함수 237 ② 딥러닝의 활성화 함수 245 ③ 다층 퍼셉트론의 오차역전파 알고리즘 249 ④ 딥러닝 훈련 테크닉 257 ⑤ 합성곱 신경망 263 ⑥ ResNet 271 CHAPTER 10 순환신경망 277 ① 순환신경망과 합성곱 신경망 279 ② 순환신경망의 그래디언트 소실 문제 281 ③ 순환신경망의 활성화 함수 284 ④ LSTM 네트워크 286 ⑤ Seq2Seq 모델 290 ⑥ 어텐션 메커니즘 294 CHAPTER 11 강화학습 299 ① 강화학습 기초 301 ② 비디오 게임에서의 강화학습 308 ③ 폴리시 그래디언트 313 ④ 탐색과 이용 317 CHAPTER 12 앙상블 학습 323 ① 앙상블 학습의 종류 325 ② 앙상블 학습 단계와 예제 329 ③ 기초 분류기 332 ④ 편향과 분산 334 ⑤ GBDT 알고리즘의 기본 원리 338 ⑥ XGBoost와 GBDT의 차이점, 그리고 연관성 342 CHAPTER 13 생성적 적대 신경망 347 ① 처음 만나는 GANs의 비밀 349 ② WGAN: 저차원의 유령을 잡아라 357 ③ DCGAN: GANs이 합성곱을 만났을 때 365 ④ ALI 372 ⑤ IRGAN: 이산 샘플의 생성 377 ⑥ SeqGAN: 텍스트 시퀀스 생성 382 CHAPTER 14 인공지능의 응용 현황 391 ① 알고리즘 마케팅 393 ② 게임에서의 인공지능 409 ③ 자율 주행에서의 AI 428 ④ 기계 번역 439 ⑤ 인간과 컴퓨터 상호작용 443 에필로그 및 저자 소개 449 참고문헌 465 찾아보기 470

  저자 및 역자 소개

Hulu 데이터 과학팀 저/김태헌 역 : Hulu 데이터 과학팀 저