会员   密码 您忘记密码了吗?
1,583,363 本书已上架      购物流程 | 常见问题 | 联系我们 | 关于我们 | 用户协议

有店 App


当前分类

商品分类

浏览历史

当前位置: 首页 > 简体书 > R語言機器學習
R語言機器學習
上一张
下一张
prev next

R語言機器學習

作者: (印)卡西克·拉瑪蘇布蘭馬尼安
出版社: 機械工業出版社
出版日期: 2018-06-01
商品库存: 点击查询库存
以上库存为海外库存属流动性。
可选择“空运”或“海运”配送,空运费每件商品是RM14。
配送时间:空运约8~12个工作天,海运约30个工作天。
(以上预计配送时间不包括出版社库存不足需调货及尚未出版的新品)
定价:   NT594.00
市场价格: RM106.79
本店售价: RM95.04
购买数量:
collect Add to cart Add booking
详细介绍 商品属性 商品标记
內容簡介

本書講解的是在R語言平臺上使用大資料技術構建可擴展機器學習模型的新技術成果。它全面展示了如何採用機器學習演算法在原始資料的基礎上構建機器學習模型。本書還能讓那些希望利用ApacheHadoop、Hive、Pig和Spark來實現可擴展機器學習模型的讀者從中受益。


作者介紹

Karthik Ramasubramanian 就職於Hike Messenger,從事商業分析和資料科學方面的工作。他以前在Snapdeal 任職,負責關於客戶增長和定價分析的核心統計模型。在加入 Snapdeal 之前,他曾負責管理 Reckitt Benckiser(RB)全球業務應用的資料倉庫。他在可擴展的機器學習領域具有豐富的經驗,專長包括複雜的圖網路和自學習神經網路。
 
Abhishek Singh 是美國第二大的人壽保險供應商 Prudential Financial公司的高級資料科學家。他在資料科學方面擁有豐富的行業和學術經驗,涵蓋諮詢、教學和金融服務。他曾經在 Deloitte Advisory 領導了針對美國銀行的監管風險、信用風險和資產負債表模型化需求的風險分析專案。目前,他正在為 Prudential 的人壽保險業務開發可擴展的機器學習演算法。


目錄

譯者序
關於作者
關於技術審稿人
致謝

第1章 機器學習和R語言入門1
1.1 瞭解發展歷程2
1.1.1 統計學習2
1.1.2 機器學習2
1.1.3 人工智慧3
1.1.4 資料採擷3
1.1.5 資料科學4
1.2 概率與統計5
1.2.1 計數和概率的定義5
1.2.2 事件和關係7
1.2.3 隨機性、概率和分佈8
1.2.4 置信區間和假設檢驗9
1.3 R語言入門13
1.3.1 基本組成部分13
1.3.2 R 語言的資料結構14
1.3.3 子集處理15
1.3.4 函數和Apply系列17
1.4 機器學習過程工作流19
1.4.1 計畫19
1.4.2 探索19
1.4.3 構建20
1.4.4 評估20
1.5 其他技術20
1.6 小結21
1.7 參考資料21

第2章 資料準備和探索22
2.1 規劃資料收集23
2.1.1 變數類型23
2.1.2 資料格式24
2.1.3 資料來源29
2.2 初始資料分析30
2.2.1 初步印象30
2.2.2 把多個資料來源組織到一起32
2.2.3 整理資料34
2.2.4 補充更多資訊36
2.2.5 重塑37
2.3 探索性資料分析38
2.3.1 摘要統計量38
2.3.2 矩41
2.4 案例研究:信用卡欺詐46
2.4.1 數據導入46
2.4.2 數據變換47
2.4.3 資料探索48
2.5 小結49
2.6 參考資料49

第3章 抽樣與重抽樣技術50
3.1 介紹抽樣技術50
3.2 抽樣的術語51
3.2.1 樣本51
3.2.2 抽樣分佈52
3.2.3 總群體的均值和方差52
3.2.4 樣本均值和方差52
3.2.5 匯總的均值和方差52
3.2.6 抽樣點53
3.2.7 抽樣誤差53
3.2.8 抽樣率53
3.2.9 抽樣偏誤53
3.2.10 無放回的抽樣53
3.2.11 有放回的抽樣54
3.3 信用卡欺詐:總群體的統計量54
3.3.1 資料描述54
3.3.2 總群體的均值55
3.3.3 總群體的方差55
3.3.4 匯總的均值和方差55
3.4 抽樣在業務上的意義58
3.4.1 抽樣的特徵59
3.4.2 抽樣的缺點59
3.5 概率和非概率抽樣59
3.5.1 非概率抽樣的類型60
3.6 關於抽樣分佈的統計理論61
3.6.1 大數定律61
3.6.2 中心極限定理63
3.7 概率抽樣技術66
3.7.1 總群體的統計量66
3.7.2 簡單隨機抽樣69
3.7.3 系統性隨機抽樣74
3.7.4 分層隨機抽樣77
3.7.5 聚類抽樣82
3.7.6 自助抽樣86
3.8 蒙特卡羅方法:接受-拒絕91
3.9 通過抽樣節省計算開銷的定性分析93
3.10 小結94

第4章 R語言裡的資料視覺化95
4.1 ggplot2組件包簡介96
4.2 世界經濟發展指標97
4.3 折線圖97
4.4 堆疊柱狀圖102
4.5 散點圖106
4.6 箱形圖107
4.7 長條圖和密度圖109
4.8 圓形圖113
4.9 相關圖114
4.10 熱點圖116
4.11 氣泡圖117
4.12 瀑布圖120
4.13 系統樹圖122
4.14 關鍵字雲124
4.15 桑基圖125
4.16 時間序列圖127
4.17 佇列圖128
4.18 空間圖130
4.19 小結133
4.20 參考資料133

第5章 特徵工程135
5.1 特徵工程簡介136
5.1.1 篩檢程式方法137
5.1.2 包裝器方法137
5.1.3 嵌入式方法138
5.2 瞭解工作資料138
5.2.1 數據摘要139
5.2.2 因變數的屬性139
5.2.3 特徵的可用性:連續型或分類型141
5.2.4 設置數據的假設142
5.3 特徵排名143
5.4 變數子集的選擇146
5.4.1 篩檢程式方法146
5.4.2 包裝器方法149
5.4.3 嵌入式方法154
5.5 降維158
5.6 特徵工程核對清單161
5.7 小結162
5.8 參考資料162

第6章 機器學習理論和實踐163
6.1 機器學習的類型165
6.1.1 有監督學習166
6.1.2 無監督學習166
6.1.3 半監督學習166
6.1.4 強化學習166
6.2 機器學習演算法的類別167
6.3 實際環境的資料集170
6.3.1 房產售價170
6.3.2 購買偏好170
6.3.3 Twitter訂閱和文章171
6.3.4 乳腺癌171
6.3.5 購物籃172
6.3.6 亞馬遜美食評論172
6.4 回歸分析173
6.5 相關分析174
6.5.1 線性回歸176
6.5.2 簡單線性回歸177
6.5.3 多元線性回歸180
6.5.4 模型診斷:線性回歸182
6.5.5 多項回歸191
6.5.6 邏輯回歸194
6.5.7 洛基(logit)變換195
6.5.8 幾率比196
6.5.9 模型診斷:邏輯回歸202
6.5.10 多項邏輯回歸209
6.5.11 廣義線性模型212
6.5.12 結論213
6.6 支持向量機213
6.6.1 線性SVM214
6.6.2 二元SVM分類模型215
6.6.3 多類別SVM217
6.6.4 結論218
6.7 決策樹218
6.7.1 決策樹的類型219
6.7.2 決策指標220
6.7.3 決策樹學習方法222
6.7.4 集成樹235
6.7.5 結論240
6.8 樸素貝葉斯方法241
6.8.1 條件概率241
6.8.2 貝葉斯定理241
6.8.3 先驗概率242
6.8.4 後驗概率242
6.8.5 似然和邊際似然242
6.8.6 樸素貝葉斯方法242
6.8.7 結論246
6.9 聚類分析246
6.9.1 聚類方法簡介247
6.9.2 聚類演算法247
6.9.3 內部評估255
6.9.4 外部評估256
6.9.5 結論257
6.10 關聯規則挖掘258
6.10.1 關聯概念簡介258
6.10.2 規則挖掘演算法259
6.10.3 推薦演算法265
6.10.4 結論270
6.11 人工神經網路271
6.11.1 人類認知學習271
6.11.2 感知器272
6.11.3 Sigmoid神經元274
6.11.4 神經網路的體系架構275
6.11.5 有監督與無監督的神經網路276
6.11.6 神經網路的學習演算法277
6.11.7 前饋反向傳播278
6.11.8 深度學習284
6.11.9 結論289
6.12 文本挖掘方法289
6.12.1 文本挖掘簡介290
6.12.2 文本摘要291
6.12.3 TF-IDF292
6.12.4 詞性標注294
6.12.5 關鍵字雲297
6.12.6 文本分析:Microsoft Cognitive Services297
6.12.7 結論305
6.13 線上機器學習演算法305
6.13.1 模糊C均值聚類306
6.13.2 結論308
6.14 構建模型的核對清單309
6.15 小結309
6.16 參考資料309

第7章 機器學習模型的評估311
7.1 資料集311
7.1.1 房產售價312
7.1.2 購買偏好313
7.2 模型性能和評估入門314
7.3 模型性能評估的目標315
7.4 總群體的穩定性指數316
7.5 連續型輸出的模型評估320
7.5.1 平均絕對誤差321
7.5.2 均方根誤差323
7.5.3 R2324
7.6 離散型輸出的模型評估326
7.6.1 分類矩陣327
7.6.2 靈敏度和特異性330
7.6.3 ROC曲線下的面積331
7.7 概率技術334
7.7.1 K 折交叉驗證334
7.7.2 自助抽樣336
7.8 Kappa誤差指標337
7.9 小結340
7.10 參考資料341

第8章 模型性能改進342
8.1 機器學習和統計建模343
8.2 Caret組件包概述344
8.3 超參數簡介346
8.4 超參數優化348
8.4.1 人工搜索349
8.4.2 人工網格搜索351
8.4.3 自動網格搜索353
8.4.4 最優搜索354
8.4.5 隨機搜索356
8.4.6 自訂搜索357
8.5 偏誤和方差權衡359
8.5.1 裝袋或自助聚合363
8.5.2 增強363
8.6 集成學習簡介363
8.6.1 投票集成364
8.6.2 集成學習中的高級方法365
8.7 在R語言裡演示集成技術367
8.7.1 裝袋樹367
8.7.2 決策樹的梯度增強369
8.7.3 混合knn和rpart372
8.7.4 利用caretEnemble進行堆疊374
8.8 高級主題:機器學習模型的貝葉斯優化377
8.9 小結381
8.10 參考資料382

第9章 可擴展機器學習和相關技術384
9.1 分散式處理和存儲384
9.1.1 Google File System385
9.1.2 MapReduce386
9.1.3 R語言裡的並存執行386
9.2 Hadoop生態系統389
9.2.1 MapReduce390
9.2.2 Hive393
9.2.3 Apache Pig396
9.2.4 HBase399
9.2.5 Spark400
9.3 在R語言環境下用 Spark進行機器學習401
9.3.1 設置環境變數401
9.3.2 初始化 Spark 會話402
9.3.3 載入資料並運行預處理402
9.3.4 創建 SparkDataFrame403
9.3.5 構建機器學習模型403
9.3.6 對測試資料進行預測404
9.3.7 終止 SparkR 會話404
9.4 在R語言裡利用 H2O 進行機器學習405
9.4.1 安裝組件包406
9.4.2 H2O集群的初始化406
9.4.3 在R語言裡使用H2O的深度學習演示407
9.5 小結410
9.6 參考資料411