學習數據科學的8類必讀書籍(上)
神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。
編者按:為方便對數據科學(DATA SCIENCE)感興趣的愛好者和實操者的學習,本文作者分享了 8 類關于數據科學的書籍,包括統計/概率論類、機器學習類、數據可視化與分析類、深度學習類、自然語言處理(NLP)類、計算機視覺類、人工智能類和工具/語言類。在分享書籍的同時,作者還提出以下忠告:在數據科學領域有多種成功的途徑,而我們要選擇的途徑應該是足夠簡單,足以幫助我們快速上手的。
我們之所以在選擇學習方法上不知所措,往往是因為我們接觸的信息量太大了。與其花更多的時間思考如何獲得研究數據科學的技能,不如根據實際需要,從分享的書中挑選一本,然后開始學習。關鍵是要始終如一地采取行動,堅持閱讀。閱讀的目的是,學習和發現隱藏于書中的真實思想。對數據科學感興趣的朋友們,如果你還沒選好學習材料,就請閱讀作者推薦的這些頂級書籍吧。本文來自編譯,希望對您有幫助。因篇幅原因,本篇文章分三部分刊出,此為第一部分:
我們從某人的聲音中不能找到的東西,很可能會在他(她)的作品中發現。——無名氏
在知識爆炸的今天,關于數據科學的學習資源太多了,這會讓我們在選擇時無從下手吧?不要緊,以下是最新的數據科學必讀書籍集錦。
圖1. 眾多學習書源
我在網上自學時,總是更傾向于選擇視頻教程或講座。因為我發現這種選擇使學習變得更簡單,不那么麻煩(和大多數人的選擇一樣)。
我一直都覺得在網絡上自學時選擇視頻教程或講座更加簡便易行,直到幾年前我偶然讀到了一本關于統計學的書,才讓我改變了對看書學習的看法(從“無聊”到“神奇而有趣”)。我要向這本書的作者和出版商致敬。
在挑選關于數據科學的頂級書籍之前,我事先做了廣泛的研究。今天,我將這些書籍分享給所有有抱負的數據愛好者和實踐者。大家在讀了這些書之后,一定會讓自己陷入深深的思考之中。
讓我們開始看看這個書單吧……
我按這些書所涉及的領域將它們劃分為以下 8 類來詳細介紹,以方便大家選擇:
*統計/概率論類書籍
*機器學習類書籍
*數據可視化和分析類書籍
*深度學習類書籍
*自然語言處理(NLP)類書籍
*計算機視覺類書籍
*人工智能類書籍
*工具/語言類書籍
1.統計/概率論類書籍
(1)《統計學學習概論》(Introduction to Statistical Learning)
作者:加雷斯·詹姆斯,丹妮拉·維滕,特來沃爾·黑斯蒂,羅伯特·蒂施萊尼(Gareth James, Daniela Witten, Trevor Hastie,Robert Tibshirani).
一直以來,這本書都是經典書籍。它涵蓋了基本的統計學知識以及機器學習技術。這本書吸睛的地方在于,每一個概念都用 R 語言做案例分析。所以,我們一旦掌握了編程的技巧,在讀這本書時,就會快速回憶起每一個概念及其在程序中的操作方法。
圖2. 《統計學學習概論》
(2)《思考統計:程序員的概率論和統計學》(Think Stats: Probability and Statistics for Programmers)
作者:艾倫·B·唐尼(Allen B. Downey)
這本書在眾多數據科學書籍中是首選書籍。它提供了大量的資源。尤其是對于有一定 Python 基礎知識的人,它特別實用,可以用來做數據分析。
圖3. 《思考統計:程序員的概率論和統計學》
(3)《統計學的藝術:從數據中學習》(The Art of Statistics: Learning from Data)
作者:大衛·斯皮格爾霍爾特(David Spiegelhalter)
這本書最大的亮點是采用了淺顯易懂的案例來講解理論。這本書不僅層層剖析了特定的問題,還給問題提供了具有漸進性和一致性的統計解決方案。簡而言之,它使統計學的學習變得簡單了!
圖4. 《統計學的藝術:從數據中學習》
(4)《概率論:狂熱初學者入門》(Probability: For the Enthusiastic Beginner)
作者:大衛·莫蘭(David Morin)
圖5. 《概率論:狂熱初學者入門》
這是一本概率論初學者的理想讀物。它涵蓋了所有的基礎知識,包括組合學,概率規則,貝葉斯定理,期望值,方差,概率密度,公共分布,大數定律,中心極限定理,相關性,回歸分析等等。
(5)《概率論入門》(Introduction to Probability)
圖6. 《概率論入門》
作者:J·勞里·斯奈爾,查爾斯·米勒·格林斯特德(J. Laurie Snell,Charles Miller Grinstead)
這又是一本介紹概率概念的書籍。和《概率論:狂熱初學者入門》一樣,這本書是為研究生而寫的綜合教材。
(6)《赤裸裸的統計——從數據中剝離恐懼》(Naked Statistics — Stripping the Dread from the Data)
作者:查爾斯·韋蘭(Charles Wheelan)
統計學有時候是一個令人生畏的話題。在這本書中,作者以一種風趣而簡潔的方式闡明了關鍵概念,如推理、相關性和回歸分析等。
圖7. 《赤裸裸的統計——從數據中剝離恐懼》
2.機器學習類書籍
(1)《百頁機器學習書》(The Hundred-Page Machine Learning Book)
圖8. 《百頁機器學習書》
作者:安德烈·博爾科夫(Andriy Burkov)
我真心喜歡這本書。在讀到它之前,我閱讀了大量的試圖從不同角度和不同層面講授機器學習的書籍。我絞盡腦汁地想從這些書中找到一個方法,希望它能夠簡潔地概括難以理解的話題和難以理解的方程式。可是,直到讀了安德里·布爾科夫用大約 100 多頁的篇幅寫出來的這本書,我才找到了這個方法。這本書文筆優美,易于理解,已經得到了許多人的認可。
(2)《數據科學介紹》(Introducing Data Science)
作者:戴維·西倫(Davy Cielen)等
出版商:曼寧(Manning)
圖9. 《數據科學介紹》
我喜歡這本書有一個特殊的原因,那就是,這些書不僅包含了我們常見的關于數據科學的主題,它還包括了數據科學整個領域的其他方面。我強烈推薦閱讀這本書,它會或多或少地會讓我們熟悉數據科學的全貌。
(3)《從頭開始的數據科學》(Data Science from Scratch)
作者:喬爾·格魯斯(Joel Grus)
出版商:奧萊利(O’Reilly)
圖10. 《從頭開始的數據科學》
這本書的第二版已經發布了,因為它囊括了各種基本原理。也是因此,它已經成為一本倍受歡迎的書。這相當于是一個完整的一攬子交易,讀了一本就等于讀了很多本,十分推薦本書。
(4)《Python數據科學手冊》(Python Data Science Handbook)
作者:杰克·范德普拉斯(Jake VanderPlas)
出版商:奧萊利
圖11. 《Python數據科學手冊》
這本書最適合那些剛開始做數據分析或數據科學的人閱讀,這正是他們所需要的那本能夠參見所有技術的書。本書能夠強化你對 python 的掌握程度,并可促進你在數據科學上的工作。
(5)《在數據科學領域建立職業生涯》(Build a Career in Data Science)
作者:艾米麗·羅賓遜,杰奎琳·諾里斯(Emily Robinson,Jacqueline Nolis)
出版商:曼寧
圖12. 《在數據科學領域建立職業生涯》
這本書于2020年出版,主要陳述了與學習數據科學相關的技術內容。我們必讀這本書的原因是,它教我們如何在數據科學行業工作。
(6)《數據科學的藝術——給任何與數據打交道的人的指南》(The Art of Data Science — A Guide for Anyone Who Works With Data)
作者:羅杰·D·彭,伊麗莎白·松井(Roger D. Peng, Elizabeth Matsui)
這本書不僅對數據分析工作流程做了完美的概述,還清楚地闡述了一個觀點——盡管存在許多工具、復雜的一步步的信息迭代過程,數據分析從根本上講依然是一門藝術。
圖13. 《數據科學的藝術——給任何與數據打交道的人的指南》
3.數據可視化與分析類書籍
(1)《數據可視化的基礎——信息豐富且引人注目的數字制作入門》(Fundamentals of Data Visualization — A Primer on Making Informative and Compelling Figures)
作者:克勞斯·沃克(Claus O. Wilke)
本書采用舉出正面和反面例子加以對比的方式,介紹了數據可視化的基本原則。它可以幫助我們理解有效的可視化背后的基本原理,并教會我們設計更有意義的模塊來傳達正確的信息。
圖14. 《數據可視化的基礎——信息豐富且引人注目的數字制作入門》
(2)《美麗的可視化,通過專家的眼睛看數據》(Beautiful Visualization, Looking at Data Through the Eyes of Experts)
作者:朱莉·斯蒂爾,諾亞·伊林斯基(Julie Steele, Noah Iliinsky)
網站:奧萊利媒體|亞馬遜(O "Reilly Media| Amazon)
圖15. 《美麗的可視化,通過專家的眼睛看數據》
“可視化”是讓數據說話的一種新方式,通過顏色等視覺指標達到溝通的目的,并通過一定的研究方法將數據和視覺指標整合在一起。
這本書講述了一些著名的可視化設計和開發產品。
(3)《周一改頭換面——每次用一張圖表改進我們可視化和分析數據的方式》(MakeoverMonday — Improving How We Visualize and Analyze Data, One Chart at a Time)
作者:安迪·克里貝爾(Andy Kriebel)
此書是周一改頭換面(MakeOverMonday)項目的擴展,在這個項目中,數據可視化社區的成員可以分享他們對現有圖表和數據的改進。它強調,雖然在設計可視化中存在可變性,但有一些關鍵技術可以遵循,以確保自己的圖表是有作用和有意義的。
圖16. 《周一改頭換面——每次用一張圖表改進我們可視化和分析數據的方式》
(4)《用數據講故事——商務專業人士的數據可視化指南》(Storytelling with Data — A Data Visualization Guide for Business Professionals)
作者:科爾·努斯鮑默·克納菲奇(Cole Nussbaumer Knaflic)
對于任何一個想要更好地以清晰、簡潔和圖形化的方式呈現信息的人來說,這是一本必讀的書。這本書教給我們數據可視化的基礎知識,以及如何有效地使用數據,并舉出了大量現實的例子。
圖17. 《用數據講故事——商務專業人士的數據可視化指南》
(5)《更好的數據可視化:學者、研究人員和書蟲的學習指南》(BETTER DATA VISUALIZATIONS: A Guide for Scholars, Researchers, and Wonks》
作者:喬納森·施瓦比什(Jonathan Schwabish)
此書包括三個部分。第一部分簡要介紹了數據可視化的最佳實操方式。第二部分是本書的主要部分,講述了圖表類型。施瓦比什深入研究了不同類型的圖表,這些圖表遠遠超出了直線和條形的標準。
圖18. 《更好的數據可視化:學者、研究人員和書蟲的學習指南》
相關閱讀:學習數據科學的8類必讀書籍(中)
學習數據科學的8類必讀書籍(下)
譯者:甜湯
標簽: