數據科學該怎么學?必備技能有哪些?
最近,一份數據科學領域的學習寶典在推特上火了,吸引點贊1k+。
之所以能夠引起大家的關注,是因為這份教程將數據科學廣而雜的知識內容,梳理成了14個方面及各自要點,同時解答了許多學習中的常見疑問。
比如“用什么語言比較好”、“哪些工具最適合”。
這份學習寶典的作者為Matt Dancho,他是一個數據科學學習網站的創始人。
那么,具體這份干貨到底講了什么?是否真的如此神奇?
我們一起來看。
更推薦R語言
進入正題之前,我們先來淺聊一下數據科學(Data Science)。
數據科學是指通過挖掘數據、處理數據、分析數據,從而得到有用信息的技術和研究,再將這些信息應用到不同領域的各個方面。
該學科結合了諸多領域中的理論和技術,包括應用數學、統計、模式識別、機器學習、數據可視化、數據倉庫以及高性能計算等,覆蓋知識面非常廣。
作者表示想要掌握這些技能,大概每周要投入10個小時來學習。
那么在開始真正學習之前,先來看一個最關鍵的問題——
用什么語言?
在這里,作者認為選擇R語言或者Python都可以。
如果從從業角度出發,他會考慮以下三個因素:
編程語言對數據科學的影響有多大?就業市場的需求如何?就業市場的競爭力如何?
第一方面,作者直接將二者進行了對比。
Python非常適合機器學習和深度學習。但是在市場報告方面的優勢不大,能用于統計經濟學等重要領域的庫比較少。
R語言在業務分析、數據科學方面都擁有完善的工具支持,在深度學習方面的應用比較弱。
不過作者認為,深度學習在數據科學中的應用不多,而且在需要深度學習或者其他API時,R語言可以和Python集合。
再從就業市場角度來看。
作者統計了美國招聘市場上的數據。
結果顯示,Python方面在招職位的數量,是R語言的2.4倍。
但是了解、掌握Python的人,也比掌握R語言的更多。
可能達到4-32倍。
最終作者認為,選擇R語言更有優勢。
那么還有一些其他基礎技能呢?
比如推薦使用Excel嗎?
作者認為,雖然Excel的使用人群更廣、商務人士非常喜愛,但是它在處理機器學習、大數據方面都不具有優勢,而且單元格中的函數也容易報錯。
所以,建議大家慎重使用Excel。
而在選用什么開發工具方面,作者展開了一項小調查。
針對喜歡使用R語言的人群,RStudio是大家最喜愛的開發工具。
Python方面,Jupyter、VSCode更受人們歡迎。
在這里作者沒有給出明確的推薦,大家可以按照喜好選擇。
只需4步,上手數據科學
接下來,就到了正式學習的環節。
大致可以分為4個步驟:
掌握基礎技能學習建模學習時間序列分析將模型集成到應用程序
所需要點亮的技能樹如下所示:
看到這里,先不要頭皮發麻……作者給出了一些具體的學習tips。
第一,從基礎技能學起。
可能很多人一上來就想搞定機器學習,但這可能會影響學習興趣&效率。
作者用R語言進行了示范,列舉了一些基礎技能:
導入數據:使用數據庫,連接到SQL,readr包, readxl包;轉換數據:處理異常值、缺失數據、重塑數據、聚合、過濾等;可視化數據:靜態/交互式數據可視化,ggplot2以及plotly;處理文本數據、函數式編程……
如果以上這些基礎技能都掌握后,接下來就可以學習機器學習了。
在這里,可能有人會疑惑,不應該先學習數學、統計和算法嗎?
對此作者認為,如果從頭開始學習如何編寫算法,可能并不是快速上手數據分析。
所以,他更推薦從實戰中學習這些技能。
簡單來看可以分為三步:
把機器學習應用在實際問題上;嘗試使用不同的算法;對比不同的應用結果。
在這方面需要用到哪些工具呢?
Tidymodels和H2O是作者推薦的兩個軟件包。
另外,Recipes中具有很多預處理工具,可以轉換數據、創建數據特征。
接下來,作者推薦你開始學習時間序列分析。
因為這個技能意味著你可以對未來的一些數據進行預測,掌握這項技能也會使你成為大廠手中炙手可熱的人才。
在這方面,你需要掌握的技能如下:
時間序列分析:處理日期/日期時間數據、聚合、轉換、可視化時間序列、使用timetk預測:ARIMA、指數平滑、Prophet、機器學習(XGBoost、隨機森林、GLMnet 等)、深度學習(GluonTS)、集成、調整超參數、擴展預測、modeltime包。
進行到這一步后,你就可以嘗試去創建一個模型并投入使用了。
在這里,作者推薦了一個能夠將模型集成到應用程序中的工具——Shiny。
這個程序包可以用來創建交互式Web應用程序,代碼可以在本地或服務器上托管。
One More Thing
看完這份技能樹后,也有網友提出了疑問:
為什么沒有看到深度學習?
作者回復表示:針對商業應用,機器學習會更實用。
作者表示,有位小哥在他們網站選擇了快速進修的課程后,得到了微軟機器學習工程師的offer。
當然,這份完整的學習計劃是可以白嫖的(鏈接請見文末)。
對于這篇分享,你怎么看?
歡迎留言討論~
學習清單:https://www.business-science.io/r-cheatsheet
關鍵詞: 這份寶典火了 小哥學后加薪30W+
網站首頁 |網站簡介 | 關于我們 | 廣告業務 | 投稿信箱
Copyright © 2000-2020 www.fnsyft.com All Rights Reserved.
中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
聯系郵箱:920 891 263@qq.com
在线观看亚洲成人| 亚洲高清国产拍精品熟女| 亚洲精品无播放器在线播放| 亚洲免费在线视频观看| 亚洲伊人tv综合网色| 亚洲国产日韩一区高清在线| 亚洲精品tv久久久久久久久| 亚洲无码在线播放 | 久久久久久A亚洲欧洲AV冫| 国产亚洲精品美女| 亚洲成a人无码av波多野按摩| 婷婷国产偷v国产偷v亚洲| 国产精品亚洲专一区二区三区| 亚洲AV无码之国产精品| 99亚洲乱人伦aⅴ精品| MM1313亚洲国产精品| 日韩色日韩视频亚洲网站| 亚洲av高清在线观看一区二区| 黑人粗长大战亚洲女2021国产精品成人免费视频 | 亚洲视频一区二区三区| 亚洲狠狠狠一区二区三区| 亚洲成人网在线观看| 亚洲av片不卡无码久久| 亚洲成人激情小说| 亚洲成a人无码亚洲成av无码| 亚洲AV无码成人精品区狼人影院| 亚洲GV天堂无码男同在线观看| 久久精品国产亚洲AV未满十八 | 亚洲2022国产成人精品无码区| 亚洲国产综合专区在线电影| 亚洲色欲www综合网| 亚洲中文无码a∨在线观看| 伊人久久五月丁香综合中文亚洲| 中文字幕亚洲综合久久男男| 亚洲小说区图片区另类春色| 亚洲va久久久噜噜噜久久狠狠 | 国产精品亚洲一区二区在线观看| 亚洲国产黄在线观看| 亚洲欧洲日产国码无码网站 | 亚洲电影一区二区三区| 亚洲影视一区二区|