7個(gè)大數(shù)據(jù)處理方法,讓你的簡(jiǎn)歷脫穎而出
神譯局是36氪旗下編譯團(tuán)隊(duì),關(guān)注科技、商業(yè)、職場(chǎng)、生活等領(lǐng)域,重點(diǎn)介紹國(guó)外的新技術(shù)、新觀點(diǎn)、新風(fēng)向。
編者按:在當(dāng)今的數(shù)字時(shí)代,職業(yè)競(jìng)爭(zhēng)日益激烈,怎樣才能讓自己的簡(jiǎn)歷充滿亮點(diǎn),在職業(yè)競(jìng)聘中脫穎而出呢?最好是要有做大數(shù)據(jù)處理的經(jīng)歷!如果我們有了這樣的經(jīng)歷,那么它就成了證明自己能夠勝任某項(xiàng)工作的有力證據(jù)。本文列出了7個(gè)我們?cè)诳臻e時(shí)間就可以著手去做的數(shù)據(jù)科學(xué)項(xiàng)目。做了其中的任何一項(xiàng),都會(huì)提升自己的簡(jiǎn)歷。為了找到自己夢(mèng)想的工作,立即提升自己的簡(jiǎn)歷吧!本文來(lái)自翻譯,希望對(duì)您有幫助。
當(dāng)前,數(shù)據(jù)科學(xué)是一個(gè)熱門(mén)領(lǐng)域,做數(shù)據(jù)科學(xué)有關(guān)的項(xiàng)目是證明自己足以勝任某一份工作的最好方法。
在這篇博文里,我們可以看到利用空閑時(shí)間就能做的7個(gè)數(shù)據(jù)科學(xué)項(xiàng)目,這些項(xiàng)目,會(huì)給我們的簡(jiǎn)歷增加亮點(diǎn),讓它在眾多簡(jiǎn)歷中脫穎而出。
1. 回歸(Regression)
我們可以著手去做的第一個(gè)項(xiàng)目是以回歸為基礎(chǔ)的項(xiàng)目。回歸可以用來(lái)確定兩組變量之間關(guān)系的強(qiáng)度。
換句話說(shuō),它能夠用來(lái)計(jì)算當(dāng)一個(gè)變量發(fā)生變化時(shí),另一個(gè)變量變化了多少。回歸已成為數(shù)據(jù)研究者使用的非常重要的工具。
如果想要?jiǎng)?chuàng)建一個(gè)回歸項(xiàng)目,最好使用一個(gè)自己感興趣的數(shù)據(jù)集,并嘗試確定不同變量之間的關(guān)系。
我們能做的一些回歸項(xiàng)目?jī)?nèi)容如下:
(1)確定身高和體重之間的關(guān)系。
(2)確定收入與學(xué)歷之間的關(guān)系。
(3)確定投票行為與年齡之間的關(guān)系。
(4)確定高中生成績(jī)平均績(jī)點(diǎn)(GPA,Grade Point Average)與高考(SAT, Scholastic Aptitude Test and Scholastic Assessment Test)成績(jī)之間的關(guān)系。
以上這些項(xiàng)目,每一個(gè)都可以在相對(duì)較短的時(shí)間內(nèi)創(chuàng)建完成,在創(chuàng)建過(guò)程中也會(huì)讓我們更好地理解回歸是如何運(yùn)算的。
2. 分類(lèi)(Classification)
我們可以著手去做的下一個(gè)項(xiàng)目是分類(lèi)項(xiàng)目。分類(lèi)項(xiàng)目將幫助我們了解如何使用機(jī)器學(xué)習(xí)算法將新的數(shù)據(jù)分類(lèi)到一個(gè)預(yù)定義的類(lèi)別里。
對(duì)于一名數(shù)據(jù)研究者來(lái)說(shuō),了解分類(lèi)非常重要,因?yàn)樵谠S多不同的應(yīng)用程序中,比如圖像識(shí)別和文檔標(biāo)記,都會(huì)運(yùn)用到分類(lèi)。
我們能做的一些分類(lèi)項(xiàng)目?jī)?nèi)容如下:
(1)將圖像分成不同的類(lèi)別。例如,我們可以使用機(jī)器學(xué)習(xí)算法將動(dòng)物圖片分成哺乳動(dòng)物、鳥(niǎo)類(lèi)、爬行動(dòng)物等不同的類(lèi)別。
(2)將文本分成不同的類(lèi)別。例如,我們可以使用機(jī)器學(xué)習(xí)算法將《紐約時(shí)報(bào)》(New York Times)上的文章分成政治類(lèi)、商業(yè)類(lèi)、體育類(lèi)等不同的類(lèi)別。
(3)將郵件分成不同的類(lèi)別。例如,我們可以使用機(jī)器學(xué)習(xí)算法將電子郵件分為“垃圾郵件”或“非垃圾郵件”。
(4)將博客文章分成不同的類(lèi)別。例如,我們可以使用機(jī)器學(xué)習(xí)算法將高流量網(wǎng)站上的博客文章分為“積極的類(lèi)別”或“消極的類(lèi)別”。
3. 聚類(lèi)(Cluster)
聚類(lèi)是一種沒(méi)有任何現(xiàn)成模式可供參考或依循的學(xué)習(xí)算法,它根據(jù)數(shù)據(jù)點(diǎn)的屬性將數(shù)據(jù)點(diǎn)分在同一個(gè)組里。這類(lèi)項(xiàng)目將幫助我們理解如何在數(shù)據(jù)集中識(shí)別特定的集群,并使用基礎(chǔ)集群算法將數(shù)據(jù)中的項(xiàng)目分組到簇或類(lèi)中,使探索大型數(shù)據(jù)集的工作變得更容易些。
對(duì)于一名數(shù)據(jù)研究者來(lái)說(shuō),了解聚類(lèi)非常重要,因?yàn)樗谑袌?chǎng)營(yíng)銷(xiāo)、欺詐檢測(cè)等各種應(yīng)用程序中都被廣泛應(yīng)用。
我們能做的一些聚類(lèi)項(xiàng)目?jī)?nèi)容如下:
(1)對(duì)推文按主題進(jìn)行聚類(lèi)。這可以用來(lái)了解關(guān)于各種話題的公眾情緒,或者跟蹤Twitter上的信息。
(2)按類(lèi)型對(duì)電影或電視節(jié)目進(jìn)行聚類(lèi)。例如,我們可以在IMDB數(shù)據(jù)集中對(duì)電影類(lèi)型進(jìn)行聚類(lèi),從中發(fā)現(xiàn)與我們最喜歡的電影類(lèi)型相似但不完全相同的新的電影類(lèi)型。(例如,浪漫喜劇和戲劇)
(3)根據(jù)產(chǎn)品類(lèi)型對(duì)雜貨店里的商品進(jìn)行聚類(lèi)。(例如,洗衣粉和除臭劑)我們可以根據(jù)屬性(品牌、大小、顏色)的不同將各物品聚類(lèi)到各個(gè)數(shù)據(jù)集中。
(4)進(jìn)行有針對(duì)性的營(yíng)銷(xiāo)活動(dòng),對(duì)顧客進(jìn)行細(xì)分聚類(lèi)。例如,我們可以根據(jù)客戶的購(gòu)買(mǎi)歷史或人口信息對(duì)他們進(jìn)行聚類(lèi)。
4. 情緒分析(Sentiment Analysis)
情緒分析是對(duì)文本中所表達(dá)的態(tài)度和情感進(jìn)行識(shí)別和量化的過(guò)程。
對(duì)于一名數(shù)據(jù)研究者來(lái)說(shuō),了解情緒分析非常重要,因?yàn)檫\(yùn)用情緒分析可以洞察客戶反饋、產(chǎn)品評(píng)論甚至是股票市場(chǎng)趨勢(shì)。
我們可以著手去做的情緒分析項(xiàng)目?jī)?nèi)容如下:
(1)分析客戶反饋的數(shù)據(jù),從中識(shí)別出積極情緒和消極情緒。例如,我們可以通過(guò)查看客戶對(duì)新產(chǎn)品的評(píng)論,來(lái)找出頻率最高的差評(píng)和好評(píng)。
(2)分析Twitter數(shù)據(jù),來(lái)了解情緒是如何隨著時(shí)間而變化的。例如,我們可以在幾周或幾個(gè)月的時(shí)間內(nèi)追蹤Twitter上關(guān)于某一特定話題(如總統(tǒng)選舉)的情緒。
(3)將影評(píng)分為正面的或負(fù)面的。例如,我們可以應(yīng)用文本分類(lèi)算法將來(lái)自“爛番茄”(Rotten Tomatoes)的評(píng)論分為“新鮮的”(正面的)和“腐爛的”。(反面的)
(4)識(shí)別Twitter上關(guān)于自己的公司及競(jìng)爭(zhēng)對(duì)手的情緒。例如,我們可以追蹤Yelp對(duì)某一產(chǎn)品的評(píng)論,并確定人們的情緒是如何隨時(shí)間而變化的。
5. 推薦系統(tǒng)(Recommender System)
推薦系統(tǒng)用于對(duì)產(chǎn)品和服務(wù)進(jìn)行個(gè)性化推薦。
對(duì)于一名數(shù)據(jù)研究者來(lái)說(shuō),了解推薦系統(tǒng)也是很重要的,因?yàn)橥扑]系統(tǒng)可以幫助企業(yè)將其營(yíng)銷(xiāo)活動(dòng)個(gè)性化,提高客戶的參與度。
我們可以著手去做的一些非常實(shí)用的推薦系統(tǒng),如下:
(1)構(gòu)建電影推薦系統(tǒng)。例如,我們可以構(gòu)建一個(gè)算法,根據(jù)用戶對(duì)以前看過(guò)的電影的評(píng)分來(lái)推薦新電影。
(2)建立亞馬遜產(chǎn)品推薦系統(tǒng)。這可以通過(guò)使用諸如交替最小二乘(ALS,Alternating Least Squares)算法這樣的算法來(lái)實(shí)現(xiàn)。
(3)為公司或零售網(wǎng)站建立產(chǎn)品推薦系統(tǒng)。例如,我們可以把不同的產(chǎn)品鏈接在一起,從中推薦同一類(lèi)別的產(chǎn)品。(例如,“如果你喜歡這個(gè)產(chǎn)品,你也會(huì)喜歡這些”)
(4)構(gòu)建旅游推薦系統(tǒng)。例如,我們可以使用位置數(shù)據(jù)來(lái)推薦用戶所在位置附近的娛樂(lè)活動(dòng)或餐館。
6.自然語(yǔ)言處理(NLP,Natural language Processing)
自然語(yǔ)言處理是從文本數(shù)據(jù)中理解和提取信息的過(guò)程。
這一類(lèi)項(xiàng)目將幫助我們理解自然語(yǔ)言處理的基礎(chǔ)知識(shí),以及如何從文本數(shù)據(jù)中提取信息。
對(duì)于一名數(shù)據(jù)研究者來(lái)說(shuō),了解自然語(yǔ)言處理非常重要,因?yàn)檫\(yùn)用自然語(yǔ)言處理可以分析客戶反饋、產(chǎn)品評(píng)論,甚至法律文件。
我們可以著手去做的一些自然語(yǔ)言處理項(xiàng)目?jī)?nèi)容如下:
(1)分析客戶反饋數(shù)據(jù),了解客戶是如何用自己的話來(lái)描述產(chǎn)品或服務(wù)的。(例如,反饋中是否包含積極的或消極的關(guān)鍵詞?)
(2)從法律文件中提取信息。(如:合同要點(diǎn)的提取)
(3)從亞馬遜的產(chǎn)品描述中提取信息。(例如:提取對(duì)產(chǎn)品的特性和優(yōu)點(diǎn)的描述)
(4)從推文中提取某一公司或其競(jìng)爭(zhēng)對(duì)手的信息。
7. 人工神經(jīng)網(wǎng)絡(luò)(ANN,Artificial Neural Network)
人工神經(jīng)網(wǎng)絡(luò)是一種類(lèi)似于大腦神經(jīng)處理信息的機(jī)器學(xué)習(xí)算法。
它是由相互連接的神經(jīng)元組成。通過(guò)這些神經(jīng)元可以學(xué)習(xí)和識(shí)別數(shù)據(jù)模式。我們通常運(yùn)用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別或自然語(yǔ)言處理等。
人工神經(jīng)網(wǎng)絡(luò)有許多不同的類(lèi)型,所以我們要選擇一個(gè)適合自己的特定數(shù)據(jù)集和用例。
我們可以著手去做的人工神經(jīng)網(wǎng)絡(luò)項(xiàng)目?jī)?nèi)容如下:
(1)構(gòu)建簡(jiǎn)單的人工神經(jīng)網(wǎng)絡(luò)識(shí)別手寫(xiě)數(shù)字。
(2)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)股票市場(chǎng)價(jià)格。
(3)構(gòu)建神經(jīng)網(wǎng)絡(luò),將圖像分成不同的類(lèi)別。(如狗或貓)
(4)訓(xùn)練神經(jīng)網(wǎng)絡(luò)識(shí)別文本文檔的語(yǔ)言。
立即提升自己的簡(jiǎn)歷
感謝大家閱讀此文!如果大家需要提升自己的簡(jiǎn)歷,可以考慮去做這7個(gè)數(shù)據(jù)科學(xué)項(xiàng)目中的任意一個(gè),來(lái)讓簡(jiǎn)歷脫穎而出。
從構(gòu)建人工神經(jīng)網(wǎng)絡(luò)或自然語(yǔ)言處理算法,到分析客戶反饋和產(chǎn)品評(píng)論,這些項(xiàng)目能夠以多種方式展示我們的大數(shù)據(jù)處理能力。
譯者:甜湯
標(biāo)簽: 脫穎而出 數(shù)據(jù)處理