數(shù)據(jù)分析必備：2020年9大數(shù)據(jù)科學(xué)項(xiàng)目分享（附R和Python代碼）

excel05 2020-05-22

展開全文

1.信用卡欺詐檢測

數(shù)據(jù)分析必備：2020年9大數(shù)據(jù)科學(xué)項(xiàng)目分享（附R和Python代碼）

預(yù)計(jì)到2022年，信用卡擁有者的數(shù)量將接近12億。為了確保信用卡交易的安全性，必須實(shí)時(shí)檢測不安全的交易。信用卡公司需要隨時(shí)識(shí)別出具有欺詐性的信用卡交易行為，從而保證客戶免受損失。

信用卡數(shù)據(jù)集包含欺詐和非欺詐交易的組合，目標(biāo)是預(yù)測給定的測試交易是否欺詐。

使用的算法：

由于目標(biāo)變量是分類變量，因此可以使用以下一系列機(jī)器學(xué)習(xí)算法來解決該問題：

邏輯回歸
決策樹
神經(jīng)網(wǎng)絡(luò)

R樣例代碼鏈接：

https://aining/blogs/data-science-machine-learning-project-credit-card-fraud-detection/

Python代碼示例：

https://www./mendozav/credit-card-fraud-detection-project

2.客戶細(xì)分

數(shù)據(jù)分析必備：2020年9大數(shù)據(jù)科學(xué)項(xiàng)目分享（附R和Python代碼）

客戶細(xì)分是將客戶群分成多個(gè)群體的過程，這些群體在產(chǎn)品的銷售方式或可以向他們營銷的方式上具有相似性，例如性別、年齡、興趣、人口統(tǒng)計(jì)、經(jīng)濟(jì)狀況、地理位置、行為方式、消費(fèi)習(xí)慣等。

客戶細(xì)分是無監(jiān)督學(xué)習(xí)的最重要應(yīng)用之一。通過使用群集技術(shù)，我們可以確定客戶的幾個(gè)細(xì)分市場，從而使他們可以定位潛在的用戶群。

我們可以使用群集過程來預(yù)見或映射具有類似行為的客戶群，以識(shí)別和定位潛在的用戶群。

使用的算法：

K均值聚類，分層聚類是最主要的聚類方法。其他會(huì)用到的聚類算法包括：

分割方法
模糊聚類
基于密度的聚類
基于模型的聚類

此外，在完成收集數(shù)據(jù)后，我們就可以更深入地了解客戶的喜好和發(fā)現(xiàn)有價(jià)值的細(xì)分市場的要求，從而獲得最大的利潤。這樣，我們就可以更有效地制定營銷策略，并最大程度地降低投資風(fēng)險(xiǎn)。

R樣例代碼鏈接：

https://aining/blogs/r-data-science-project-customer-segmentation/

Python代碼示例：

https://www./fabiendaniel/customer-segmentation

3.情感分析

數(shù)據(jù)分析必備：2020年9大數(shù)據(jù)科學(xué)項(xiàng)目分享（附R和Python代碼）

情感，可以定義為對情況或事件的看法或態(tài)度；意見是數(shù)據(jù)科學(xué)領(lǐng)域中至關(guān)重要的話題。情感分析在當(dāng)今社交媒體時(shí)代具有巨大的關(guān)聯(lián)性以及可以解決的商業(yè)問題的數(shù)量，已成為該領(lǐng)域最熱門的話題之一。

借助情感分析，你可以找出文檔、網(wǎng)站、社交媒體時(shí)間表等中反映觀點(diǎn)的性質(zhì)。人們應(yīng)該具有從快樂、悲傷、憤怒、積極或消極、沮喪、仇恨等各種情感。

在當(dāng)今的時(shí)代，任何數(shù)據(jù)驅(qū)動(dòng)型組織都必須接受情感分析模型的結(jié)果，這樣才能明確消費(fèi)者的態(tài)度并針對產(chǎn)品或服務(wù)確定目標(biāo)客戶。

Twitter就是一直在運(yùn)行著情感分析模型。有一些情報(bào)機(jī)構(gòu)進(jìn)行情緒分析以

使用的算法：

樸素貝葉斯
決策樹
軟件包Tidytext

R樣例代碼鏈接：

https://aining/blogs/data-science-r-sentiment-analysis-project/

Python代碼示例：

https://www./community/tutorials/simplifying-sentiment-analysis-python

4.語音情感識(shí)別

數(shù)據(jù)分析必備：2020年9大數(shù)據(jù)科學(xué)項(xiàng)目分享（附R和Python代碼）

在人類可以進(jìn)行的活動(dòng)中，很多事情取決于言語以及場景、產(chǎn)品或體驗(yàn)所具有的情感。

SER（語音情感識(shí)別）可以說是一項(xiàng)引人注目的數(shù)據(jù)科學(xué)項(xiàng)目。它試圖從語音（語音樣本）中感知人類的情感。此外，為了“看到”人的情感，將不同的聲音文件用作數(shù)據(jù)集。SER本質(zhì)上專注于特征提取以從錄音中提取情感。

在使用Python進(jìn)行項(xiàng)目實(shí)戰(zhàn)時(shí)，你還能通過分析音樂和音頻的Librosa庫來積累知識(shí)。

Vox名人數(shù)據(jù)集是進(jìn)行語音情感識(shí)別項(xiàng)目非常好用的數(shù)據(jù)集。

使用的算法：

卷積神經(jīng)網(wǎng)絡(luò)（CNN）
遞歸神經(jīng)網(wǎng)絡(luò)（RNN）
神經(jīng)網(wǎng)絡(luò)（NN）
高斯混合模型（GMM）
支持向量機(jī)（SVM）

Python代碼示例：

https://aining/blogs/python-mini-project-speech-emotion-recognition/

5.預(yù)測分析

數(shù)據(jù)分析必備：2020年9大數(shù)據(jù)科學(xué)項(xiàng)目分享（附R和Python代碼）

預(yù)測分析的目的是對未來的未知事件進(jìn)行預(yù)測。

它涵蓋了預(yù)測模型、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等各種統(tǒng)計(jì)技術(shù)，可以分析當(dāng)前和歷史事實(shí)以識(shí)別風(fēng)險(xiǎn)和機(jī)遇。

例子：

貸款預(yù)測數(shù)據(jù)：預(yù)測貸款是否會(huì)獲得批準(zhǔn)
預(yù)測HVAC需求：將天氣預(yù)報(bào)與建筑系統(tǒng)相結(jié)合
客戶關(guān)系管理
臨床決策支持系統(tǒng)
客戶和員工保留率：流失率
項(xiàng)目風(fēng)險(xiǎn)管理

R樣例代碼鏈接：

https:///ankit2106/277447

Python代碼示例：

https://www./sazid28/home-loan-prediction/notebook

6.時(shí)間序列分析與建模

數(shù)據(jù)分析必備：2020年9大數(shù)據(jù)科學(xué)項(xiàng)目分享（附R和Python代碼）

時(shí)間序列是按時(shí)間順序索引，列出或繪制圖形的一系列數(shù)據(jù)點(diǎn)。

時(shí)間序列是數(shù)據(jù)科學(xué)中最常用的技術(shù)之一，具有廣泛的應(yīng)用范圍，包括天氣預(yù)報(bào)、預(yù)測銷售、分析年趨勢、預(yù)測牽引力、網(wǎng)站訪問量、競爭地位等。

通過時(shí)間序列分析，我們可以調(diào)查每小時(shí)觀看的廣告，每天在游戲中花費(fèi)的貨幣，產(chǎn)品趨勢的變化等。

R代碼示例：

https://www./blog/2015/12/complete-tutorial-time-series-modeling/

Python代碼示例：

https://www./kashnitsky/topic-9-part-1-time-series-analysis-in-python

7.回歸分析

數(shù)據(jù)分析必備：2020年9大數(shù)據(jù)科學(xué)項(xiàng)目分享（附R和Python代碼）

回歸分析的目的是根據(jù)歷史數(shù)據(jù)預(yù)測結(jié)果。

回歸分析是一種強(qiáng)大的統(tǒng)計(jì)檢驗(yàn)，可以檢查兩個(gè)或多個(gè)目標(biāo)變量之間的關(guān)系。盡管有很多類型的回歸分析，但它們的核心都是檢查一個(gè)或多個(gè)自變量對目標(biāo)（因變量）的影響。

例子：

沃爾瑪銷售數(shù)據(jù)：預(yù)測商店的銷售
波士頓住房數(shù)據(jù)：預(yù)測自有住房的中位數(shù)
葡萄酒質(zhì)量預(yù)測：預(yù)測葡萄酒的質(zhì)量
黑色星期五銷售預(yù)測：預(yù)測家庭的購買金額

使用的算法：

取決于目標(biāo)變量的性質(zhì)：數(shù)字或分類

CART-因素目標(biāo)
決策樹-因素目標(biāo)
線性回歸—數(shù)字目標(biāo)
Logistic回歸-因素目標(biāo)

8.推薦系統(tǒng)

數(shù)據(jù)分析必備：2020年9大數(shù)據(jù)科學(xué)項(xiàng)目分享（附R和Python代碼）

推薦系統(tǒng)是一個(gè)使用過濾過程的平臺(tái)，可根據(jù)用戶的喜好為用戶提供各種相似的內(nèi)容。

推薦系統(tǒng)將有關(guān)用戶的信息作為輸入，并使用機(jī)器學(xué)習(xí)模型從參數(shù)評估中返回推薦。從Amazon到Zappos，推薦系統(tǒng)無處不在。推薦系統(tǒng)是一種典型的機(jī)器學(xué)習(xí)算法，可供數(shù)據(jù)科學(xué)家了解。

例如，Netflix為你提供與瀏覽歷史記錄相似的電影或節(jié)目的推薦，或與你瀏覽歷史類似的其他用戶過去觀看過的電影或節(jié)目的推薦。

推薦系統(tǒng)有兩種類型：

基于內(nèi)容的推薦系統(tǒng)：為用戶提供的數(shù)據(jù)提供具有代表性的推薦。根據(jù)該數(shù)據(jù)，生成用戶配置文件，然后將其用于向用戶提出建議。當(dāng)用戶提供更多輸入或?qū)ㄗh采取行動(dòng)時(shí)，推薦引擎將變得越來越準(zhǔn)確。
協(xié)作過濾建議：提供與可能具有相似觀看歷史或首選項(xiàng)的其他用戶有關(guān)的建議。

R代碼示例：

https://aining/blogs/data-science-r-movie-recommendation/

Python代碼示例：

https://www./community/tutorials/recommender-systems-python

9.探索性數(shù)據(jù)分析

數(shù)據(jù)分析必備：2020年9大數(shù)據(jù)科學(xué)項(xiàng)目分享（附R和Python代碼）

探索性數(shù)據(jù)分析（EDA）實(shí)際上是數(shù)據(jù)分析過程中的第一步。在這個(gè)項(xiàng)目中，你可以充分利用所擁有的數(shù)據(jù)，弄清楚你想問什么問題，如何構(gòu)架，如何分析獲取所需的答案。

EDA使用視覺和定量方法在現(xiàn)有數(shù)據(jù)中展示了廣泛的模式、趨勢、離群值、意外結(jié)果等。探索性數(shù)據(jù)分析可以完成很多項(xiàng)目，這里只列出了一些參考：

例子：

全球自殺率（數(shù)據(jù)集：https://www./russellyates88/suicide-rates-overview-1985-to-2016）
夏季奧運(yùn)會(huì)模型（數(shù)據(jù)集：https://www./divyansh22/summer-olympics-medals）
世界幸福報(bào)告（數(shù)據(jù)集：https://www./unsdsn/world-happiness）
麥當(dāng)勞菜單的營養(yǎng)成分（數(shù)據(jù)集：https://www./mcdonalds/nutrition-facts）

以上為本次分享的9個(gè)數(shù)據(jù)分析實(shí)戰(zhàn)項(xiàng)目，建議缺少項(xiàng)目實(shí)戰(zhàn)的同學(xué)，都去試試吧~

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： excel05 > 《Python》

舉報(bào)/認(rèn)領(lǐng)