一個(gè)更強(qiáng)大的Python數(shù)據(jù)摘要工具
大家好,我是章北海
在數(shù)據(jù)科學(xué)領(lǐng)域,能夠快速、準(zhǔn)確地了解數(shù)據(jù)集的特性至關(guān)重要。
對(duì)使用 Jupyter Notebook 進(jìn)行數(shù)據(jù)分析的用戶而言,jupyter-summarytools 是一個(gè)強(qiáng)大且便捷的工具。
本文將詳細(xì)介紹 jupyter-summarytools 的功能、安裝方法及使用示例,幫助你在數(shù)據(jù)分析過(guò)程中事半功倍。
什么是 Jupyter Summary Tools?
jupyter-summarytools 是一個(gè) Python 包,旨在為 Jupyter Notebook 用戶提供類似于 R 語(yǔ)言中 summarytools 包的功能。它通過(guò)生成標(biāo)準(zhǔn)化且全面的數(shù)據(jù)框(DataFrame)摘要,幫助用戶快速了解數(shù)據(jù)集的結(jié)構(gòu)和主要特征。當(dāng)前,jupyter-summarytools 主要提供了 dfSummary 函數(shù),用于生成 HTML 格式的數(shù)據(jù)摘要,并支持多種展示方式,如可折疊摘要和標(biāo)簽頁(yè)摘要。
主要特性
標(biāo)準(zhǔn)化摘要:快速生成包含數(shù)據(jù)類型、缺失值、描述性統(tǒng)計(jì)等信息的綜合摘要。
可折疊摘要:通過(guò)折疊功能,用戶可以選擇性查看詳細(xì)信息,避免信息過(guò)載。
標(biāo)簽頁(yè)摘要:將不同數(shù)據(jù)集的摘要以標(biāo)簽頁(yè)形式展示,便于在同一頁(yè)面查看多個(gè)數(shù)據(jù)集。
安裝
在使用 jupyter-summarytools
之前,確保已安裝該庫(kù)。可以通過(guò)以下命令使用 pip
進(jìn)行安裝:
依賴
jupyter-summarytools
依賴于以下環(huán)境和庫(kù):
確保您的環(huán)境符合上述要求,以避免安裝或運(yùn)行時(shí)出現(xiàn)問(wèn)題。
快速開始
以下是 jupyter-summarytools
的快速入門指南,幫助您快速在 Jupyter Notebook 中生成數(shù)據(jù)框的摘要。
基本用法
首先,導(dǎo)入必要的庫(kù)并加載數(shù)據(jù)集:
import pandas as pd
from summarytools import dfSummary
# 加載數(shù)據(jù)集
titanic = pd.read_csv('./data/titanic.csv')
# 生成數(shù)據(jù)框摘要
dfSummary(titanic)
可折疊摘要
為了更好地展示數(shù)據(jù)摘要,可以使用可折疊摘要功能:
import pandas as pd
from summarytools import dfSummary
titanic = pd.read_csv('./data/titanic.csv')
# 生成可折疊的數(shù)據(jù)框摘要
dfSummary(titanic, is_collapsible=True)
標(biāo)簽式摘要
jupyter-summarytools
還支持標(biāo)簽式摘要,允許在不同標(biāo)簽頁(yè)中查看多個(gè)數(shù)據(jù)框的摘要:
import pandas as pd
from summarytools import dfSummary, tabset
# 加載多個(gè)數(shù)據(jù)集
titanic = pd.read_csv('./data/titanic.csv')
vaccine = pd.read_csv('./data/country_vaccinations.csv')
vaccine['date'] = pd.to_datetime(vaccine['date'])
# 生成標(biāo)簽式摘要
tabset({
'titanic': dfSummary(titanic).render(),
'vaccine': dfSummary(vaccine).render()
})
導(dǎo)出 Notebook 為 HTML
在將 Jupyter Notebook 導(dǎo)出為 HTML 時(shí),確保已安裝并啟用了 Export Embedded HTML
擴(kuò)展。使用以下命令可以保留數(shù)據(jù)框摘要在導(dǎo)出的 HTML 中:
jupyter nbconvert --to html_embed path/of/your/notebook.ipynb