こんにちは、まさかめです。
今回はpandas-profilingというライブラリを用いて探索的データ分析を行う方法を紹介していきます。
Contents
pandas-profiling
pandas-profilingとは、データフレームに対して各カラムがどういう値を持っているのか、他のカラムとどう関係しているのか等を行ってくれるライブラリです。
まさかめ
短いコードで各データをチェックできるからとっても便利だよ!
準備
準備はライブラリをインストールするだけです。
pip install pandas-profiling
まさかめ
特に難しいことはないからすぐに試せるね!
実行
以下はデータ分析界ではお馴染み、タイタニックのデータで試しています。
import pandas as pd
import pandas_profiling as pdp
from sklearn.datasets import fetch_openml
titanic = fetch_openml(data_id=40945, as_frame=True)
df = titanic.data
pdp.ProfileReport(titanic.data)
すると、以下の画像のようなレポートが出力されます。
実際の出力では、ここから下にもっと続いていきます。
内容としては、相関係数や欠損値の数、カラム内のユニークな値の数など様々です。
まとめ
今回はpandas-profilingというライブラリを用いて探索的データ分析を行う方法を紹介しました。
他にも探索的データ分析のやり方はありますが、padans-profilingを用いる方法は非常に簡単ながらも有効な手段かと思いますので、是非一度試してみてください!