データのロード

CSVファイルのロード

1
2
import pandas as pd
pd.read_csv('./data.csv')

BigQueryクエリ結果のロード

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
import pydata_google_auth
import pydata_google_auth.cache
from google.cloud.bigquery import Client
credentials = pydata_google_auth.get_user_credentials(
    scopes = ['https://www.googleapis.com/auth/bigquery'],
)
client = Client(project="myprojectname", credentials=credentials)

job = client.query("SELECT * FROM mytable;")
df = job.to_dataframe()

データ仕様の把握

データの中身を見る

1
2
df.head() # 先頭
df.tail() # 末端

スキーマ情報を見る

1
df.info()

1
2
3
4
5
6
7
8
9
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
...
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

数値型の列の統計を見る

1
df.describe()

	PassengerId	Survived	Pclass	Age	SibSp	Parch	Fare
count	891.000000	891.000000	891.000000	714.000000	891.000000	891.000000	891.000000
mean	446.000000	0.383838	2.308642	29.699118	0.523008	0.381594	32.204208
std	257.353842	0.486592	0.836071	14.526497	1.102743	0.806057	49.693429
min	1.000000	0.000000	1.000000	0.420000	0.000000	0.000000	0.000000
25%	223.500000	0.000000	2.000000	20.125000	0.000000	0.000000	7.910400
50%	446.000000	0.000000	3.000000	28.000000	0.000000	0.000000	14.454200
75%	668.500000	1.000000	3.000000	38.000000	1.000000	0.000000	31.000000
max	891.000000	1.000000	3.000000	80.000000	8.000000	6.000000	512.329200

count non-nullな行数
mean 平均
std 標準偏差
max,min 最大値、最小値
25%,50%,75% 25,50,75パーセンタイル

カテゴリ変数が含まれる列の統計を見る

1
df.describe(include=['O'])

Name	Sex	Ticket	Cabin	Embarked
count	891	891	891	204
unique	891	2	681	147
top	Panula, Master. Juha Niilo	male	1601	C23 C25 C27
freq	1	577	7	4

count non-nullな行数
unique 含まれる値の種類
top 最頻値
freq 最頻値が登場する回数

カラムに含まれる値のリストを見る

1
df.unique()

データ加工

転置

1
df.T

ソート

1
df[["hoge", "fuga"]].sort_values(by='hoge', ascending=False)

行・列の削除

列の削除

1
df.drop(columns=['hoge'])

inplace=True オプションを指定すると元のデータフレームを書き換える

行を条件で抽出

1
df[df['Name'].isin(['Alice','Bob'])]

1
df.query('name == "Alice" or name == "Bob"', engine='python')

リネーム

行のリネーム

1
df.rename(columns={'A': 'Col_1'})

集約

1
df[["hoge", "fuga"]].groupby(['hoge'], as_index=False).mean()

以下のSQLと同じ意味

1
SELECT hoge, AVG(fuga) AS fuga FROM df GROUP BY hoge;

結合

1
pd.merge(df_a, df_b, on='column1', how='inner')

howは inner, left, right, outer を指定する

以下のSQLと同じ意味

1
SELECT * FROM df_a INNER JOIN df_b ON df_a.column1 = df_b.column1;

値の変換

map

1
df['Flag'] = df['Flag'].map({'True': 1, 'False': 0}).astype(int)

apply

1
df['Diff'] = df[['X','Y'].apply(lambda a: a['X'] - a['Y'], axis=1)

欠損値を埋める

1
df=df.fillna("None")

クロス集計

1
pd.crosstab(df['Job'],df['Sex'])

Before:

	Job	Sex
1	student	male
2	engineer	female
3	…	…

After:

	female	male
engineer	19	49
student	70	95
…	…	…

標準化

平均が0、分散が1になるようにデータのスケールを変換する

StandardScaler

1
2
3
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(df)

RobustScaler

外れ値を除外した上でStandardScalerの処理を行う

1
2
3
from sklearn.preprocessing import RobustScaler
scaler = RobustScaler(quantile_range(25.0,75.0))
scaler.fit(df)

正規化

最大値と最小値が揃うようにデータのスケールを変換する

1
2
3
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler(feature_range(0,1))
scaler.fit(df)

カテゴリ変数の数値化

1
2
3
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df = le.fit_transform(df)

Before:

	Age	Sex
1	24	female
2	42	male
3	…	…

After

	Age	Sex
1	24	0
2	42	1
3	…	…

ダミー変数化

1
df=pd.get_dummies(df, columns=['sex'])

Before:

name	age	sex
Alice	24	female
Bob	42	male

After:

name	age	sex_male	sex_female
Alice	24	0	1
Bob	42	1	0

drop_first=True オプションを指定すると自由度の数だけダミー変数が用意される

1
df=pd.get_dummies(df, drop_first=True)

After:

name	age	sex_male
Alice	24	0
Bob	42	1

データ可視化

数値変数間の相関を見る

1
2
3
import seaborn as sns
import japanize_matplotlib # 文字化け対応
sns.pairplot(df)

ref: seaborn.pairplot

カテゴリ変数ごとの傾向を見る

1
sns.FacetGrid(df, col="time", row="sex").map(sns.scatterplot, "total_bill", "tip")

ref: seaborn.FacetGrid

散布図

1
df.plot.scatter(x='length',y='width')

ヒストグラム

1
sns.histplot(data=df, x='Length', stat='percent')

経験的累積分布関数

1
sns.distplot(data=df, x='Length', kind="ecdf")

二変量プロット

1
sns.distplot(data=df, x='Width', y='Length')

ヒートマップ

1
sns.heatmap(df)

統計的仮説検定

二項検定

2つのカテゴリに分類されたデータの比率が偏っているかどうかを検定する

A/BテストにおいてCVRに有意差があるかどうかなど

1
2
3
4
5
6
from scipy import stats
x=500 #事象の発生回数
n=1000 #試行回数
a=0.5 #発生確率の帰無仮説
p = stats.binom_test(x, n, a)
print(p)

マンホイットニーのU検定

2組の数値の集合が独立分布といえるかどうかを検定する

2つのクラスのテスト成績に有意差があるかどうかなど

1
2
3
from scipy import stats
result = stats.mannwhitneyu(df['A'],df['B'],alternative='two-sided')
print(result.pvalue)

χ二乗検定(独立性検定)

2つのカテゴリ変数が互いに独立であるかどうかを検定する

性別によって職業が左右されるかなど

1
2
3
4
from scipy import stats
df=pd.crosstab(df['Job'],df['Sex'])
x2, p, dof, expected = stats.chi2_contingency(df)
print(p)

ref: クロス集計

分析モデル

Cox比例ハザードモデル

生存期間を予測する

1
2
3
4
5
6
7
from lifelines import CoxPHFitter

cph = CoxPHFitter()
cph.fit(rossi, duration_col='lifetime', event_col='is_dead')

cph.print_summary()
cph.plot()

機械学習

学習データの用意

テストデータと教師データの分割

1
2
3
4
5
from sklearn.model_selection import train_test_split
X=df.drop(index='Target')
y=df['Target']

train_X, test_X, train_y, test_y = train_test_split(X,y)

クロスバリデーション

1
2
3
4
5
6
7
8
from sklearn.model_selection import cross_validate

clf = RandomForestClassifier()
X=df.drop(index='Target')
y=df['Target']

scores = cross_validate(clf, X, y, scoring=['accuracy','precision','recall','f1'], cv=5)
print(scores)

特徴量選択

ロジスティック回帰の決定関数における特徴量の係数を表示する

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression()
logreg.fit(X_train, y_train)

y_pred = logreg.predict(X_test)
print(logreg.score(X_train, y_train))

coeff_df = pd.DataFrame(train_df.columns.delete(0))
coeff_df.columns = ['Feature']
coeff_df["Correlation"] = pd.Series(logreg.coef_[0])

coeff_df.sort_values(by='Correlation', ascending=False)

	Feature	Correlation
1	Sex	2.201527
5	Title	0.398234
2	Age	0.287163
4	Embarked	0.261762
6	IsAlone	0.129140
3	Fare	-0.085150
7	Age*Class	-0.311200
0	Pclass	-0.749007

決定木モデルを可視化する

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
from sklearn.tree import DecisionTreeClassifier,plot_tree
import matplotlib.pyplot as plt

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print(clf.score(X_train, y_train))

plot_tree(clf,max_depth=2)
plt.show()

データのロード#

CSVファイルのロード#

BigQueryクエリ結果のロード#

データ仕様の把握#

データの中身を見る#

スキーマ情報を見る#

数値型の列の統計を見る#

カテゴリ変数が含まれる列の統計を見る#

カラムに含まれる値のリストを見る#

データ加工#

転置#

ソート#

行・列の削除#

列の削除#

行を条件で抽出#

リネーム#

行のリネーム#

集約#

結合#

値の変換#

map#

apply#

欠損値を埋める#

クロス集計#

標準化#

StandardScaler#

RobustScaler#

正規化#

カテゴリ変数の数値化#

ダミー変数化#

データ可視化#

数値変数間の相関を見る#

カテゴリ変数ごとの傾向を見る#

散布図#

ヒストグラム#

経験的累積分布関数#

二変量プロット#

ヒートマップ#

統計的仮説検定#

二項検定#

マンホイットニーのU検定#

χ二乗検定(独立性検定)#

分析モデル#

Cox比例ハザードモデル#

機械学習#

学習データの用意#

テストデータと教師データの分割#

クロスバリデーション#

特徴量選択#

ロジスティック回帰の決定関数における特徴量の係数を表示する#

決定木モデルを可視化する#

モデル選択#

データのロード

CSVファイルのロード

BigQueryクエリ結果のロード

データ仕様の把握

データの中身を見る

スキーマ情報を見る

数値型の列の統計を見る

カテゴリ変数が含まれる列の統計を見る

カラムに含まれる値のリストを見る

データ加工

転置

ソート

行・列の削除

列の削除

行を条件で抽出

リネーム

行のリネーム

集約

結合

値の変換

map

apply

欠損値を埋める

クロス集計

標準化

StandardScaler

RobustScaler

正規化

カテゴリ変数の数値化

ダミー変数化

データ可視化

数値変数間の相関を見る

カテゴリ変数ごとの傾向を見る

散布図

ヒストグラム

経験的累積分布関数

二変量プロット

ヒートマップ

統計的仮説検定

二項検定

マンホイットニーのU検定

χ二乗検定(独立性検定)

分析モデル

Cox比例ハザードモデル

機械学習

学習データの用意

テストデータと教師データの分割

クロスバリデーション

特徴量選択

ロジスティック回帰の決定関数における特徴量の係数を表示する

決定木モデルを可視化する

モデル選択