不得不说 我还是小看了ML的知识涉及的广度
光是ML 100days 的第一天其实涉及的内容就非常多
从Sklearn包到pycharm自带的各种BUG都搞的人头大
总算把这个整的有点明白了
LabelEnconder
1 2 3 4 5 6 7 8 9
| from sklearn.preprocessing import LabelEconder y = data.iloc[:.-1]
le = LabelEnconder() le = le.fit(y) label = le.transform(y)
le.classes_
|
1 2 3
| data.iloc[: , -1] = LabelEncoder().fit_transform(data.iloc[: , -1])
|
OneHotEncoder
遇到互相不相关的属性,为了避免模型训练的时候把欧式距离计算进去,对结果造成影响
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
| from sklearn.preprocessing import OneHotEncoder X = data.iloc[:,1:-1]
enc = OneHotEncoder(categories='auto').fit(X) result = enc.transform(X).toarray()
OneHotEncoder(categories='auto').fit_transform(X).toattay()
import pandas as pd pd.DataFrame(enc.inverse_transform(result))
enc.get_feature_names()
|