跳至内容
EPPDEV-MLIB
用户工具
登录
站点工具
搜索
工具
显示页面
修订记录
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
model:preprocess:multivalue
本页面只读。您可以查看源文件,但不能更改它。如果您觉得这是系统错误,请联系管理员。
====== 多值变量数据的处理 ====== 对于存在多个值的变量处理,一般有两个方案: - 使用MultiLabelBinarizer(),主要用于处理数据保存在不同列中的情况 - 使用CountVectorizer,主要用于处理数据保存在相同列中的情况 ===== MultiLabelBinarizer示例 ===== <code python> # ######################################################## # File: 02-preprocess-02-MultiLabelBinarizer # author: 郝金隆 # Date: 2019-12-04 # MultiLabelBinarizer: # 将多列离散型数据共同二进制化,转化为dummy变量,适用于类似 # 兴趣爱好1,兴趣爱好2,兴趣爱好3这样的数据 # 主要内容: # 1. import语句 # 2. 加载示例数据 # 3. 基础用法 # 4. 与DataFrameMapper配合使用 # ############################################################# # 1. import语句 from sklearn.preprocessing import LabelBinarizer from sklearn.preprocessing import MultiLabelBinarizer from sklearn_pandas import DataFrameMapper from sklearn2pmml.preprocessing import CastTransformer import numpy as np import pandas as pd # 2. 加载示例数据 df = pd.DataFrame({ 'pet_1': ['fish', 'dog', 'cat', 'dog', 'fish'], 'pet_2': ['bird', 'goose', 'fish', 'cat', np.NaN] }) # 4. 与DataFrameMapper协作使用 # 4.1 使用MulbiLabelBinarizer(),分成了5列,两列中的重复内容合并了 dataFrameMapper = DataFrameMapper([ (['pet_1', 'pet_2'], [CastTransformer(str), MultiLabelBinarizer()]) ], df_out=True) dataFrameMapper.fit_transform(df) </code> > 注意:MultiLabelBinarizer对空值处理不是特别的友好,需要首先进行转换,否则会报错 ===== CountVectorizer示例 ===== <code python> # #################################################### # file: 02-preprocessing-10-CounterVectorizer # author: jinlong.hao # date: 2019-12-11 # desc: 文本向量化处理 # content: # 1. import # 2. 加载示例数据 # 3. 基础使用 # 4. 与DataFrameMapper结合使用 # ###################################################### # 1. import from sklearn.feature_extraction.text import CountVectorizer from sklearn_pandas import DataFrameMapper import pandas as pd import numpy as np # 2. 加载数据 df = pd.DataFrame({ 'sources': [ '汽车之家,易车', '汽车之家,易车,爱卡', '爱卡', '易车' ] }) # 4. 与DataFrameMapper配合使用 dataFrameMapper=DataFrameMapper([ ('sources', CountVectorizer()) ], df_out=True) dataFrameMapper.fit_transform(df) </code>
model/preprocess/multivalue.txt
· 最后更改: 2020/07/12 12:07 (外部编辑)
页面工具
显示页面
修订记录
反向链接
回到顶部