<?xml version="1.0" encoding="UTF-8"?>
<!-- generator="FeedCreator 1.8" -->
<?xml-stylesheet href="https://mlib.eppdev.cn/lib/exe/css.php?s=feed" type="text/css"?>
<rdf:RDF
    xmlns="http://purl.org/rss/1.0/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
    xmlns:dc="http://purl.org/dc/elements/1.1/">
    <channel rdf:about="https://mlib.eppdev.cn/feed.php">
        <title>EPPDEV-MLIB model:preprocess</title>
        <description></description>
        <link>https://mlib.eppdev.cn/</link>
        <image rdf:resource="https://mlib.eppdev.cn/lib/exe/fetch.php?media=favicon.ico" />
       <dc:date>2026-04-19T11:25:59+0800</dc:date>
        <items>
            <rdf:Seq>
                <rdf:li rdf:resource="https://mlib.eppdev.cn/doku.php?id=model:preprocess:cut&amp;rev=1594526862&amp;do=diff"/>
                <rdf:li rdf:resource="https://mlib.eppdev.cn/doku.php?id=model:preprocess:group&amp;rev=1594526862&amp;do=diff"/>
                <rdf:li rdf:resource="https://mlib.eppdev.cn/doku.php?id=model:preprocess:impute&amp;rev=1594526862&amp;do=diff"/>
                <rdf:li rdf:resource="https://mlib.eppdev.cn/doku.php?id=model:preprocess:multivalue&amp;rev=1594526862&amp;do=diff"/>
            </rdf:Seq>
        </items>
    </channel>
    <image rdf:about="https://mlib.eppdev.cn/lib/exe/fetch.php?media=favicon.ico">
        <title>EPPDEV-MLIB</title>
        <link>https://mlib.eppdev.cn/</link>
        <url>https://mlib.eppdev.cn/lib/exe/fetch.php?media=favicon.ico</url>
    </image>
    <item rdf:about="https://mlib.eppdev.cn/doku.php?id=model:preprocess:cut&amp;rev=1594526862&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2020-07-12T12:07:42+0800</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>使用CutTransformer进行分段</title>
        <link>https://mlib.eppdev.cn/doku.php?id=model:preprocess:cut&amp;rev=1594526862&amp;do=diff</link>
        <description>使用CutTransformer进行分段

连续型特征的分段和离散化,一般使用 CutTransformer、LabelBinarizer来完成,示例代码如下:



# #####################################################
# File: 02-preprocess-05-CutTransformer
# Author: jinlong.hao
# Date: 2019-12-04
# CutTransfomer: 连续变量分段函数，类似与df.cut()，但是可以整合到pipeline中
#    与KbinsDescretizer的区别在于，此处时手工进行分段
# DESC：
#    1. import
#    2. 加载测试数据
#    3. 基础使用
#    4. 与DataFrame整合使用
# ####################################################

# 1. import
from sklearn.preprocessing import OneHotEnco…</description>
    </item>
    <item rdf:about="https://mlib.eppdev.cn/doku.php?id=model:preprocess:group&amp;rev=1594526862&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2020-07-12T12:07:42+0800</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>使用ReplaceTransformer进行连续数据分段</title>
        <link>https://mlib.eppdev.cn/doku.php?id=model:preprocess:group&amp;rev=1594526862&amp;do=diff</link>
        <description>使用ReplaceTransformer进行连续数据分段

离散数据分组,一般可以通过 ReplaceTransformer 来进行,示例如下:


# #####################################################
# File: 02-preprocess-07-ReplaceTransformer
# Author: jinlong.hao
# Date: 2019-12-04
# ReplaceTransformer: 实现替换方式用于实现离散形变量的合并
# DESC：
#    1. import
#    2. 加载测试数据
#    3. 基础使用
#    4. 与DataFrame整合使用
# ####################################################

# 1. import
from sklearn.preprocessing import OneHotEncoder, LabelBinarizer, LabelEncoder
from sklearn_pandas imp…</description>
    </item>
    <item rdf:about="https://mlib.eppdev.cn/doku.php?id=model:preprocess:impute&amp;rev=1594526862&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2020-07-12T12:07:42+0800</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>使用SimleImputer进行空值填充</title>
        <link>https://mlib.eppdev.cn/doku.php?id=model:preprocess:impute&amp;rev=1594526862&amp;do=diff</link>
        <description>使用SimleImputer进行空值填充

缺失值填充主要采用SimpleImputer来完成，示例代码如下：


# #############################################################
# File: 02-preprocess-08-SimpleImpute
# Author: 郝金隆
# Date: 2019-12-04
# SimpleImpute: 基础的插值补充
# 主要内容：
#     1. import语句
#     2. 加载示例数据
#     3. 基础用法
#     4. 与DataFrameMapper配合使用
# #############################################################

# 1. import语句
from sklearn.preprocessing import LabelBinarizer, OrdinalEncoder
from sklearn.impute import SimpleImputer
from sklearn…</description>
    </item>
    <item rdf:about="https://mlib.eppdev.cn/doku.php?id=model:preprocess:multivalue&amp;rev=1594526862&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2020-07-12T12:07:42+0800</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>多值变量数据的处理</title>
        <link>https://mlib.eppdev.cn/doku.php?id=model:preprocess:multivalue&amp;rev=1594526862&amp;do=diff</link>
        <description>多值变量数据的处理

对于存在多个值的变量处理，一般有两个方案：

	*  使用MultiLabelBinarizer()，主要用于处理数据保存在不同列中的情况
	*  使用CountVectorizer，主要用于处理数据保存在相同列中的情况</description>
    </item>
</rdf:RDF>
