Need help with tianchi_bigdata?
Click the “chat” button below for chat support from the developer who created it, or find similar developers for support.

About the developer

yanshengli
129 Stars 112 Forks 15 Commits 6 Opened issues

Description

阿里2015年天池大数据比赛,采用移动窗口采样加随机森林学习

Services available

!
?

Need anything else?

Contributors list

# 281,232
Python
15 commits

tianchi_bigdata

任务:

详见天池大数据任务介绍

特征(39维):

user特征、item特征、user-item特征、全局比例特征

数据采样

采用移动窗口target(17、15、13、11、9)+移动窗口样本采样(1、3、7、全部)

训练数据

正样本:15000,负样本:130000

测试数据

同样采用移动窗口变换采样,取了3天、5天、9天的做实验,最优提交为9天的,测试样本大小:155万

结果划分

结果最终取置信度0.78,取470条结果(子集结果),最终f1值:11.46%

排名:25/7200,队伍名:叮当

学习模型

RF

程序架构

combine_feature_txt:混合正负样本特征

cut_data_set.py:按照移动窗口方式,分割数据集

fetch_feature.py:提取特征

fetch_negative_sample:负样本抽样

fetch_sample:提取正、负样本

get_feature_vector_txt_4.py:提取特征向量,去掉用户-商品标示

get_recommend_result_6.py:对最后分类结果取置信度,并得到相应的推荐结果

global_feature.py:提取全局比例特征

product_test_data.py:产生测试数据

classify_user_item.py:训练学习特征,并预测

大赛排名

We use cookies. If you continue to browse the site, you agree to the use of cookies. For more information on our use of cookies please see our Privacy Policy.