当前在线人数8305
首页 - 分类讨论区 - 电脑网络 - 数据科学版 - 同主题阅读文章

此篇文章共收到打赏
0

  • 10
  • 20
  • 50
  • 100
您目前伪币余额:0
未名交友
[更多]
[更多]
面试一个公司, 给了一个题目,帮忙看看
[版面:数据科学][首篇作者:NobleBen] , 2019年05月03日17:29:58 ,3440次阅读,9次回复
来APP回复,赚取更多伪币 关注本站公众号:
[分页:1 ]
NobleBen
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 1 ]

发信人: NobleBen (be nice, be patient!!!!), 信区: DataSciences
标  题: 面试一个公司, 给了一个题目,帮忙看看
发信站: BBS 未名空间站 (Fri May  3 17:29:58 2019, 美东)

是个临床检测公司:给了个test case:
data is 580 X 16562
The first column of the provided data is the binary variable “response”.
The 16,562 other columns are binary columns that can be used to predict the
“response”.

A description of the predictive model, with a discussion of how well the
model performs.

我的打算是想把数据16562 通过 correlation of response 减到 1000 以内,然后,
做boost trapping of Lasso, 找到 important variable, and then prediction?

3x

--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

 
ExpressoLove
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 2 ]

发信人: ExpressoLove (MoneyForNothing), 信区: DataSciences
标  题: Re: 面试一个公司, 给了一个题目,帮忙看看
发信站: BBS 未名空间站 (Fri May  3 20:34:18 2019, 美东)

1. 可以先给每个feature 分成几个group,看positive 和
negative 在给个group 直接的相关性。 这样就可以用自动选fea
ture。 金融里边
probability of default model常用。


2. 可以用pca先给 16562个feature 姜维。 去accumal
ative variance 90-95% 或做好能够渠道2,300的新fe
atures。 
接下来就简单了, 用 5-fold cross validation。 al
gorithm 用xgboost,看看是不是performance要好点。 
也许logistic regression 已经足够了。 不过姜维就不知道那
些variable 重要了。 


【 在 NobleBen (be nice, be patient!!!!) 的大作中提到: 】
: 是个临床检测公司:给了个test case:
: data is 580 X 16562
: The first column of the provided data is the binary variable “response”.
: The 16,562 other columns are binary columns that can be used to predict
the
: “response”.
: A description of the predictive model, with a discussion of how well the
: model performs.
: 我的打算是想把数据16562 通过 correlation of response 减到 1000 以内,然后,
: 做boost trapping of Lasso, 找到 important variable, and then prediction?
: 3x



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 70.]

 
bravethinker
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 3 ]

发信人: bravethinker (老牛仔), 信区: DataSciences
标  题: Re: 面试一个公司, 给了一个题目,帮忙看看
发信站: BBS 未名空间站 (Fri May  3 23:11:14 2019, 美东)

Use NN with all features
【 在 NobleBen (be nice, be patient!!!!) 的大作中提到: 】
: 是个临床检测公司:给了个test case:
: data is 580 X 16562
: The first column of the provided data is the binary variable “response”.
: The 16,562 other columns are binary columns that can be used to predict
the
: “response”.
: A description of the predictive model, with a discussion of how well the
: model performs.
: 我的打算是想把数据16562 通过 correlation of response 减到 1000 以内,然后,
: 做boost trapping of Lasso, 找到 important variable, and then prediction?
: 3x



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 76.]

 
zwmpt
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 4 ]

发信人: zwmpt (梦的手指 ), 信区: DataSciences
标  题: Re: 面试一个公司, 给了一个题目,帮忙看看
发信站: BBS 未名空间站 (Sat May  4 07:10:05 2019, 美东)

外星人统治了,地球人都不懂这是什么
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 95.]

 
NobleBen
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 5 ]

发信人: NobleBen (be nice, be patient!!!!), 信区: DataSciences
标  题: Re: 面试一个公司, 给了一个题目,帮忙看看
发信站: BBS 未名空间站 (Sat May  4 22:15:16 2019, 美东)

谢谢, 外星人,
这个是生物科技公司,是不是解释性,合理性的model要好一些。
deep learning这些就会丧失这些特性。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

 
gmails
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 6 ]

发信人: gmails (清风), 信区: DataSciences
标  题: 面试一个公司, 给了一个题目,帮忙看看
发信站: BBS 未名空间站 (Tue May  7 16:50:24 2019, 美东)

Sorta of what I am doing.
All those features are actually gene expressions;
So, 1st reduce dimension (pca will work for sure, but, in bioinformatics we
use  Bayesian packages, edgeR or deseq to pick top DE genes.

2nd feature selection by RFE(), further reduce the important genes/features
to ~500.

3rd, svm-RFE(), with some optimizations, further tune the model.

4th, plot roc-auc to see model specificity

5 apply the model to test data, to get the confusion matrix.

--
※ 修改:·gmails 於 May  7 17:06:46 2019 修改本文·[FROM: 107.]
※ 来源:· 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 4.]

 
magliner
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 7 ]

发信人: magliner (magliner), 信区: DataSciences
标  题: Re: 面试一个公司, 给了一个题目,帮忙看看
发信站: BBS 未名空间站 (Wed May  8 10:49:06 2019, 美东)

请教一下, 你说的rfe是caret::rfe吗? 我对于该函数一直有疑问。
http://topepo.github.io/caret/recursive-feature-elimination.html

这个网页里, rfe看来用不同的模型来选择最终变量‘There are a number of pre-
defined sets of functions for several models, including: linear regression (
in the object lmFuncs), random forests (rfFuncs), naive Bayes (nbFuncs),
bagged trees (treebagFuncs) and functions that can be used with caret’s
train function (caretFuncs). The latter is useful if the model has tuning
parameters that must be determined at each iteration.’

我的疑问是, 既然模型都造出来了, 为什么要谈‘选变量’? 举个简化例子。 比如
输入100个变量, 选用线性回归, alpha = 5%, 输出10个变量。 与其像rfe()声称
1. ‘在100个变量里, 这10个变量最重要‘,
不如直接说:
2‘我用这100个变量,造了某种模型, 该模型最终只用了10个变量’

也许我对该文档理解有误,谁来指点指点。 另外, 为了说明问题, 我用了最简单的
解释,如何抽样都省掉了。

另外,我认为正确的‘变量选择’方法是计算以下变量, entropy / gini/ p_value/
chisq/accuracy/auc/kappa/yuden/F1.... 100个输入对应有100个输出。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 205.]

 
mswords
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 8 ]

发信人: mswords (舞文弄武), 信区: DataSciences
标  题: Re: 面试一个公司, 给了一个题目,帮忙看看
发信站: BBS 未名空间站 (Wed May  8 20:35:15 2019, 美东)

16,562特征就是看你懂不懂降维。 其中有10个足够判断, 所以必然先用pca降维, 接
下来用svm, random forest就行了。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 173.]

[分页:1 ]
[快速返回] [ 进入数据科学讨论区] [返回顶部]
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996