当前在线人数16633
首页 - 分类讨论区 - 电脑网络 - 数据科学版 - 同主题阅读文章

此篇文章共收到打赏
0

  • 10
  • 20
  • 50
  • 100
您目前伪币余额:0
未名交友
[更多]
[更多]
一道药厂computational biology的面试题
[版面:数据科学][首篇作者:merrimac] , 2017年09月22日11:55:02 ,2124次阅读,10次回复
来APP回复,赚取更多伪币 关注本站公众号:
[分页:1 ]
merrimac
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 1 ]

发信人: merrimac (不告诉你), 信区: DataSciences
标  题: 一道药厂computational biology的面试题
发信站: BBS 未名空间站 (Fri Sep 22 11:55:02 2017, 美东)

最近电面了一个大药厂的职位。这道题不知怎么答好。

有两组病人,用同一种药治疗,其中一组病人的效果好,而另外一组的疗效不好。现有
每个病人的RNAseq数据,也就是两万多个基因的表达值数据(normalized),这个值得范
围可能是0-100,非随机,非线性分布,但总体的均值为1. 问用什么样的机器
学习的方法或统计方法来找出一组基因,也就是两万多个基因中的一小部分,其表达值
可以用于病人对于该治疗的预测?

多谢指教。

Two patient cohorts, all treated with the same drug. One cohort are the
responders, who has response to the treatment and the other one are non-
responders who does not respond to the treatment. RNAseq was performed and
we have the normalized gene expression values of the 20,000 genes for each
of the patients. The expression value ranges from 0-100 with total average
of 1.

The question is how to find out a gene set (a small portion of the 20,000
gene) and use their combined (maybe weighted) gene expression value to
predict if a patient is either a responder or non-responder to the drug
treatment. It's a binary prediction.

Hope this clear.
--
※ 修改:·merrimac 於 Sep 22 13:27:15 2017 修改本文·[FROM: 155.]
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 155.]

 
sitan
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 2 ]

发信人: sitan (黑白熊), 信区: DataSciences
标  题: Re: 一道药厂computational biology的面试题
发信站: BBS 未名空间站 (Fri Sep 22 13:13:38 2017, 美东)

每个基因都有数据,还是只有一大批的基因的平均值?
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 172.]

 
merrimac
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 3 ]

发信人: merrimac (不告诉你), 信区: DataSciences
标  题: Re: 一道药厂computational biology的面试题
发信站: BBS 未名空间站 (Fri Sep 22 13:26:19 2017, 美东)

每个基因都有数据,所以每个病人有20,000个数值。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 155.]

 
UIFK
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 4 ]

发信人: UIFK (James), 信区: DataSciences
标  题: Re: 一道药厂computational biology的面试题
发信站: BBS 未名空间站 (Sat Sep 23 10:31:05 2017, 美东)

1) 可以试试看lasso,应该很多x (gene expression value)的系数会是0, 剩下的小
部分x做预测。
2) 很多machine-learning 的方法也可以吧。 比如random forest 预测binary (
responder vs non-responder), 用 variable importance plot取rank 高的若干x.


--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 173.]

 
cheungche
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 5 ]

发信人: cheungche (你不乖), 信区: DataSciences
标  题: Re: 一道药厂computational biology的面试题
发信站: BBS 未名空间站 (Tue Sep 26 23:55:38 2017, 美东)

直觉就是lasso regression啊,调节一下lambda,大部分系数
都归零了。

【 在 merrimac (不告诉你) 的大作中提到: 】
: 最近电面了一个大药厂的职位。这道题不知怎么答好。
: 有两组病人,用同一种药治疗,其中一组病人的效果好,而另外一组的疗效不好。现有
: 每个病人的RNAseq数据,也就是两万多个基因的表达值数据(normalized),这个值得范
: 围可能是0-100,非随机,非线性分布,但总体的均值为1. 问用什么样的机器
: 学习的方法或统计方法来找出一组基因,也就是两万多个基因中的一小部分,其表达值
: 可以用于病人对于该治疗的预测?
: 多谢指教。
: Two patient cohorts, all treated with the same drug. One cohort are the
:  responders, who has response to the treatment and the other one are non-
:  responders who does not respond to the treatment. RNAseq was performed
and
: ...................

--
.┣━┒ ; `.┣─┒` .;
``┟━┃┍╄┓┟━│ ╃━ ` ,;.
` ┝─┃┣╈┤┣━┃ / ╈ ˋ★.ˊ
.┗━┘┗┸┛└━┛/┃┻ `. ′.



※ 来源:·BBS 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 108.]

 
HarvardThief
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 6 ]

发信人: HarvardThief (博后肄业), 信区: DataSciences
标  题: Re: 一道药厂computational biology的面试题
发信站: BBS 未名空间站 (Wed Sep 27 23:16:44 2017, 美东)

这是个variable selection问题。这题应该没有标准答案,就看你能不能说出个123,
所以你得对这方面有所了解,但不见得上来就会做。你要说出一些关键词比如variable
selection,一些常见的可以做variable selection的分类方法比如forward/backward
selection,lasso regression,svm等,一些判断分类器好坏的办法比如AIC/BIC,
cross-validation。

如果深究这个问题:
https://en.wikipedia.org/wiki/Feature_selection
办法很多,还有不少专门针对gene expression的方法。

【 在 merrimac (不告诉你) 的大作中提到: 】
: 最近电面了一个大药厂的职位。这道题不知怎么答好。
: 有两组病人,用同一种药治疗,其中一组病人的效果好,而另外一组的疗效不好。现有
: 每个病人的RNAseq数据,也就是两万多个基因的表达值数据(normalized),这个值得范
: 围可能是0-100,非随机,非线性分布,但总体的均值为1. 问用什么样的机器
: 学习的方法或统计方法来找出一组基因,也就是两万多个基因中的一小部分,其表达值
: 可以用于病人对于该治疗的预测?
: 多谢指教。
: Two patient cohorts, all treated with the same drug. One cohort are the
:  responders, who has response to the treatment and the other one are non-
:  responders who does not respond to the treatment. RNAseq was performed
and
: ...................


--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

 
arris
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 7 ]

发信人: arris (none), 信区: DataSciences
标  题: Re: 一道药厂computational biology的面试题
发信站: BBS 未名空间站 (Tue Oct  3 12:37:49 2017, 美东)

gene set enrichment analysis?
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 108.]

 
HarvardThief
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 8 ]

发信人: HarvardThief (博后肄业), 信区: DataSciences
标  题: Re: 一道药厂computational biology的面试题
发信站: BBS 未名空间站 (Wed Oct  4 02:23:21 2017, 美东)

GSEA确实经常用于基因表达分析,但不是一回事。GSEA看哪些个gene set整体(主要是
pathway)和实验组有关,不用于预测,主要是千老(比如我)解释生物学意义,灌文
章。楼主的问题,就是要选一组marker,不一定在一个pathway,目标就是预测准确,
不要生物学意义

【 在 arris (none) 的大作中提到: 】
: gene set enrichment analysis?



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

 
zstzst
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 9 ]

发信人: zstzst (winfans), 信区: DataSciences
标  题: Re: 一道药厂computational biology的面试题
发信站: BBS 未名空间站 (Wed Oct  4 08:00:39 2017, 美东)

上面凡是回答用机器学习类方法的都是对rna-seq数据一点不行的,rna-seq数据是典型
的hdlss数据(高维小样本)。学术界主流还是用统计方法寻找差异化表达的基因。然
后通过rank的方法,选取一部分top的feature来建立预测模型。我估计生信圈里做rna-
seq的都明白怎么做。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 133.]

 
yinjun111
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 10 ]

发信人: yinjun111 (Jun), 信区: DataSciences
标  题: Re: 一道药厂computational biology的面试题
发信站: BBS 未名空间站 (Wed Oct  4 13:44:11 2017, 美东)

1. 用ttest或者ANOVA之类的,对效果好组和效果不好组的每一个基因进行比较,当然
还要考虑multiple testing的问题,大概能找到几百个或者更少的基因
2. 用这些选取的基因来train logistic regression或者其他的machine learning
model,具体的上面已经提到很多了

总之要点就是feature selection,不可能用20,000个基因训练模型,noise太多,只
能选取到几十个或者几个基因(也是就是biomarker)。另外就是计算学习的问题,也
需要考虑cross validation之类的问题。

--
※ 修改:·yinjun111 於 Oct  4 13:46:54 2017 修改本文·[FROM: 198.]
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 198.]

 
HarvardThief
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 11 ]

发信人: HarvardThief (博后肄业), 信区: DataSciences
标  题: Re: 一道药厂computational biology的面试题
发信站: BBS 未名空间站 (Thu Oct  5 00:42:49 2017, 美东)

机器学习里很多都可以解决p>>n,例如上面说的lasso,random forest,svm。只要样
本量足够cross-validation(比如5-fold)就没问题。如果样本量太小确实不行,很多
生物千老实验室甚至只做2 vs 2 samples,那样的话还需要结合Baysian方法找差异表
达基因(例如https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1431571/),或者做
GSEA那种。主流生物界都不做预测,所以一般也不用机器学习。

【 在 zstzst (winfans) 的大作中提到: 】
: 上面凡是回答用机器学习类方法的都是对rna-seq数据一点不行的,rna-seq数据是典型
: 的hdlss数据(高维小样本)。学术界主流还是用统计方法寻找差异化表达的基因。然
: 后通过rank的方法,选取一部分top的feature来建立预测模型。我估计生信圈里做
rna-
: seq的都明白怎么做。


--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

[分页:1 ]
[快速返回] [ 进入数据科学讨论区] [返回顶部]
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996