R

ROnmine处理oncomine数据
基本介绍 oncomine是一个很好的肿瘤数据库,功能很强大,也有可视化的操作,但是最大的问题是数据不能很好的获得,,而且自带的图很丑(而且只是png),关于oncomine的教程有很多,比较经典有解螺旋的教程,比如下面这个,基本涵盖了常用的功能: 麦子陪你做作业(三):肿瘤经典数据库Oncomine实训操作 然而,大神yikeshu0611默默的为我们付出,之前开发了一个R包叫ROncomine可以很方便的获得数据,并且再次出图,不过最近又更新为oncomineR了,新版的我还没研究,这里我们还是先说老版的ROncomine 这个包以前托管在Github上(由于众所皆知的原因,国内访问Github很困难),但是目前已经删除了,好在我之前已经导入到了我的码云上了,所以也可以很快的安装。 以前其实还有一个教程破解oncomine无法免费下载数据,学员开发了一款R语言包,但是目前也被删除了,估计这个还是有版权的,所以我还是悄悄的写个自己看的教程 首先需要安装devtools,然后调用install_git函数就可以直接安装,之后就方便了 install.packages(‘devtools’) devtools::install_git(’https://gitee.com/swcyo/oncomineR’)) 其实每一个oncomine的数据都可以使用浏览器获得,用chrome浏览器登录,随便一个地方鼠标右击找到检查元素,就可以看到代码区,使用Crtl+F查找<map,我们需要的代码全都在<map那一片,右击复制然后新建一个文本文档保存起来 oncomineR的原理只是是把检查元素里<map那串代码二次处理,从而简化工作,然后调用ploty作图,当然你也可以用ggplot2再次画图 单基因在基本中的总结(Gene Summary) 按照解螺旋的教程,比如搜索CXCL8基因,实际上基因名为IL8,然后我们可以在右边看到这样的一个热图: 我们复制<map那一串代码,保存为heatmap.txt文件,我们可以用Oncomine_heatmap_DiseaseSummaryfor_SomeGene处理 library(ROncomine) heat<-Oncomine_heatmap_DiseaseSummaryfor_SomeGene('/Users/mac/Documents/GitHub/myblog/content/post/2021-08-19-oncomine/heatmap.
如何准确的使用R进行两独立样本的显著性检验,T检验?非参数检验?
在科研工作中,使用较多的应该就是两独立样本的显著性检验,也就是我们常说的比较两个组有没有统计学差异,比方说我们收集了身高数据,想比较男性和女性的身高有没有差别,这就是两独立样本的显著性检验,而最让人耳熟能详的就是t检验,然而有时候(我认为更多的适合)却又有一个非参数检验,其实统计学不那么严谨的话,基本都是用t检验,然而这样暴力的选择并不科学,那么到底该如何选择才是最科学的呢? 目前常用的统计软件有SPSS和GraphPad,不过这两个都是收费软件,虽然有破解版,然而总归是没有版权的,而R作为开源软件,又附带N多的包,功能什么强大,反正免费就是王道。。。 有两个参考网站可以供学习 R-两独立样本t检验 R-两独样本Wilcoxon检验 一、假设检验的前提是什么? 1. 两个样本是否独立? 如果两个样本不是独立样本,而是配对样本,那么就不能用独立样本的t检验,而应该是配对样本的t检验。 独立样本就是说两组样本没有什么关联,比如说男女的身高差,男的就跟女的没有任何关联 配对样本是其实是一种样本,不过经历了某种干预,比方说没有用药的时候是A组,然后给A组的成员用了药就变成了B组;又比方说同一个病人标本取了癌组织和癌旁组织,那么所有取了癌组织和癌旁组织标本的患者就是配对样本。 2. 两组中每组的数据是否服从正态分布? 在进行假设检验前,首先就要看是不是正态分布,也就是说要进行正态检验,一般有Shapiro-Wilk test(S-W检验)和Kolmogorov-Smirnov test(K-S检验),两种方法都有人用,但是一般选择S-W检验。这里我们一般不需要过分纠结选哪种,K-S检验适合用于大数据样本的正态性检验,我们主流还是选择S-W检验(shapiro.test())。 只有符合正态分布的才可以使用t检验 如果数据不是正态分布的,可以尝试先进行数值转换,如log2处理,如果满足正态分布,可以选择t检验
RStudio1.4发布,新增markdown可视化太强大了
最近一直在学习用RStudio建博客和写文章或书什么的,有了Rmarkdown的支持,可以渲染很有有用的可视化效果,但是很多语句都是基于markdown语言来写的,虽然markdown作为一款轻量级的语言,很适合用来写东西,而不是来排版,但是一直用代码,也是很烦人的,尤其我又是一个懒人,我要的是效果,而不是代码。 虽然有很多在线编辑器,也有Typora这种可视化的软件支持,但都是拆东墙补西墙的办法,没有一款软件就能解决所有问题,比如我要搭博客,以前需要安装各种软件,需要各种代码,有了yihui大神的支持,把很多东西都合成在RStudio里面,尤其嵌入了R markdown以后就可以很好的渲染R语言的效果,可以写word,可以写PPT,甚至还可以写期刊论文,节省了很多复制粘贴的工作,而且配合bookdown以后还可以很好的写书,pagedown可以很好的编辑网页,然后又开发了blogdown,一步就可以配置hugo主题的博客,简直不要太方便。 我一直觉得用一款软件把大多数的工作完成是最好的,RStudio就可以很好的完成这些工作,可以用来统计,可以用来画图,可以用来写作,还可以用来搭博客,之前唯一的缺点可能就是对markdown原生态语句不能可视化了,毕竟我不是一个活在想象世界中的人,写代码的目的是为了最后的效果,我又不是码字🐶,能用简单的办法不好吗? 目前RStudio更新到1.4版,新增了很多实质性的硬核功能: 其中英文版介绍可见,https://blog.rstudio.com/2021/06/09/rstudio-v1-4-update-whats-new/ 中文版在知乎上也有介绍,具体看这里RStudio v1.4 正式发布 其中最让有两个功能最让我兴奋,又是解放双手的一天。。。。 Rmarkdown编辑可视化https://rstudio.github.io/visual-markdown-editing/ 支持可视化插入参考文献https://blog.rstudio.com/2020/11/09/rstudio-1-4-preview-citations/ 新版的RStudio打开md文件后,可以在编辑界面里看到一个像A一样的东西,不点它就这样 点一下最右边的那个A就这样 而且插入图片可以直接点击上面的那个图片的符号,选好图片就出现效果了,可以自动添加标题和链接 而且点一下图片,还可以直接编辑图片大小,真好 在Insert那里还有很多效果,最喜欢的是@Citation,这简直是写期刊和论文的利器,教程可以看这个 https://rstudio.github.io/visual-markdown-editing/citations.html 当然如果要支持显示参考文献的话,在新增的Rmd文件里需要在最前面的yml上添上这几句话(md是别的代码) --- title: "My Document" bibliography: references.
单基因的肿瘤细胞系表达怎么看?CCLE告诉你
泛癌的基因表达量一般可以用TCGA和GTEx实现,而肿瘤细胞系一般用CCLE数据库. 临床生信之家是一个很好的在线工具,目前上架了CCLE的功能,出的图见下,可以实现单基因在泛癌和单病种的可视化,但是这个网址什么都好,就是有次数限制,后面使用要加钱,而且价钱不菲,学生党望而却步。。。 会R语言,当然可以省掉这笔巨款,而且可以DIY,乐趣无穷 首先去CCLE官网下载数据,目前网页更新了,功能也多了 比如TP53,访问这个网址TP53 DepMap Gene Summary就行,在Characterization里Expression 21Q2 Public右边有个下载标志,基因单位是Log2(TPM+1),很科学 CCLE2021年的更新了很多,比以前好看多了,也科学多了啊… 下载后的数据默认命名是: [TP53 Expression 21Q2 Public.csv`] (https://depmap.org/portal/partials/entity_summary/download?entity_id=38037&dep_enum_name=expression&size_biom_enum_name=none&color=none) 不过这里最大的问题就是国内访问的速度真的是很随机啊,想快有时候根本快不了,如果电脑一直打不开,就用手机打开再传到电脑上吧,当然你也可以去hiplot.com.cn上去下载数据,虽然不是最新的,然而至少网速很快,但是需要二次处理一下数据 首先把数据读进R里面 library(readr) TP53_Expression_21Q2_Public <- read_csv("~/Desktop/TP53 Expression 21Q2 Public.csv") ## Rows: 1378 Columns: 6 ## ─ Column specification ──────────────────────────── ## Delimiter: "," ## chr (5): Depmap ID, Cell Line Name, Primary Disease, Lineage, Lineage Subtype ## dbl (1): Expression 21Q2 Public ## ## ℹ Use `spec()` to retrieve the full column specification for this data.