R画频率分布图

频率分布图是一种用来展示数据分布情况的图表。它通过将数据按照不同的数值区间进行分组,并计算每个区间内数据出现的频率来展示数据的分布情况。
在频率分布图中,横轴表示数据的区间或者数值范围,纵轴表示每个区间内数据的频率或者数量。每个区间通常是等宽的,而每个区间内数据的频率则可以用柱形的高度来表示。柱形的高度越高,表示该区间内的数据出现的频率越高。
频率分布图可以帮助人们更直观地了解数据的分布情况,包括数据的中心趋势、离散程度以及数据的偏斜性等。通过观察频率分布图,可以看出数据是否呈现正态分布、是否存在异常值或者离群点等。
除了柱状图形式的频率分布图之外,还有其他形式的频率分布图,比如直方图、饼图、线图等,不同的图形形式可以根据数据的特点和目的进行选择。

这里画一下结构变异长度频率的统计,对于一个简单的结构变异,一般只需要知道它的编号,在染色体位置,以及长度信息,基本上就可以确定这个结构变异了,

###这里只需要知道每个变异的长度信息
###图1
values <- DUP$V4
breaks <- c(-Inf, 50, 100, 500, 1000, 10000, 100000, Inf)
group_labels <- c("<50", "50-100", "101-500", "501-1000", "1001-10000", "10001-100000", ">100000")

# 计算每个组的频数
hist_counts <- table(cut(values, breaks = breaks, labels = FALSE, include.lowest = TRUE, right = TRUE))

# 添加缺失的组并设置频数为0
missing_groups <- setdiff(1:length(group_labels), as.numeric(names(hist_counts)))
if (length(missing_groups) > 0) {
  hist_counts <- c(hist_counts, setNames(rep(0, length(missing_groups)), as.character(missing_groups)))
}

# 创建频率分布直方图
ggplot(data.frame(x = as.character(names(hist_counts)), y = as.numeric(hist_counts)), aes(x, y)) +
  geom_bar(stat = "identity", fill = "orange", width = 0.8) +
  labs(x = "", y = "count", title = "DUP fre") +
  scale_x_discrete(limits = as.character(1:length(group_labels)), labels = group_labels)+  theme(panel.border = element_blank(),  # 去除面板边框
                                                                                                 panel.grid.major = element_blank(),  # 去除主要网格线
                                                                                                 panel.grid.minor = element_blank())  # 去除次要网格线+lines(density(hist_counts),lwd=2,col=rgb(0.1,0.5,0.2))

图1

###图2
ggplot(INV,aes(x =V4))+
  geom_histogram(aes(y=..count..), # 纵坐标是密度。类似也可以将纵坐标设置为频数(count)
       #          color="#88ada6", fill="#fffbf0", # 边框与填充色,可以不设置
                 alpha=.25,  # 透明度,可以不设置
 #                       binwidth = 10000, # 柱子的宽度。类似得也可以设置柱子的个数,如bins = 30
                       bins = 100, # 柱子的宽度。类似得也可以设置柱子的个数,如bins = 30
                        center = 0)
图2

一个更加简单的方法:

####breaks是设置的步长
hist(x=INV$V4,breaks = 100)
INV的长度分布

只需要把每种类型的结构变异单独提取出来,就可以确定每个结构变异类型在染色体上的分布情况,

##for circos
# variation_number_in_bin.py

import sys

input_file = sys.argv[1]
step_len = 1000000
result = {}

chrom_stats = {
    "chr01":43270923,
    "chr02":35937250,
    "chr03":36413819,
    "chr04":35502694,
    "chr05":29958434,
    "chr06":31248787,
    "chr07":29697621,
    "chr08":28443022,
    "chr09":23012720,
    "chr10":23207287,
    "chr11":29021106,
    "chr12":27531856
    }

for chrom in chrom_stats.keys():
    step= 0
    step_start = 0
    result[chrom]={}
    result[chrom][step]=0
    for line in open(input_file):
        if line.startswith(chrom):
            pos = line.split()[1]
            if step_start < int(pos) < (step_start + step_len):
                result[chrom][step] += 1
            if int(pos) >= (step_start + step_len):
                step += 1
                step_start += step_len
                result[chrom][step] = 0
                result[chrom][step] += 1
####这里改成了circos可以直接使用的输出
    for steps,nums in result[chrom].items():
        print(chrom, steps*1000000+1,(steps+1)*1000000, nums, sep="\t")
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容