关于整理moore数据集的一些操作

  • moore数据集有10个文件,可以把前面若干行删除后只留下逗号分隔的每行一条流的文件txt文件。


    10个文件
  • 然后可以使用:cat entry01.txt >> total.txtcat entry02.txt >> total.txt最后到cat entry10.txt >> total.txt将10个txt文件的内容全部追加合并到total.txt中。>>是输出重定向命令。
  • 使用awk命令可以求出对应的一列的最大值或者最小值


    注意指定分隔符

    awk求最值
  • 使用sed命令#sed -i "s/?/0/g" total.txt将文本中一些特殊字符串替换成其他的,比如一行数据的?号全替换成0,同理可将"Y,"和"N,"等字符替换成"0,"和"1,"数字,加上逗号是为了防止将分类中的YN字符也被替换
  • 使用c++程序,打开total文件找到各列的最大值和最小值,并保存到另一个文件find_max_min.txt。
#include<vector>
#include<fstream>
#include<string>
using namespace std;
//字符串分割函数
void string_split(const string &str, vector<double> &v_double, const string &delim)
{
    int pos1 = 0, pos2 = 0;
    int len = str.length();
    while (pos1 < len && pos2 != string::npos)
    {
        int count = 0;
        pos2 = str.find_first_of(delim, pos1);
        if (pos2 != string::npos)
        {
            if (pos1 < pos2)
            {
                count = pos2 - pos1;
            }
        }
        else if (pos1<len)
        {
            //pos2到了最后字符串末尾,对于本次处理moore数据集,最后一列是分类字符串,不是数字,因此要放弃
            count = 0;
        }
        if (count > 0)
        {
            string temp = str.substr(pos1, count);
            v_double.push_back(stod(temp)); //将每一个string值转换成double保存起来
        }
        
        pos1 = pos2 + 1;
    }
}

const int columns = 256;
int main()
{
    ifstream in("total——将其他字符都替换成了0或1.txt");
    if (!in.is_open())
    {
        return 1;
    }
    vector<double> v_double_max(columns, 0.0);  //保存各列的最大值
    vector<double> v_double_min(columns, 100000000.0);  //保存各列的最小值
    //分割读入的每一行字符串,并存入分割出的字符串数组到vv_str
    while (!in.eof())
    {
        string line;
        getline(in, line);
        vector<double> line_double;
        string_split(line, line_double, ",");
        int length = line_double.size();
        for (int i = 0; i < length; i++)
        {
            //更新最大值
            if (line_double[i]>v_double_max[i])
            {
                v_double_max[i] = line_double[i];
            }
            //更新最小值
            else if (line_double[i]<v_double_min[i])
            {
                v_double_min[i] = line_double[i];
            }
        }
    
    }
    in.close();

    //从vv_str输出字符串到output.txt
    ofstream out("find_max_min.txt");
    if (!out.is_open())
    {
        return 1;
    }
    
    //第一行输出各列最大值
    for (double d : v_double_max)
    {
            out << d << ",";
    }
    out << '\n';    //完成一行输出
    //第二行输出各列最小值
    for (double d : v_double_min)
    {
        out << d << ",";
    }
    out << '\n';    //完成一行输出
    out.close();
    return 0;
}
第一行为各列最大值,第二行为各列最小值
  • 将total.txt文件按照最后一列的流量分类分拆为12个txt文件。


    得到各个类别的流量集合
  • 利用前面得到的各列的最值,分别对每一个流量类别的元素进行归一化到0-1进行处理。(当前值-最小值)/(最大值-最小值)。

#include<vector>
#include<fstream>
#include<string>
#include<iostream>
using namespace std;

//字符串分割函数
void string_split(const string &str, vector<double> &v_double, const string &delim)
{
    int pos1 = 0, pos2 = 0;
    int len = str.length();
    while (pos1 < len && pos2 != string::npos)
    {
        int count = 0;
        pos2 = str.find_first_of(delim, pos1);
        if (pos2 != string::npos)
        {
            if (pos1 < pos2)
            {
                count = pos2 - pos1;
            }
        }
        else if (pos1<len)
        {
            //pos2到了最后字符串末尾
            count = 0;
        }
        if (count > 0)
        {
            string temp = str.substr(pos1, count);
            v_double.push_back(stod(temp)); //将每一个string值转换成double保存起来
        }
        pos1 = pos2 + 1;
    }
}

const int columns = 256;
int main()
{
    string file1 = "find_max_min_diff.txt";
    string file2 = "WWW.txt";
    string out_file = "WWW_normalize0-1.txt";
    ifstream in(file1);
    if (!in.is_open())
    {
        cout << "error to read file: " << file1 << endl;
        return 1;
    }
    vector<double> v_double_max;    //保存各列的最大值
    string line1;
    getline(in, line1);
    string_split(line1, v_double_max, ",");

    vector<double> v_double_min;    //保存各列的最小值
    string line2;
    getline(in, line2);
    string_split(line2, v_double_min, ",");
    
    vector<double> v_double_diff;   //保存各列最大最小差值
    string line3;
    getline(in, line3);
    string_split(line3, v_double_diff, ",");
    in.close();
    
    //读取一个类别的文件,并将每一行的各个数值归一化到0-1区间
    ifstream in_class(file2);
    if (!in_class.is_open())
    {
        cout << "error to read file: " << file2 << endl;
        return 1;
    }

    //写入一个该类别归一化之后的文件
    ofstream out(out_file);
    if (!out.is_open())
    {
        cout << "error to read file: " << out_file << endl;
        return 1;
    }
    //处理每一行输入和输出
    while (!in_class.eof())
    {
        string line;
        getline(in_class, line);
        vector<double> line_double;
        string_split(line, line_double, ",");
        int length = line_double.size();
        for (int i = 0; i < length; i++)
        {
            //归一化每个值
            double result = 0;
            if (0 != v_double_diff[i])
            {
                result = (line_double[i] - v_double_min[i]) / v_double_diff[i];
            }
            //输出每个值到归一化文件
            out << result << ",";
        }
        //每行输出后面补0,直到每行有256个数
        for (int i = length; i < 255; i++)
        {
            out << 0 << ",";
        }
        out << 0 << endl;   //输出一行
    }
    in_class.close();
    out.close();
    return 0;
}
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容

  • 基础命令 主要的命令和快捷键 Linux系统命令由三部分组成:cmd + [options]+[operation...
    485b1aca799e阅读 1,094评论 0 0
  • 第 2 章 SHELL 基础知识2.1 shell脚本我们在上面简单介绍了一下什么是shell脚本,现在我们来进一...
    LiWei_9e4b阅读 1,567评论 0 0
  • sed与awk实例 文本间隔 在每一行后面增加一空行 将原来的所有空行删除并在每一行后面增加一空行。这样在输出的文...
    stuha阅读 1,896评论 0 21
  • 一、前言 我们都知道,在Linux中一切皆文件,比如配置文件,日志文件,启动文件等等。如果我们相对这些文件进行一些...
    以七v为书阅读 1,512评论 0 5
  • 本文承接之前写的三十分钟学会AWK一文,在学习完AWK之后,趁热打铁又学习了一下SED,不得不说这两个工具真的堪称...
    mylxsw阅读 4,398评论 3 74