高亮标红

简单实用,哈哈。
转载原文地址:点击这里

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.util.Comparator;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;
import java.util.TreeSet;

public class Highlighter {
    public static void main(String[] args) throws IOException {
        String content = "挖掘频繁项集的方法可以扩展到挖掘闭频繁项集(由它们容易导出频繁项集的集合)。这些方法结合了附加的优化技术,如项合并、子项剪枝和项跳过,以及模式树中产生的项集的有效子集检查。"
                + "挖掘频繁项集和关联已经用不同的方法扩展,包括挖掘多层关联规则和多维关联规则。多层关联规则可以根据每个抽象层的最小支持度阈值如何定义,使用多种策略挖掘。如一致的支持度、递减的支持度和基于分组的支持度。"
                + "冗余的多层(后代)关联规则可以删除,如果根据其对应的祖先规则,他们的支持度和置信度接近于期望值的话。挖掘多维关联规则的技术可以根据对量化属性的处理分为若干类。第一,量化属性可以根据预定义的概念分层静态离散化。"
                + "数据立方体非常适合这种方法,因为数据立方体和量化属性都可以利用概念分层。第二,可以挖掘量化关联规则,其中量化属性根据分箱和/或聚类动态离散化,“邻近的”关联规则可以用聚类合并,产生更简洁、更有意义的规则。"
                + "基于约束的规则挖掘允许用户通过提供元规则(即模式模板)和其他挖掘约束对规则搜索聚焦。这种挖掘推动了说明性数据挖掘查询语言和用户界面的使用,并对挖掘查询优化提出了巨大挑战。"
                + "规则约束可以分为五类:反单调的、单调的、简洁的、可转变的和不可转变的。前四类约束可以在频繁项集挖掘中使用,使挖掘更有功效,更有效率。没有进一步分析或领域知识,关联规则不应该直接用于预测。"
                + "它们不必指示因果关系。然而,对于进一步探查,它们是有帮助的切入点,使得它们成为理解数据的流行工具。流数据不断地在计算机系统中流进流出并且具有变化的更新速度,涉及数据流的应用非常广泛。"
                + "大纲提供数据流的汇总,通常用来返回查询的近似解答。随机抽样、滑动窗口、直方图、多分辨率方法、梗概以及随机算法都是大纲的形式。倾斜时间框架模型允许数据以多个时间粒度存储,最近的时间记录在最细的粒度上,"
                + "最远的时间记录在最粗的粒度上。流立方体可以存储压缩的数据,对时间维度使用倾斜时间框架模型,并且仅在一些关键的层上存储数据,关键层反映了分析人员最感兴趣的数据层,从而基于到关键层的“常用路径”进行部分物化。";

        String query = "数据挖掘";
        long start = System.currentTimeMillis();
        
        String s = new Highlighter(query).getBestFragment(content);
        
        System.out.println("Generate HTML: ");
        File f = new File("demo.html");
        OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream(f), "utf-8");
        osw.write("<pre><b>" + content + "</pre><br/><br/>" + "<pre><b>" + s + "</pre><br/><br/>");
        osw.close();

        System.out.println("Hightlighter -> " + s);
        System.out.println("cost: " + (System.currentTimeMillis() - start));
    }

    private static String BEGIN = "<font color=\"red\">";
    private static String END = "</font>";

    private Set<Character> set = new HashSet<Character>();

    public Highlighter(String query) {
        char[] chars = null;
        chars = query.toCharArray();
        for (int i = 0; i < chars.length; i++) {
            set.add(chars[i]);
        }
    }

    public String getBestFragment(String content) {
        String[] strs = content.replace(".", "。").split("。");
        char[] chars = null;

        TreeSet<Sentence> ts = new TreeSet<Sentence>(new Comparator<Sentence>() {
            public int compare(Sentence o1, Sentence o2) {
                if (o1.getIndex() < o2.getIndex()) {
                    return -1;
                } else if (o1.getIndex() > o2.getIndex()) {
                    return 1;
                } else
                    return 0;
            }
        });
        Sentence sentence = null;
        int score = 0;
        StringBuilder sb = null;
        System.out.println("total sentences: " + strs.length);
        for (int i = 0; i < strs.length; i++) {
            sentence = new Sentence();
            sb = new StringBuilder();
            sentence.setIndex(i);
            sentence.setText(strs[i]);
            chars = strs[i].toCharArray();
            for (int j = 0; j < chars.length; j++) {
                if (set.contains(chars[j])) {
                    score++;
                    sb.append(BEGIN);
                    sb.append(chars[j]);
                    sb.append(END);
                } else {
                    sb.append(chars[j]);
                }
            }
            sentence.setValue(sb.toString());
            sentence.setScore(score);
            ts.add(sentence);
            score = 0;
            sb = new StringBuilder();
        }

        Iterator<Sentence> it = ts.iterator();
        Sentence tmp = null;
        int number = 0;
        sb = new StringBuilder();
        for (; it.hasNext();) {
            tmp = it.next();
            sb.append(tmp.getValue());
            sb.append("。");
            System.out.println(tmp);
            number++;
        }

        System.out.println("After : " + number);
        return sb.toString();
    }

    class Sentence {
        String value;
        int index;
        int score;
        String text;

        public String getValue() {
            return value;
        }

        public void setValue(String value) {
            this.value = value;
        }

        public int getIndex() {
            return index;
        }

        public void setIndex(int index) {
            this.index = index;
        }

        public int getScore() {
            return score;
        }

        public void setScore(int score) {
            this.score = score;
        }

        public String toString() {
            return this.index + " " + this.score + "  " + this.value;
        }

        public String getText() {
            return text;
        }

        public void setText(String text) {
            this.text = text;
        }
    }
}

想了解更多精彩内容请关注我的公众号

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,049评论 25 707
  • 整天忙于指和屏幕的触动。吃没有营养的 零食,看没有营养的news。听烂熟于心的歌,把衣服放乱了等着天黑,明日又崭新...
    祈妖乖阅读 166评论 0 0
  • 关于死亡,有这样一句话:光线穿过狂风而不为狂风所动。 一、盲目的恐惧 动物并不真正知道死亡这回事。所以,在动物看来...
    力王and洗毛阅读 1,004评论 1 5
  • 那时,日出东方 我离开了港湾 离开后,人迹罕至的航线上 我有一只小铁船 曾经,痴迷于磁石 我也经历过磁变 经历中,...
    CCHarbour阅读 339评论 0 2