ES 实现实时从Mysql数据库中读取热词,停用词

package org.wltea.analyzer.dic;

import org.wltea.analyzer.help.ESPluginLoggerFactory;

public class HotDicReloadThread implements Runnable{

    private static final org.apache.logging.log4j.Logger logger = ESPluginLoggerFactory.getLogger(Dictionary.class.getName());

    @Override

    public void run() {

        while (true){

            logger.info("-------重新加载mysql词典--------");

            Dictionary.getSingleton().reLoadMainDict();

        }

    }

}

复制代码

修改org.wltea.analyzer.dic文件夹下的Dictionary

在Dictionary类中加载mysql驱动类

复制代码

private static Properties prop = new Properties();

    static {

        try {

            Class.forName("com.mysql.jdbc.Driver");

        } catch (ClassNotFoundException e) {

            logger.error("error", e);

        }

    }

复制代码

接着,创建重Mysql中加载词典的方法

复制代码

/**

    * 从mysql中加载热更新词典

    */

    private void loadMySqlExtDict(){

        Connection connection = null;

        Statement statement = null;

        ResultSet resultSet = null;

        try {

            Path file = PathUtils.get(getDictRoot(),"jdbc-reload.properties");

            prop.load(new FileInputStream(file.toFile()));

            logger.info("-------jdbc-reload.properties-------");

            for (Object key : prop.keySet()) {

                logger.info("key:{}", prop.getProperty(String.valueOf(key)));

            }

            logger.info("------- 查询词典, sql:{}-------", prop.getProperty("jdbc.reload.sql"));

            // 建立mysql连接

            connection = DriverManager.getConnection(

                    prop.getProperty("jdbc.url"),

                    prop.getProperty("jdbc.user"),

                    prop.getProperty("jdbc.password")

            );

            // 执行查询

            statement = connection.createStatement();

            resultSet = statement.executeQuery(prop.getProperty("jdbc.reload.sql"));

            // 循环输出查询啊结果,添加到Main.dict中去

            while (resultSet.next()) {

                String theWord = resultSet.getString("word");

                logger.info("------热更新词典:{}------", theWord);

                // 加到mainDict里面

                _MainDict.fillSegment(theWord.trim().toCharArray());

            }

        } catch (Exception e) {

            logger.error("error:{}", e);

        } finally {

            try {

                if (resultSet != null) {

                    resultSet.close();

                }

                if (statement != null) {

                    statement.close();

                }

                if (connection != null) {

                    connection.close();

                }

            } catch (SQLException e){

                logger.error("error", e);

            }

        }

    }

复制代码

接着,创建加载停用词词典方法

复制代码

/**

    * 从mysql中加载停用词

    */

    private void loadMySqlStopwordDict(){

        Connection conn = null;

        Statement stmt = null;

        ResultSet rs = null;

        try {

            Path file = PathUtils.get(getDictRoot(), "jdbc-reload.properties");

            prop.load(new FileInputStream(file.toFile()));

            logger.info("-------jdbc-reload.properties-------");

            for(Object key : prop.keySet()) {

                logger.info("-------key:{}", prop.getProperty(String.valueOf(key)));

            }

            logger.info("-------查询停用词, sql:{}",prop.getProperty("jdbc.reload.stopword.sql"));

            conn = DriverManager.getConnection(

                    prop.getProperty("jdbc.url"),

                    prop.getProperty("jdbc.user"),

                    prop.getProperty("jdbc.password"));

            stmt = conn.createStatement();

            rs = stmt.executeQuery(prop.getProperty("jdbc.reload.stopword.sql"));

            while(rs.next()) {

                String theWord = rs.getString("word");

                logger.info("------- 加载停用词 : {}", theWord);

                _StopWords.fillSegment(theWord.trim().toCharArray());

            }

            Thread.sleep(Integer.valueOf(String.valueOf(prop.get("jdbc.reload.interval"))));

        } catch (Exception e) {

            logger.error("error", e);

        } finally {

            try {

                if(rs != null) {

                    rs.close();

                }

                if(stmt != null) {

                    stmt.close();

                }

                if(conn != null) {

                    conn.close();

                }

            } catch (SQLException e){

                logger.error("error:{}", e);

            }

        }

    }

复制代码

接下来,分别在loadMainDict()方法和loadStopWordDict()方法结尾处调用

复制代码

/**

    * 加载主词典及扩展词典

    */

    private void loadMainDict() {

        // 建立一个主词典实例

        _MainDict = new DictSegment((char) 0);

        // 读取主词典文件

        Path file = PathUtils.get(getDictRoot(), Dictionary.PATH_DIC_MAIN);

        loadDictFile(_MainDict, file, false, "Main Dict");

        // 加载扩展词典

        this.loadExtDict();

        // 加载远程自定义词库

        this.loadRemoteExtDict();

        // 加载Mysql外挂词库

        this.loadMySqlExtDict();

    }

复制代码

复制代码

/**

    * 加载用户扩展的停止词词典

    */

    private void loadStopWordDict() {

        // 建立主词典实例

        _StopWords = new DictSegment((char) 0);

        // 读取主词典文件

        Path file = PathUtils.get(getDictRoot(), Dictionary.PATH_DIC_STOP);

        loadDictFile(_StopWords, file, false, "Main Stopwords");

        // 加载扩展停止词典

        List<String> extStopWordDictFiles = getExtStopWordDictionarys();

        if (extStopWordDictFiles != null) {

            for (String extStopWordDictName : extStopWordDictFiles) {

                logger.info("[Dict Loading] " + extStopWordDictName);

                // 读取扩展词典文件

                file = PathUtils.get(extStopWordDictName);

                loadDictFile(_StopWords, file, false, "Extra Stopwords");

            }

        }

        // 加载远程停用词典

        List<String> remoteExtStopWordDictFiles = getRemoteExtStopWordDictionarys();

        for (String location : remoteExtStopWordDictFiles) {

            logger.info("[Dict Loading] " + location);

            List<String> lists = getRemoteWords(location);

            // 如果找不到扩展的字典,则忽略

            if (lists == null) {

                logger.error("[Dict Loading] " + location + " load failed");

                continue;

            }

            for (String theWord : lists) {

                if (theWord != null && !"".equals(theWord.trim())) {

                    // 加载远程词典数据到主内存中

                    logger.info(theWord);

                    _StopWords.fillSegment(theWord.trim().toLowerCase().toCharArray());

                }

            }

        }

        // 加载Mysql停用词词库

        this.loadMySqlStopwordDict();

    }

复制代码

最后在initial()方法中启动更新线程

复制代码

/**

    * 词典初始化 由于IK Analyzer的词典采用Dictionary类的静态方法进行词典初始化

    * 只有当Dictionary类被实际调用时,才会开始载入词典, 这将延长首次分词操作的时间 该方法提供了一个在应用加载阶段就初始化字典的手段

    *

    * @return Dictionary

    */

    public static synchronized void initial(Configuration cfg) {

        if (singleton == null) {

            synchronized (Dictionary.class) {

                if (singleton == null) {

                    singleton = new Dictionary(cfg);

                    singleton.loadMainDict();

                    singleton.loadSurnameDict();

                    singleton.loadQuantifierDict();

                    singleton.loadSuffixDict();

                    singleton.loadPrepDict();

                    singleton.loadStopWordDict();

                    // 执行更新mysql词库的线程

                    new Thread(new HotDicReloadThread()).start();

                    if(cfg.isEnableRemoteDict()){

                        // 建立监控线程

                        for (String location : singleton.getRemoteExtDictionarys()) {

                            // 10 秒是初始延迟可以修改的 60是间隔时间 单位秒

                            pool.scheduleAtFixedRate(new Monitor(location), 10, 60, TimeUnit.SECONDS);

                        }

                        for (String location : singleton.getRemoteExtStopWordDictionarys()) {

                            pool.scheduleAtFixedRate(new Monitor(location), 10, 60, TimeUnit.SECONDS);

                        }

                    }

                }

            }

        }

    }

复制代码

然后,修改src/main/assemblies/plugin.xml文件中,加入Mysql

复制代码

<dependencySet>

            <outputDirectory>/</outputDirectory>

            <useProjectArtifact>true</useProjectArtifact>

            <useTransitiveFiltering>true</useTransitiveFiltering>

            <includes>

                <include>mysql:mysql-connector-java</include>

            </includes>

        </dependencySet>

复制代码

源码到此修改完成,在自己的数据库中创建两张新的表

建表SQL

复制代码

CREATE TABLE hot_words (

id bigint(20) NOT NULL AUTO_INCREMENT,

word varchar(50) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '词语',

PRIMARY KEY (id)

) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci;

CREATE TABLE hot_stopwords (

id bigint(20) NOT NULL AUTO_INCREMENT,

stopword varchar(50) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '停用词',

PRIMARY KEY (id)

) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci;

复制代码

深圳网站建设www.sz886.com

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,039评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,426评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,417评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,868评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,892评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,692评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,416评论 3 419
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,326评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,782评论 1 316
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,957评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,102评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,790评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,442评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,996评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,113评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,332评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,044评论 2 355