iOS开发 - Natural Language Processing（NLP）其一

使用NLTokenizer进行分词

在处理自然语言文本时，将文本标记为单个单词通常很有用。使用NLTokenizer来枚举单词，而不是简单地用空格分隔组件，可以确保在多种脚本和语言中正确的行为。例如，中文和日语都不用空格来分隔单词。

import NaturalLanguage

//    let text = """
//    All human beings are born free and equal in dignity and rights.
//    They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.
//    """
    
    let text = """
        在处理自然语言文本时，将文本标记为单个单词通常很有用。使用NLTokenizer来枚举单词，而不是简单地用空格分隔组件，可以确保在多种脚本和语言中正确的行为。例如，中文和日语都不用空格来分隔单词。
    """

    let tokenizer = NLTokenizer(unit: .word)
//    tokenizer.setLanguage(.simplifiedChinese)
    tokenizer.string = text

    tokenizer.enumerateTokens(in: text.startIndex..<text.endIndex) { tokenRange, _ in
        print(text[tokenRange])
        print("----------")
        return true
    }

输入内容为

在
----------
处理
----------
自然语言
----------
文本
----------
时
----------
将
----------
文本
----------
标记
----------
为
----------
单个
----------
单词
----------
通常
----------
很
----------
有用
----------
使用
----------
NLTokenizer
----------
来
----------
枚举
----------
单词
----------
而
----------
不
----------
是
----------
简单
----------
地
----------
用
----------
空格
----------
分隔
----------
组件
----------
可以
----------
确保
----------
在
----------
多种
----------
脚本
----------
和
----------
语言
----------
中
----------
正确
----------
的
----------
行为
----------
例如
----------
中文
----------
和
----------
日语
----------
都
----------
不
----------
用
----------
空格
----------
来
----------
分隔
----------
单词
----------

iOS开发 - Natural Language Processing（NLP）其一

使用NLTokenizer进行分词

推荐阅读更多精彩内容