我们有很多文档,它们各有利弊。作为我自己的用户,有时我发现考虑到文档的绝对数量,准确地找到我正在寻找的东西需要比我想要的更多的时间。
这就是我如何将我们的文档变成一个语义可搜索的矢量数据库:
- 将所有文档转换为统一格式
- 将文档分成块并添加一些自动清理
- 每个块的计算嵌入
- 从这些嵌入生成向量索引
- 定义索引查询
- 将其全部包装在用户友好的命令行界面和 Python API 中
更好的是,如果你想使用这种方法为你自己的网站实现语义搜索,你可以跟着做!以下是您需要的成分:
我们有很多文档,它们各有利弊。作为我自己的用户,有时我发现考虑到文档的绝对数量,准确地找到我正在寻找的东西需要比我想要的更多的时间。
这就是我如何将我们的文档变成一个语义可搜索的矢量数据库:
更好的是,如果你想使用这种方法为你自己的网站实现语义搜索,你可以跟着做!以下是您需要的成分: