Google 推出 LangExtract —— 基于 Python 的非结构化文本结构化数据提取库

本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！

🚀 魔都架构师 | 全网30W技术追随者
🔧 大厂分布式系统/数据中台实战专家
🏆 主导交易系统百万级流量调优 & 车联网平台架构
🧠 AIGC应用开发先行者 | 区块链落地实践者
🌍 以技术驱动创新，我们的征途是改变世界！
👉 实战干货：编程严选网

Google 发布了 LangExtract，这是一款开源 Python 库，旨在帮助开发者借助大型语言模型（如 Gemini 模型）从非结构化文本中提取结构化信息。该库能将自由格式的文本（如临床记录、法律文书、客户反馈等）转换成结构化数据。开发者只需用自然语言指令和示例数据，就能定义提取任务，从而更轻松地处理和整理各种非结构化内容。

LangExtract 的一大亮点是采用了 [受控生成技术](https://developers.googleblog.com/en/introducing-langextract-a-gemini-powered-information-extraction-library/#:~:text=What makes LangExtract effective for information extraction)，保证提取出的信息格式统一，并能准确对应到原文中的来源位置。它会高亮显示相关的文本片段，让每个被提取的实体都能追溯到原始文档的确切位置，这大大提高了提取结果的透明度与可信度。

为了应对冗长复杂的文档，LangExtract 结合了文本分块、并行处理和多轮提取等先进策略。这些方法能有效提升召回率和准确率，让该库在处理大规模文本时依然保持高质量输出，因此适用于医疗、法律等多个领域，而且无需对底层模型进行大量微调。

LangExtract 支持集成多种大型语言模型，包括云端的 Gemini 和本地运行的平台（如 Ollama）。这种灵活性让开发者在不同模型环境下都能使用它来定义多种信息提取任务，而无需具备深厚的机器学习背景。

LangExtract 的发布引发了开发者社区的热烈反响。Akshay Goel 作为主要贡献者之一，表示对这一发布非常兴奋，并期待看到用户的各种创新应用，这也体现了该项目的协作精神。他在帖子中写道：

今天和团队一起发布 LangExtract，迫不及待想看看开发者社区会用它做出什么！

开发者 Kyle Brown 称其为人工智能透明度上的一次重大进步，将非结构化文本转化为结构化、易理解的数据。同时，社区还推出了 TypeScript 版本，使其不仅兼容 Google 的 Gemini，还能支持 OpenAI 模型，进一步扩大了使用范围。

对感兴趣的人来说——我已将它移植到 TypeScript，并加入了对 OpenAI 的支持，不再仅限于 Gemini。

该库采用 Apache 2.0 许可协议，可通过 pip 轻松安装，为开发者在应用中添加信息提取功能提供了一个强大且易用的工具。

本文由博客一文多发平台 OpenWrite 发布！

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Google 推出 LangExtract —— 基于 Python 的非结构化文本结构化数据提取库

Google 推出 LangExtract —— 基于 Python 的非结构化文本结构化数据提取库

相关阅读更多精彩内容

友情链接更多精彩内容