GitHub 热门项目:langextract

2026-05-28 1 阅读 GitHub Trending
GitHub 项目:langextract 仓库地址:https://github.com/google/langextract 星级:36579 | 作者:谷歌 项目描述:一个 Python 库,用于使用具有精确源基础和交互式可视化的法学硕士从非结构化文本中提取结构化信息。 =================================================== 自述文件内容: LangExtract 徽标

# 朗格提取 [![PyPI 版本](https://img.shields.io/pypi/v/langextract.svg)](https://pypi.org/project/langextract/) [![GitHub 星星](https://img.shields.io/github/stars/google/langextract.svg?style=social&label=Star)](https://github.com/google/langextract) ![测试](https://github.com/google/langextract/actions/workflows/ci.yaml/badge.svg) [![DOI](https://zenodo.org/badge/DOI/10.5281/zenodo.17015089.svg)](https://doi.org/10.5281/zenodo.17015089) ## 目录 - [简介](#简介) - [为什么选择 LangExtract?](#why-langextract) - [快速启动](#quick-start) - [安装](#安装) - [云模型的 API 密钥设置](#api-key-setup-for-cloud-models) - [添加自定义模型提供程序](#adding-custom-model-providers) - [使用 OpenAI 模型](#using-openai-models) - [在 Ollama 中使用本地法学硕士](#using-local-llms-with-ollama) - [更多示例](#more-examples) - [*罗密欧与朱丽叶*全文提取](#romeo-and-juliet-full-text-extraction) - [药物提取](#medication-extraction) - [放射学报告结构:RadExtract](#radiology-report-structuring-radextract) - [社区提供商](#community-providers) - [贡献](#contributing) - [测试](#测试) - [免责声明](#免责声明) ## 简介 LangExtract 是一个 Python 库,它使用 LLM 根据用户定义的指令从非结构化文本文档中提取结构化信息。它处理临床笔记或报告等材料,识别和组织关键细节,同时确保提取的数据与源文本相对应。 ## 为什么选择 LangExtract? 1. **精确的源接地:** 将每个提取映射到源文本中的确切位置,实现视觉突出显示,以便于跟踪和验证。 2. **可靠的结构化输出:** 根据您的少数示例强制执行一致的输出模式,利用 Gemini 等受支持模型中的受控生成来保证稳健的结构化结果。 3. **针对长文档进行优化:** 通过使用文本分块、并行处理和多次传递的优化策略来提高召回率,克服了大型文档提取的“大海捞针”挑战。 4. **交互式可视化:** 立即生成一个独立的交互式 HTML 文件,以在原始上下文中可视化和查看数千个提取的实体。 5. **灵活的法学硕士支持:** 支持您首选的模型,从基于云的法学硕士(如 Google Gemini 系列)到通过内置 Ollama 界面的本地开源模型。 6. **适用于任何域:** 仅使用几个示例即可定义任何域的提取任务。 LangExtract 可适应您的需求,无需任何模型微调。 7. **利用法学硕士世界知识:** 利用精确的提示