多种东莞微信网站建设,合肥百度 网站建设,网站开发框架 c,域名解析怎么做概述
传统BI的三大核心瓶颈#xff1a;
问数之难#xff1a;不同用户往往存在个性化的分析逻辑#xff0c;尽管企业内部已经创建大量报表和看板#xff0c;但仍然无法完全满足业务部门对数据的个性化需求。但传统BI门槛较高#xff0c;非技术人员在统一培训前#xff0…概述
传统BI的三大核心瓶颈
问数之难不同用户往往存在个性化的分析逻辑尽管企业内部已经创建大量报表和看板但仍然无法完全满足业务部门对数据的个性化需求。但传统BI门槛较高非技术人员在统一培训前往往难以自行使用BI进行个性化分析。问知之迟传统BI的分析流程需预先定义数据模型、依赖技术团队支持从需求提出到洞察生成存在显著延迟不同的业务方不同时间点不同场景下可能是同一个取数需求都需要重新排期进行不仅耗费精力更难以支撑瞬息万变的实时决策场景。问策之限分析深度受限于预设指标与固定逻辑传统BI缺乏动态探索与深度推理能力难以主动揭示复杂业务场景中的隐性关联与根因制约策略生成。
Text-to-SQLText2SQL把自然语言转化为SQL也叫文本到SQL自然语言到SQLText2SQL、T2S、NL2SQL、Natural2SQL、Text2Query、Chat2Query。
早在LLM之前已有大量专注于此任务的机器学习项目。在大模型出现以后凭借其强大的自然语言理解和推理能力让T2S得到大力的推进。
在RAG中QA对在text2sql中便是query-sql对。
最佳实践
清楚描述数据库上下文限制数据查询输出的大小在执行之前验证和检查生成的SQL语句。
引申
Text2DSLDomain Specific Language领域特定语言Text2GQLGraph Query Language图查询语言Text2APIText2Vis论文
供参考的T2S问题分类
常规指标查询进阶指标查询时间变种实体信息变种多设备查询多意图拆解嵌套查询图表输出
提示词策略
Informal Schema非正式模式策略简称IS以自然语言提供表及其关联列的描述模式信息以不太正式的方式表达API DocsAPI文档简称AD相比之下Rajkumar(2022)等人进行的评估中概述的AD策略遵循OpenAI文档中提供的默认SQL翻译提示。此提示遵循稍微更正式的数据库模式定义。Select 3包括数据库中每个表的三个示例行。此附加信息旨在提供每个表中包含的数据的具体示例以补充模式描述1SL1 Shot Learning在提示中提供1个黄金示例5SL5 Shot Learning在提示中提供5个黄金示例。
T2S与ChatBI
LLM的迅猛发展使得T2S的准确率得到不少提升也催生出一大批开源或付费ChatBI系统。
ChatBINLU模块T2S引擎数据库连接可视化引擎对话管理。
Benchmark
T2S任务的评价主要有两种精确匹配率Exact MatchEM、执行正确率Execution AccuracyEX也叫EA
EM计算模型生成的SQL和标注SQL的匹配程度结果存在低估的可能。EX计算SQL执行结果正确的数量在数据集中的比例结果存在高估的可能。
EM为了处理由成分顺序带来的匹配错误当前精确匹配评估将预测的SQL语句和标准SQL语句按着SQL关键词分成多个子句每个子句中的成分表示为集合当两个子句对应的集合相同则两个子句相同当两个SQL所有子句相同则两个SQL精确匹配成功。
评价指标另有VESValid Efficiency Score。VES旨在衡量模型生成的有效SQL的效率。有效SQL指的是预测的SQL查询其结果集与基准SQL的结果集一致。任何无法执行正确值的SQL查询都将被声明为无效。VES指标可以考虑执行结果的效率和准确性提供对模型性能的全面评估。
评估数据集有很多
Spider
有两个版本
Spider 1.0官网论文Spider 2.0官网论文GitHub。
Spider 1.0是耶鲁大学推出包含10181个问题和5693个SQL涉及200个数据库
Spider 2.0是由香港大学、Salesforce Research等团队提出的T2S Benchmark框架用来LLMs在真实企业级数据工作流中的能力。Spider 1.0和BIRD存在数据库规模小、SQL复杂度低、缺乏多方言支持等局限性而企业级场景涉及超大规模模式平均812列、多数据库系统BigQuery/Snowflake/SQLite等和复杂数据工程流程。Spider 2.0通过以下创新点突破现有框架
真实数据源基于Google Analytics、Salesforce等企业数据库包含213个数据库和632个任务跨方言支持覆盖6种SQL方言的多种特殊函数项目级交互整合代码库如DBT项目和文档模拟真实开发环境长上下文处理平均每个SQL包含148.3个token远超BIRD的30.9和Spider 1.0的18.5。
实验表明o1-preview在Spider 2.0上的成功率仅20%左右远低于其在Spider 1.0上90%和BIRD上70%的表现。揭示现有模型在模式链接、方言适配和多步推理上的瓶颈。
提供两种任务设置 提供两个简化版数据集
Spider 2.0-Lite托管在BigQuery、Snowflake和SQLite上Spider 2.0-Snow全部托管在Snowflake上。
维度Spider 2.0Spider 2.0-LiteSpider 2.0-Snow任务类型代码代理任务多轮交互纯文本到SQL单轮生成纯文本到SQL单轮生成数据库支持6种含BigQuery/Snowflake/PGBigQuery/Snowflake/SQLite仅Snowflake示例数量632547547复杂度极高动态环境交互多方言高跨数据库适配中单一方言聚焦成本需付费云资源消耗需付费BigQuery使用费完全免费Snowflake提供配额核心挑战复杂数据工程流程清洗→转换→分析跨数据库模式链接与函数适配Snowflake方言深度优化适用场景企业级代码代理研究跨平台模型泛化能力评估单一云数据库性能基准测试
Spider-Agent框架 官方提供的基于ReAct构建的解决方案专为数据库任务设计的代理框架针对SQL和数据库交互设计一套动作空间支持
多动作空间支持SQL执行、文件编辑、命令行操作等迭代调试通过执行反馈不断改进解决方案上下文管理有效整合代码库、文档等多源信息
动作空间是Spider-Agent的核心定义模型可执行的操作
Bash运行shell命令例如查看文件或执行dbt runCreateFile创建新的SQL脚本文件EditFile修改或覆盖现有文件内容ExecuteSQL在数据库上执行SQL查询并可选择保存结果GetTables获取数据库中的表名和模式GetTableInfo查询指定表的列信息SampleRows从表中采样数据并保存为JSON格式FAIL任务失败Terminate任务已成功完成。
这些动作赋予模型灵活性使其能够与数据库和代码环境无缝交互。
Bird
官网论文GitHub
一个开创性的跨领域数据集包含超过12751个独特的问题-SQL对95个大型数据库达33.4GB。涵盖超过37个专业领域如区块链、曲棍球、医疗保健和教育等。
GPT-3.5-turbo在BIRD数据集上的表现进行详细的错误分析与分类
错误的模式链接Wrong Schema Linking占41.6%模型能准确地理解数据库的结构但错误地将其与不适当的列和表关联起来。表明schema linking仍然是T2S模型的一个重大障碍。误解数据库内容Misunderstanding Database Content占40.8%当ChatGPT无法回忆起正确的数据库结构如rtype不属于satscores表或生成假的schema项如lap_records没有出现在formula_1数据库中时尤其是当数据库非常大时就会发生这种情况。如何使模型真正理解数据库结构和内容仍然是LLMs中的痛点话题。误解知识证据Misunderstanding Knowledge Evidence占17.6%没有准确解释人类注释的证据的情况。如直接复制公式DIVIDE(SUM(spent),COUNT(spent))。表明ChatGPT在面对不熟悉的提示或知识时缺乏鲁棒性导致它直接复制公式而不考虑SQL语法。这种脆弱性可能会导致安全问题。例如如果故意通过一个不熟悉的公式引入一个毒药知识证据GPT可能会在没有验证的情况下无意中将其复制到输出中从而使系统暴露于潜在的数据安全风险中。语法错误Syntax Error占3.0%比例较小表明ChatGPT在语义解析方面表现良好少部分错误体现在一些特殊的关键词如混淆使用MySQL的year()和SQLite中的STRFTIME()。
IJCKG2025 Archer
Archer包含三种推理类型算术推理、常识推理和假设推理。算术推理在SQL的具体应用场景中占有重要比例。常识推理是指基于隐含的常识知识进行推理的能力Archer包含一些需要理解数据库才能推断出缺失细节的问题假设推理要求模型具备反事实思维能力即根据可见事实和反事实假设对未见情况进行想象和推理的能力。
Archer包含1042个中文问题、1042个英文问题以及521条对应的SQL查询覆盖20个不同领域的20个数据库。其中8个数据库用作训练集2个数据库用作验证集10个数据库用作测试集。数据集及排行榜地址https://sig4kg.github.io/archer-bench/
评估指标
VAVAlid SQL成功执行的预测SQL语句的比例无论答案是否正确EXEXecution accuracy预测SQL语句执行结果与标准SQL语句执行结果相匹配的比例。
开源
Awesome Text2SQL
GitHub关于LLMs、Text2SQL、Text2DSL、Text2API、Text2Vis等主题的精选教程资源。
Chat2db
旨在成为一个通用的开源SQL客户端和报告工具支持几乎所有比较流行的数据库、缓存。
7B开源模型 https://github.com/CodePhiliaX/Chat2DB-GLM https://huggingface.co/Chat2DB/Chat2DB-SQL-7B
部署
git clone https://github.com/CodePhiliaX/Chat2DB
cd Chat2DB/docker
docker compose up -d浏览器打开http://localhost:10824开始体验。 输入默认用户名密码chat2db。
设置API Key 创建数据库连接 上面截图没体现出来可新增多个自定义配置。
新增Dashboard Chart Type支持3种
Vanna
一款开源AI SQL代理能够将自然语言问题转化为可操作的数据库洞察。该平台提供了多种部署选项以满足不同的组织需求
Vanna Cloud无需设置即可使用的企业级平台针对你的特定数据环境和行业背景进行训练Vanna Enterprise本地部署以实现完全的数据主权Vanna API具备集成能力可将AI驱动的数据库交互嵌入到现有应用程序中开源基础为希望构建自定义解决方案的开发者提供最大程度的灵活性。
支持Snowflake、BigQuery等主流数据库并可轻松创建连接器以支持其他数据库。可通过多种前端部署包括Jupyter Notebooks、Slack机器人、Web应用和Streamlit界面。
开源的开源Python RAG框架。Vanna通过整合上下文元数据、定义、查询等以及领域知识文档来训练RAG模型。在Vanna框架的基础上可以使用现有工具例如Streamlit、Slack构建自定义可视化UI实现对话结果的可视化。
两个步骤
基于数据训练RAG模型提出问题返回SQL查询并且可以将查询配置为在数据库上自动运行。 WrenAI
开源官网
数据库内容不会传输到LLMs确保数据安全。
部署
git clone https://github.com/Canner/WrenAI
cd WrenAI/docker/
cp .env.example .env
docker compose up -d浏览器打开http://localhost:3000比较贴心地给出自带的数据源和数据集 上面提到RAG的QA对WrenAI也能看到类似知识库维护界面 API界面没有维护入口需要在.env文件里配置然后重启服务。
SQL Chat
GitHub具备T2S聊天功能的SQL客户端。
SuperSonic
参考SuperSonic部署实战。
Dataherald
https://github.com/Dataherald/dataherald 一个T2S引擎为在关系数据库上的企业级问答而构建。
功能
允许业务用户从数据仓库中获得结果而无需通过数据分析师在SaaS应用程序中启用来自生产数据库的QA创建ChatGPT插件
包含四大模块引擎、管理控制台、企业后端和Slackbot。其中核心引擎模块包含了LLM代理、向量存储和数据库连接器等关键组件。模块化设计将不同的功能模块封装成独立的类和方法便于代码维护和扩展可轻松地集成新的工具和功能。
database-build
https://github.com/supabase-community/database-build 一个基于WASM的浏览器内PostgreSQL沙盒带有AI辅助功能。它让用户可以直接在网页浏览器中操作PostgreSQL而无需在本地安装或设置数据库。
DuckDB-NSQL
https://github.com/NumbersStationAI/DuckDB-NSQL
一个由MontherDuck和Numbers Station为DuckDB SQL分析任务构建的T2S LLM。可以帮助用户利用DuckDB的全部功能及其分析潜力而不需要在DuckDB文档和SQL shell之间来回切换。
EZQL
https://github.com/outerbase/ezql
开发商Outerbase已被Cloudflare收购。
付费/闭源
DataGrip
新版本能力
使用自然语言请求查询和信息解释复杂的SQL例如存储过程优化架构和SQL比较两个数据库对象的DDL修复SQL错误格式化和重写SQL
观远
核心亮点
知识库冷启动快速构建精准问数体系
基于企业现有BI资产仪表板、卡片、数据集等观远ChatBI实现低门槛知识迁移与快速激活 • 多源数据无缝接入支持40数据库连接与文件类数据抽取未来可扩展直连模式确保数据来源的全面性与实时性为问数场景提供坚实的数据底座。 • 业务知识高效萃取自动从既有BI资产中提取业务逻辑与问答知识如指标定义、分析维度关联加速知识库初始化过程避免从零开始的资源浪费。 • 问答准确率闭环检测上线前对主题进行自动化问答测试确保准确率达90%通过“测试-优化-再测试”机制保障问数结果的精准性与业务贴合度。
多端交互体验打破时空限制的智能问数
观远ChatBI深度适配PC端、移动端、OA系统如飞书构建全场景智能交互体系 • 多端协同问数业务人员可在办公桌面、移动终端随时随地发起数据查询即时获取可视化分析结果实现“数据随需而至”。 • OA集成深化场景对接企业级协作平台机器人如飞书机器人在日常办公流中直接嵌入数据问答能力提升办公效率。 • 交互动作立体化支持问答结果的收藏、点赞/踩、SQL复制与导出等操作便于业务人员对优质分析内容进行沉淀复用同时通过用户反馈优化模型形成“问数-反馈-迭代”的正向循环。
知识库自迭代打造个性化企业知识生态
通过知识自动沉淀、智能自检、个性化学习观远ChatBI构建可持续进化的企业级知识库 • 知识自动录入从历史对话、用户行为中挖掘新知识提示用户将其纳入知识库实现业务知识的动态积累避免人工维护的繁琐与遗漏。 • 知识智能自检定期对知识库进行冲突检查与近似检查提醒用户合并或更新知识确保知识库的纯净度与一致性。 • 个性化学习引擎引入用户行为数据为不同角色建立个人知识库提供精细化问题推荐与指标口径确认实现“千人千面”的智能分析体验。 SQLAI.ai
官网划分为多个SQL生成器每个都服务于特定的目的
Explain SQL Queries解释SQL查询提供带摘要、输出可视化和详细查询分解的解释Format SQL Query格式化SQL查询以提高可读性并减少出错的可能性Analyze Your Data允许上传CSV数据并向AI提问Generate SQL QueryFix SQL QueriesOptimize SQL Query
推荐阅读
NL2SQL