騰訊云論文入選數據庫頂會VLDB 2025,REDSQL技術攻克NL2SQL難點
9月9日消息,第51屆數據庫頂會VLDB 2025在英國倫敦落幕,騰訊云大數據團隊兩項研究成果被大會成功接收。其中,在自然語言轉SQL(NL2SQL)領域,騰訊云與復旦大學合作提出的SQL修正框架“REDSQL”技術,可有效解決大語言模型在NL2SQL任務中易出錯的問題,顯著提升查詢準確性和實用性,為“聊天式數據分析”的落地提供技術支撐。
(騰訊云大數據團隊技術專家在VLDB2025上做主題分享)
自然語言轉SQL(NL2SQL)技術讓用戶用日常語言直接生成數據庫查詢語句,如“顯示銷售額最高的產品”。雖然降低了數據分析門檻,但大語言模型在實際應用中容易忽略深層業務規則、生成不符合規范的SQL,或在復雜數據庫和大數據量下出現上下文理解不足,影響查詢準確性和效率。
針對這些問題,騰訊云大數據團隊與復旦大學DASLAB實驗室團隊在論文《The Power of Constraints in Natural Language to SQL Translation》中提出REDSQL。該技術通過約束驗證機制智能修正SQL查詢,并生成精煉的數據摘要文檔,幫助AI快速理解數據庫結構、字段類型和數據關系,從而降低生成錯誤SQL的概率。
REDSQL的工作流程包括兩個階段:離線文檔化和在線處理。離線階段為數據庫創建精煉的語義描述和約束信息,包括字段類型、主外鍵關系、數據取值范圍及業務規則摘要,使AI在生成SQL時可直接利用這些結構化信息。
在線階段針對每條用戶查詢,系統先生成初始SQL并捕獲潛在錯誤,再通過約束驗證機制檢查數據類型匹配、連接條件和聚合邏輯,自動修正不符合規范的查詢,同時擴展相關上下文信息供AI優化SQL。
在權威基準測試BIRD上,REDSQL使主流NL2SQL方法的準確率平均提升18%以上,有的原本精度較高的方法結合REDSQL后準確率提升至66.2%,刷新歷史記錄。實驗顯示,REDSQL可即插即用集成到現有AI系統,無需重新訓練模型,適用于企業數據門戶或BI工具,并保證查詢安全和合規性。
除此之外,騰訊大數據團隊還面向參數調優領域,提出“SCompression”技術,通過時間切片與聚類采樣壓縮數據庫負載,使調優速度提升40倍以上,性能偏差低于5%。該成果可與現有調優工具兼容,幫助企業大幅降低數據庫調優的時間與資源成本,加速“自動參數調優”走向商用。
目前,這些研究成果已應用在騰訊云大數據產品線中,助力各行各業客戶構建高性能的數據處理與分析能力。
此外,騰訊還有7篇技術論文被本屆VLDB大會接收,覆蓋分布式事務調度、混合并發控制、時序圖計算等多個前沿領域,多項研究已應用于 微信 、騰訊廣告等億級業務場景,為全球企業提供高性能數據底座支撐。