從互聯網發展伊始,搜索技術就綻放出了驚人的社會和經濟價值。隨著信息社會快速發展,數據呈爆炸式增長,搜索技術通過數據收集與處理,滿足信息共享與快速檢索的需求。
云搜索服務 ESCloud 是火山引擎提供的完全托管在線分布式搜索服務,兼容 Elasticsearch、Kibana 等軟件及常用開源插件。可以提供結構化、非結構化文本的多條件檢索、統計、報表,幫助實現一鍵部署、彈性擴縮、簡化運維,快速構建日志分析、信息檢索分析等實際業務。
而伴隨著 Serverless 的興起和大勢所向,火山引擎云搜索服務升級云原生新架構。
云搜索服務云原生版

k-NN,大模型時代下的原生向量搜索和數據庫
隨著推薦、音視頻等新興領域應用的涌現和對大模型場景的需求,引入多模態搜索來滿足更加復雜的搜索需求勢在必行。我們在全文檢索的基礎上增加向量搜索能力來實現對非結構化數據的分析和檢索。
在向量搜索的場景下,使用機器學習模型生成向量來表示數據對象(文本、圖像、音視頻等);向量距離來代表對象間的相似性。常用的向量庫使用 ANN 算法在極短時間內完成海量向量的檢索。
k-NN 可以作為向量數據庫來使用,通過引入先進的向量算法庫來構建向量索引,還會將構建好的向量索引持久化到磁盤,索引更加穩定。結合 ESCloud 產品的倒排索引,可以將向量檢索和全文檢索的能力融合,實現更加強大的混合搜索(Hybrid Search)能力。在 ESCloud 的集群基礎上,k-NN 向量數據庫可以提供大規模分布式能力,為用戶帶來可擴展數量級的向量搜索。

場景案例
基于 k-NN 的業務場景主要有以下六大類,目前在字節跳動內部復雜的業務場景中均有所運用:
• 多模態搜索:包括圖片搜索,語義搜索,音視頻相似性檢索等;
• 智能推薦:視頻推薦,廣告投放推薦,關系推薦,商品推薦等;
• 智能問答:基于 Transformer 的 FAQ,LLM 的領域知識問答,LangChain 集合的生成式QA;
• 數據消重:視頻、音頻、圖片的審核消重,各類素材版權檢測;
• 安全風控:欺詐檢測,掃黑檢測,危險評估,異常檢測;
• 其他應用:數據挖掘,數據分析,搜索重排序, 文本搜圖。
以文案相似度識別方案為例。

在用戶推送文案的場景下,為保證用戶體驗,需要確保推送文案不會有重復內容,因此對每個推送的內容都會進行相似度識別并消重。每個文案通過 BERT 模型生成 Embedding,在云搜索中檢索一次。如果相似度低于閾值,判定為新的文案,會寫入 k-NN 向量數據庫中,逐漸完善成一個文案庫;如果相似度高于閾值,則判定為重復文案,減少推送量。
云搜索服務 ESCloud 兼容 Elasticsearch、Kibana 等軟件及常用開源插件,提供結構化、非結構化文本的多條件檢索、統計、報表,可以實現一鍵部署、彈性擴縮、簡化運維,快速構建日志分析、信息檢索分析等業務能力。(作者:杜林)
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。