国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

  • 首頁 > 云計算頻道 > 大模型

    大模型技術實踐(三)|10分鐘用LangChain和Llama 2打造心靈療愈機器人

    2023年09月08日 09:49:59 來源:中文科技資訊

      上期文章我們實現了Llama 2-chat-7B模型的云端部署和推理,本期文章我們將用“LangChain+Llama 2”的架構打造一個定制化的心靈療愈機器人。有相關知識背景的讀者可以直接閱讀「實戰」部分。

      1 背景

      1.1 微調 vs. 知識庫

      由于大模型在垂直行業領域的問答效果仍有待提升,因此,領域知識的注入成為了最直接的解決方案之一。知識注入方法可以分為領域微調(Fine-tuning)和外掛知識庫(Knowledge Base)兩種。

      1. 領域微調

      微調是通過少量特定用例的增量數據對基礎模型進行進一步訓練,改變其神經網絡中的參數權重。微調適用于任務或域定義明確,且有足夠的標記數據的場景,比如風格微調。目前常用的微調方法包括Freeze,P-tuning和LoRA,相關細節會在下期文章中詳細介紹。

      然而,微調方法的不足之處在于:

      ▪ 高質量訓練數據集的構建,微調訓練所需的算力以及微調模型定期更新等開銷都不容小覷

      ▪ 試錯成本較高,特定領域數據一般難以覆蓋模型已學到的參數,且可能會導致模型其他下游任務的表現下降

      2. 外掛知識庫

      外掛知識庫的本質在于不修改基座模型參數,通過提示詞工程(Prompt Engineering)將特定知識作為prompt中的context,即召回相關性最高的幾個文檔,讓模型分析這些蘊含知識后,并返回答案。知識庫適合要求輸出明確且精度高的任務。

      相對于微調,知識庫的優勢在于:

      ▪ 回答精確度更高,基于相關文檔中的最相關特定段落進行語義搜索能消除查詢歧義以生成更精確的答案

      ▪ 適應性更強,用戶可以通過輕松更新信息源來調整和適配新的領域

      但大模型上下文窗口長度的限制和Prompt的構造等因素帶來的潛在精度下降也需要納入知識庫構建的考量。

      為了打造特定領域(Domain-specific Knowledge)的知識問答系統,我們需要借助提供了外掛知識庫的搜索方案LangChain框架。

      1.2 LangChain模塊

      LangChain是一個由語言模型驅動的用于開發應用程序的框架。

      LangChain主要的兩個能力是:

      a. Data-aware:將不同數據源接入到語言模型中

      b. Agentic:允許語言模型和LangChain環境交互

      LangChain的核心模塊包括Models,Prompts,Chains,Indexes,Agents等 [1]。對于每一個模塊,LangChain都提供了標準化的可拓展接口。

      圖1:LangChain部分模塊 [2]

      除了用LLM Wrapper可以接入眾多的大模型(如 OpenAI、Cohere、Hugging Face),LangChain同時也通過VectorStore Wrapper接口集成了主流的向量數據庫(如 Milvus、Pinecone、Chroma等)來優化語義搜索。LangChain能接入的數據類型涵蓋了文本、PPT、圖片、HTML、Pdf等非結構化文件。相較于傳統數據庫的精確搜索,即完全匹配,向量數據庫使用最鄰近(Approximate Nearest Neighbor,ANN)算法和相似度度量(如余弦相似度,內積等)來找到和查詢問題最相似的向量;诒镜刂R庫問答的大致流程如下:

      這里以Milvus數據庫和ChatGPT作為示例:

      圖2:LangChian + Milvus + ChatGPT pipeline [3]

      2 實戰

      目前,我們已經拆解完了LangChain+LLM文檔問答的大致鏈路,接下來我們正式進入實戰環節。

      2.1 環境搭建

      a. 安裝LangChain

      確保Python 版本≥ 3.8.1 且 <4.0。

      b. 部署LLama 2

      關于Llama 2模型的部署,詳情可參見

      i. 上期文章“大模型技術實踐(二)|關于Llama 2你需要知道的那些事兒”:https://mp.weixin.qq.com/s/9WISpAN91duVYVwfkZQaDw

      ii. UCloud官方的“LLaMA2 模型快速部署”文檔:https://docs.ucloud.cn/gpu/practice/LLaMA2?id=llama2-模型快速部署

      c. 下載Embedding 模型

      這里我們選擇text2vec-large-chinese [4]這個Embedding模型,下載地址為:https://huggingface.co/GanymedeNil/text2vec-large-chinese

      對于中文的場景,也有其他優秀的開源模型可供選擇,如m3e和bge等[5]。

      d. 下載數據集

      心靈雞湯文本數據集:https://huggingface.co/datasets/soulteary/warm-chicken-soup/

      這個數據集是從Google網頁上爬取的一些心靈雞湯引用短文,共包含631條文本

      2.2 文檔解析

      a. 加載數據集

      LangChain對于不同格式的數據源內置了不同的解析腳本,最終這些數據都將轉換為純txt文本格式,以實現文本標準化。

      b. 文本切分

      文本切分中的chunk_size指定了切分后的文本塊的字數,chunk_overlap指定了切分文本塊之間的重疊字數。由于雞湯引用文本總長度較短,且文本內部語義關聯度高,所以這里的chunk_size設置為50,chunk_overlap設置為20。

      c. 文本嵌入和向量庫

      文本切分后,我們需要將文本進行向量化表示,將其映射為低維稠密的向量并存儲到然向量數據庫中。向量數據庫選用了無需注冊的FAISS。

      2.3 加載模型

      2.4 語義檢索

      接下來,我就能根據構建好的向量數據庫召回對應文本片段。

      a. 向量化召回

      FAISS默認使用L2(歐式距離),召回的文檔按照相似度結果從大到小排序。

      b. 設置提示詞模板

      以下是Llama 2默認的提示詞模板

      我們可以參考上面的模板,根據場景定制化自己的模板來拼接query和召回結果

      2.5 推理示例

      我們對LLM的參數進行設置,例如最大令牌(max_new_tokens)、最高k值(top_k)、溫度(temperature)和重復懲罰(repetition_penalty)等等。最后,將prompt喂給模型。

      3 外掛知識庫的問題和優化

      3.1 LLM+Embedding-Search的局限

      外掛知識庫將用戶問題和本地知識向量化,比較兩者的向量相似度(Vector Similarity)進行召回。然而,這種全量的Embedding-Search在面對多知識點聚合處理的場景下,存在召回精度低的問題。因為知識庫的構建是對單個知識點進行索引,而非對不同知識點的排列組合分別索引。

      為了避免召回遺漏,直觀的處理方法包括降低相似度閾值(similarity score threshold)和增加召回數量(top_k),但這不免會引入無關的知識點噪聲且增加和LLM交互的token開銷。

      3.2 效果優化方向

      3.2.1 意圖識別和召回優化

      提升問答系統的精度可以從意圖識別和召回優化兩個角度考慮,且兩者都可以用關鍵詞表示,即從直接將用戶query和知識點進行embedding轉變為對兩者提取關鍵詞后再進行匹配。意圖識別可以通過關鍵詞提取(Information Extraction, IE)和槽位填充(Slot Filling,SF)實現。:

      1. 關鍵詞提取

      a. 面向query——槽位填充

      利用LLM思維鏈(Chain-of-Thought,COT)的提示能力來引導用戶多輪對話并進行信息總結。針對我們的心靈療愈機器人的場景,比如用戶查詢心靈雞湯的句子,那么就要求用戶的提供年齡段,情緒問題和情感需求等信息。語義槽格式如下:

      b. 面向知識點——索引入口

      對于知識點可以從以下兩個方面考慮:

      i. 對相同知識點建立多級索引,有助于實現對維度查詢。比如對一位奧運冠軍的姓名,競賽項目,年齡,獲獎時間等分別建立索引。

      ii. 將知識庫轉化為以關系三元組為核心的知識圖譜。三元組的抽取除了傳統的命名實體識別(NER)等方法,也可以通過prompt讓大模型來進行抽取。

      基于關鍵詞的embedding入庫和搜索流程如下:

      2. 多路召回

      類似于Bert時代的垂直領域問答系統,我們可以將語義檢索和傳統的Elasticsearch(ES)關鍵詞搜索并行,對兩者進行加權打分投票來獲取最終的top_k。

      目前類似于以上優化思路已經落地的有“錄問”法律大模型 [6],其基座模型為Baichuan-7B。錄問知識增強的完整鏈路如圖3。值得注意的是,錄問在知識庫中對每一個知識點是以 [key, value] pair 形式存儲的。key是知識點的內容簡介,用于檢索;value是知識點的具體內容,用于模型輸入。實現細節請參照其Hugging Face倉庫。

      圖3:“錄問”知識增強鏈路

      3.2.2 其他優化方向

      除了Embedding部分,“LangChain+LLM”(圖2)鏈路內的其他組件也有進一步優化的空間:

      1. 知識庫細化

      當用戶手動選擇分區后,分區檢索可以明顯提高召回的精度。

      圖4:“錄問”的交互界面

      2. 文本切分方式

      由于文本重疊(overlap)的大小沒有統一標準,如何保證語義完整和連貫都需要不斷測試。

      3. 提示詞的質量

      在提示詞模板的設計上要增加明確約束條件的指令,減少大模型出現幻覺現象的幾率。

      4. 大模型的選型

      選擇基座模型還是微調后的模型,以及對中文的支持程度的需求都需要結合下游場景進行判別。

      本期文章帶你基于“LangChain+LLM”框架快速搭建了知識增強后的問答機器人--心靈療愈師,并探討了提升模型的內容理解和執行能力的潛在優化方向。下期文章我們將深入解讀目前主流的大模型微調技術,敬請期待~

      4 參考文獻

      [1] LangChain Docs: https://python.langchain.com/docs/modules/

      [2] Revolutionizing NLP: Building Advanced Applications with LangChain and LLMs: https://www.linkedin.com/pulse/revolutionizing-nlp-building-advanced-applications-chandan/

      [3] Zilliz gitee: https://zilliz.gitee.io/welcome/

      [4] GanymedeNil/text2vec-large-chinese: https://huggingface.co/GanymedeNil/text2vec-large-chinese

      [5] MTEB Leaderboard: https://huggingface.co/spaces/mteb/leaderboard

      [6] 錄問 (wisdomInterrogatory) github: https://github.com/zhihaiLLM/wisdomInterrogatory

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    [No.S013]

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    亚洲国产另类 国产精品国产免费| 成人免费在线视频网址| 国产精品一卡二卡三卡| 日韩一级淫片| 欧美老肥婆性猛交视频| 伊人久久大香线蕉综合影院首页| 岛国av一区| 丝袜亚洲另类欧美综合| 精品视频一区二区不卡| 欧美一级片免费看| 国产精品夫妻激情| 国产精品亚洲专一区二区三区| 中文字幕欧美区| 色棕色天天综合网| 狠狠v欧美v日韩v亚洲ⅴ| 在线视频观看日韩| 色哟哟免费在线观看| 国产69精品久久久久9999| 精品国产一区二区三区在线观看| 91.xxx.高清在线| 久久久av免费| 在线日韩av片| 巨大黑人极品videos精品| 亚洲最新在线观看| av大片在线观看| 久久久福利视频| 国产高清自拍99| 日韩电影中文字幕一区| 国内精品伊人久久久久影院对白| 久久综合伊人| jazzjazz国产精品久久| 97超碰人人在线| 丝袜美腿高跟呻吟高潮一区| 欧美国产日韩中文字幕在线| 一本色道久久88亚洲综合88| 国产精品美女一区二区在线观看| 国内精品久久久久久| 97av影视网在线观看| 免费看男女www网站入口在线| 色天天综合久久久久综合片| 国产精品av在线| 欧美在线免费观看亚洲| 亚洲成人av| 在线视频欧美日韩精品| 成人午夜在线影视| 日韩三级影视| 国产精品美女av| 久久国产欧美精品| 亚洲男人的天堂一区二区| 国产成人免费av在线| 一本精品一区二区三区| 亚洲欧美一区二区三区| 中文字幕 久热精品 视频在线| 亚洲午夜精品在线| 女人高潮被爽到呻吟在线观看| 国产成人影院| 中文字幕亚洲欧美日韩2019| 午夜精品亚洲| 麻豆91在线播放免费| 亚洲**毛片| 国产精品视频二区三区| 欧美视频精品在线观看| 范冰冰一级做a爰片久久毛片| 91久久黄色| 国产精品扒开腿做爽爽爽软件| 欧美二区三区91| 麻豆亚洲精品| 国产精品911| 成人h动漫精品一区二区器材| 日韩88av| 91老司机福利在线| 欧美在线观看禁18| 国产成人精品久久二区二区91| 国产欧美日韩另类一区| 亚洲欧美制服丝袜| 亚洲国产日韩av| 国产精品乱码久久久久久| 色网在线免费观看| 欧美日韩亚洲精品一区二区三区| 欧美区二区三区| 欧美丰满少妇xxxx| 欧美激情免费看| 91免费国产网站| 琪琪一区二区三区| 亚洲五月六月丁香激情| 狠狠入ady亚洲精品经典电影| 日韩欧美的一区| 欧美片第一页| 中文字幕日本一区二区| 成人性色av| 97久久精品在线| 精品美女一区| 中文字幕区一区二区三| 久久一区二区三区国产精品| 精品国产第一国产综合精品| 51国偷自产一区二区三区| 欧美乱妇20p| 久久久极品av| 91久久香蕉国产日韩欧美9色| 国产精品视频福利| 日韩免费网站| caoporm超碰国产精品| 欧美孕妇与黑人孕交| 欧美综合激情| 精品中文字幕一区二区三区四区| 成年人视频在线看| 国产情侣一区在线| 激情亚洲网站| 91视频一区二区三区| 美女视频黄免费的亚洲男人天堂| 亚洲日韩视频| 日本亚洲不卡| 国产一区二区三区久久| 欧美激情第六页| 韩国精品一区二区| 久久av一区二区三区| 成人羞羞国产免费| 另类视频一区二区三区| 自拍偷拍欧美日韩| 91在线播放国产| 五月国产精品| 国产韩日精品| 久久视频国产精品免费视频在线| 18性欧美xxxⅹ性满足| 亚洲欧美成人vr| 成人av在线网址| 欧美日韩尤物久久| 中文字幕亚洲综合久久| 欧美大秀在线观看| 国产chinese精品一区二区| 免费看成人哺乳视频网站| 久久综合伊人| 欧美高清在线精品一区| 日日天天久久| 日韩毛片免费看| 国产精品成人网| 亚洲成人激情综合网| 日本高清不卡在线观看| 精精国产xxxx视频在线野外| 26uuu色噜噜精品一区| 日韩在线资源| 日韩一区二区免费高清| 欧洲人成人精品| 欧美日韩一区二区三区四区| 日韩视频在线观看一区二区| 欧美日韩国产va另类| 超碰在线无需免费| 一本大道久久加勒比香蕉| 免费久久精品视频| 国产精品久久久久久福利| 国产精品美女在线| 日本不卡高清| 秋霞成人午夜伦在线观看| 欧美在线观看视频一区二区| 亚洲精品美腿丝袜| 97成人在线| 亚洲欧美日韩国产综合精品二区| 国产精品久久久一区二区| 国产日韩专区在线| 妖精视频成人观看www| 99热国内精品永久免费观看| 超黄网站在线观看| 成人免费在线看片| 波多野结衣的一区二区三区|