999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

向量搜索在電商商品批量檢索的應用

2023-11-15 01:51:28
寶鋼技術 2023年4期
關鍵詞:排序文本

朱 俊

(歐冶工業品股份有限公司,上海 201900)

1 批量檢索背景介紹

在采購任務的背景下,企業或組織通常需要采購大量的工業品,以滿足生產和運營的需求。這些工業品可以包括原材料、零部件、設備和其他必要的物資。為了高效地完成采購任務,采購商經常依賴于工業品電商平臺,這些平臺提供了一個集中展示和銷售各種工業品的市場。

然而,傳統基于分詞索引的搜索方法在處理這類批量檢索任務時面臨許多困難,這些困難點限制了采購商在工業品電商平臺上的效率和準確性:

(1)大規模查詢:采購商需要查詢大量的商品以了解不同產品的特性、價格和供應商等信息。傳統的搜索方法在處理大規模查詢時往往效率低下,需要耗費大量時間和資源。

(2)搜索時間長:采購商需要盡快獲得關于大量商品的信息,以便做出及時的決策。然而傳統的搜索方法由于基于分詞索引和詞條匹配的方式,搜索時間較長,無法滿足采購商的快速查詢需求。

(3)意圖理解困難:傳統搜索方法無法理解采購商的意圖。它們只依賴于詞條匹配,而無法準確捕捉采購商的具體需求和意圖。這導致搜索結果可能不夠準確,使采購商在評估和比較商品時面臨困難。

(4)不準確的搜索結果:傳統方法的詞條匹配搜索可能產生不準確的結果,因為它們無法考慮商品的多維特征和相似性。這使得采購商在選擇合適的商品時可能遇到困難,增加了采購決策的風險。

綜上所述,批量采購任務在工業品電商平臺上存在一些挑戰和困難。為了解決這些問題,引入向量搜索技術可以提供快速、準確的商品檢索,同時能夠更好地理解采購商的意圖,提升搜索結果的準確性和效率。

2 向量搜索技術背景介紹

2.1 向量搜索框架和原理

向量搜索技術也被稱為近似最近鄰搜索(approximate nearest neighbor search,ANN),是一種針對海量高維數據進行快速查詢的算法技術。該技術的基礎是將復雜的對象或數據轉換成高維空間中的向量,通過計算向量之間的距離來進行相似性比較。在人工智能和機器學習領域,數據通常被表示為高維向量。例如,在自然語言處理中,詞語和句子可以被表示為高維向量,這就需要使用向量搜索技術來查找最相關的信息。

向量搜索技術可應用于較多場景,例如在推薦系統中,需要找出與用戶歷史行為最相似的物品來進行推薦,可以將用戶的行為和物品的屬性都轉化為向量,然后通過計算向量之間的距離來找出最相似的物品;在圖像和視頻搜索中,可以將圖像和視頻的特征提取出來,轉化為向量,然后通過向量搜索技術來找出最相似的圖像或視頻;在自然語言處理里,可以將詞語和句子轉化為向量(詞向量和句向量),然后通過向量搜索技術來完成諸如語義搜索,文本相似度計算,機器翻譯等任務。在生物信息學領域,基因序列、蛋白質序列等也可以被表示為高維向量,通過向量搜索技術快速找出具有相似特性的基因或蛋白質。

向量搜索能夠將語義信息映射到高維向量空間中,通過向量間的相似度計算,在檢索過程中找到與查詢條件相似的對象。向量搜索框架通常包括以下幾個部分:

(1)向量表示:利用深度學習模型(如Word2Vec、GloVe、BERT等)進行嵌入,將被搜索文本轉換成高維向量。這些模型通過對大量文本數據進行訓練,學習到每個詞匯(或短語)在語義空間中的表示,從而捕捉詞匯間的關系和上下文信息[1]。

(2)索引構建:以哈希表等數據結構構建好文本向量索引,并采用近似的搜索策略[2]。例如FAISS、Annoy、HNSW等都是流行的向量索引庫。

(3)查詢處理:將用戶的查詢轉換為相應的向量表示,然后在索引中檢索與該查詢向量相似的結果。相似性通過計算查詢向量與索引中向量之間的距離來實現。

(4)結果排序與優化:對檢索到的結果進行排序和優化,以提供更準確的檢索結果。

2.2 向量搜索用于批量檢索的優點

相較于傳統搜索方法,向量搜索在批量檢索方面支持批量快速運行,可高效地在大規模向量空間中查找最相似的結果。此外向量搜索方法能夠捕捉詞匯和語義信息,使得向量搜索能夠更好地理解用戶輸入的搜索語句,并在搜索結果中體現語義相關性。

3 基于向量搜索的批量檢索方案及試驗結果分析

3.1 基于FAISS的商品批量檢索方案

本文提出了一種基于FAISS的向量搜索方案,用于快速搜索大規模向量數據集中與給定向量最相似的項[3],具體步驟如下:

(1)商品的文本嵌入。

首先通過內部商品數據產生一個文本嵌入模型。這里采用Sentence-BERT模型作為文本嵌入工具,Sentence-BERT能夠結合人工整理后的商品專業詞庫按詞進行嵌入,相比BERT按token嵌入有更好的效果[4]。方案中采用1 790 100條商品數據進行微調,包含商品名稱、型號規格、品牌、技術屬性信息、商品類別信息等。

(2)建立FAISS索引。

通過微調后將每個商品嵌入768維的向量并建立FAISS indexFlatL2索引,即通過計算搜索文本與商品向量的歐幾里得距離進行索引(圖1)。

圖1 商品嵌入及FAISS索引建立

(3)搜索文本加強。

借助積累好的品牌、型號規格詞庫,通過對搜索文本進行處理以加強搜索文本的特征,處理內容包括:

① 基于型號規格詞庫,使用jieba分詞提取文本中的型號規格信息。

② 基于商品專業詞庫,使用Sentence-BERT分詞對搜索文本進行分詞。

③ 使用Sentence-BERT對搜索文本進行嵌入。

(4)FAISS召回。

使用FAISS對搜索文本進行召回,取相較于搜索文本向量的歐幾里得距離最近的1 000條商品作為召回結果,并對計算得到的歐幾里得距離進行歸一作為距離權重。搜索文本對第i個召回結果的距離權重S1i的計算方法為:

(1)

式中:Dmax為1 000個召回結果中的最大距離;Di為第i個召回結果的距離。

(5)型號規格權重計算。

對搜索文本中提取出來的型號規格進行切詞,得到一系列切開的型號規格,并去除空格、逗號等無意義符號。計算搜索文本對第i個召回結果的型規權重S2i:

(2)

式中:Ci為搜索的型號規格切詞在第i個召回結果中出現的個數;L為搜索文本切詞的數量。

(6)加權排序。

將距離權重S1i和型規權重S2i加權相加,得到第i個召回的排序權重Si(圖2):

圖2 搜索文本召回及排序

Si=0.3S1i+0.7S2i

(3)

因為應用場景中對型號精確匹配有較高的要求,故此處經人工試驗后距離權重S1i的加權設置為0.3,型規權重S2i的加權設置為0.7,加權可以根據實際場景需求進行調整。計算每個商品的排序權重后,根據排序權重進行降序排序,取前五個結果作為匹配結果。

上述步驟為針對單條搜索文本的處理過程,在批量搜索的場景中,采用FAISS的批量索引方法進行批量召回及距離權重計算,再針對每條搜索文本進行常規權重計算和加權排序即可。

3.2 試驗結果對比

基于FAISS的向量搜索方案與傳統基于分詞索引的ES搜索從如下兩個方面進行對比:

(1)準確率Precision。

取Precision@20、Precision@10、Precision@5,即分別取20、10、5個返回結果,判斷它們是否都符合搜索意圖,若有不符合的則認為此條結果不準確,取正確結果數量/n作為準確率。

(2)搜索耗時。

以100條商品搜索信息(包含搜索商品名稱與主要型號規格信息,且每條商品均有5條以上可匹配商品)為輸入,從170 W商品集合中進行數據匹配,此外,ES搜索和FAISS向量搜索部署在同一臺服務器上,算力及網絡環境相同。本次采用FAISS-CPU模式,未使用GPU資源進行加速。搜索準確率對比如表1所示。

表1 基于ES和FAISS的批量檢索準確率對比

試驗結果表明,在搜索速度上向量搜索有較大優勢,在100條搜索文本下向量搜索僅需4.40 s就能完成搜索,而ES需要耗時約18.21 s。但FAISS相對ES搜索的召回率略低,經結果分析發現,主要問題在于文本嵌入模型無法很好地學習一些低頻專業詞的語義,尤其是型號規格,而當搜索文本僅包含型號規格時,向量搜索無法召回全部正確結果,此問題后續可以通過針對這些語義理解效果差的詞進行數據增強,并再次微調Sentence-BERT以優化語義嵌入表現。這仍將導致FAISS檢索在Precision@20的準確率略低于ES搜索。但由于FAISS檢索在召回階段后可以加入更精細的排序策略,因此排序效果優于ES搜索,在Precision@10以及Precision@5上均高于ES搜索。

4 結語

本文針對電商商品批量檢索場景,提出了一種基于FAISS的向量搜索方案。相較于傳統搜索方法,該方案具有搜索速度快、能夠理解搜索語義及針對召回結果進行精確排序的優勢。本文提出的方案仍有改進空間,例如可嘗試更多的預訓練模型,以及在后處理排序階段可以考慮更多的特征進行加權。

猜你喜歡
排序文本
排排序
排序不等式
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
恐怖排序
在808DA上文本顯示的改善
節日排序
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 视频二区国产精品职场同事| yjizz视频最新网站在线| 亚洲欧美日本国产专区一区| 亚洲午夜福利精品无码| 99人妻碰碰碰久久久久禁片| 成人91在线| 国产成人凹凸视频在线| 国产在线第二页| 农村乱人伦一区二区| 国产白浆一区二区三区视频在线| 成年A级毛片| 午夜啪啪网| AⅤ色综合久久天堂AV色综合| 国产福利一区在线| 91偷拍一区| 蜜桃视频一区| 天堂网国产| 午夜在线不卡| 亚洲成人免费看| 日韩毛片免费视频| 日韩免费毛片| 久久国产精品国产自线拍| 国产视频只有无码精品| 亚洲天堂网在线播放| 国产情精品嫩草影院88av| 欧美午夜在线观看| 亚洲免费人成影院| 免费A级毛片无码免费视频| 久久人妻xunleige无码| 国产视频 第一页| 国产高颜值露脸在线观看| 精品视频免费在线| 欧美三级日韩三级| 999精品免费视频| a级毛片一区二区免费视频| 永久在线精品免费视频观看| 亚洲免费毛片| 色香蕉影院| 日韩av电影一区二区三区四区| 91精品伊人久久大香线蕉| 亚洲第一色网站| 青青操国产视频| 99尹人香蕉国产免费天天拍| 六月婷婷综合| 亚洲天堂在线视频| 无码AV高清毛片中国一级毛片| 98超碰在线观看| 99人妻碰碰碰久久久久禁片| 国产精品网拍在线| 久青草免费在线视频| 成人国内精品久久久久影院| 中文字幕 91| 欧美日本激情| 婷婷99视频精品全部在线观看| 在线观看欧美精品二区| 在线免费看片a| 丁香婷婷综合激情| 91小视频在线播放| 91精品aⅴ无码中文字字幕蜜桃| 自拍偷拍一区| 日韩国产一区二区三区无码| 国产后式a一视频| 国产美女精品一区二区| 一级全黄毛片| 2022国产无码在线| 亚洲成A人V欧美综合| 欧美特黄一级大黄录像| 久草网视频在线| 无码av免费不卡在线观看| 国产免费久久精品44| 国内精自视频品线一二区| 在线不卡免费视频| 国产精品永久久久久| 久久黄色毛片| 欧美va亚洲va香蕉在线| 毛片基地视频| 91在线一9|永久视频在线| 欧美亚洲网| 2021国产精品自产拍在线观看| 久草视频福利在线观看| 91在线精品免费免费播放| 精品视频一区在线观看|