91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

常見的9種距離度量方法

深度學(xué)習(xí)自然語言處理 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2021-03-05 15:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

歐氏距離(Euclidean Distance)

歐式距離。 我們從最常見的歐式距離開始,歐式距離可解釋為連接兩個(gè)點(diǎn)的線段的長度。歐式距離公式非常簡單,使用勾股定理從這些點(diǎn)的笛卡爾坐標(biāo)計(jì)算距離。

缺點(diǎn):盡管這是一種常用的距離度量,但歐式距離并不是尺度不變的,這意味著所計(jì)算的距離可能會根據(jù)特征的單位發(fā)生傾斜。通常,在使用歐式距離度量之前,需要對數(shù)據(jù)進(jìn)行歸一化處理。 此外,隨著數(shù)據(jù)維數(shù)的增加,歐氏距離的作用也就越小。這與維數(shù)災(zāi)難(curse of dimensionality)有關(guān)。 用例:當(dāng)你擁有低維數(shù)據(jù)且向量的大小非常重要時(shí),歐式距離的效果非常好。如果在低維數(shù)據(jù)上使用歐式距離,則如 k-NN 和 HDBSCAN 之類的方法可達(dá)到開箱即用的效果。 余弦相似度(Cosine Similarity)

余弦相似度。 余弦相似度經(jīng)常被用作抵消高維歐式距離問題。余弦相似度是指兩個(gè)向量夾角的余弦。如果將向量歸一化為長度均為 1 的向量,則向量的點(diǎn)積也相同。 兩個(gè)方向完全相同的向量的余弦相似度為 1,而兩個(gè)彼此相對的向量的余弦相似度為 - 1。注意,它們的大小并不重要,因?yàn)檫@是在方向上的度量。

缺點(diǎn):余弦相似度的一個(gè)主要缺點(diǎn)是沒有考慮向量的大小,而只考慮它們的方向。以推薦系統(tǒng)為例,余弦相似度就沒有考慮到不同用戶之間評分尺度的差異。 用例:當(dāng)我們對高維數(shù)據(jù)向量的大小不關(guān)注時(shí),可以使用余弦相似度。對于文本分析,當(dāng)數(shù)據(jù)以單詞計(jì)數(shù)表示時(shí),經(jīng)常使用此度量。例如,當(dāng)一個(gè)單詞在一個(gè)文檔中比另一個(gè)單詞更頻繁出現(xiàn)時(shí),這并不一定意味著文檔與該單詞更相關(guān)??赡苁俏募L度不均勻或者計(jì)數(shù)的重要性不太重要。我們最好使用忽略幅度的余弦相似度。 漢明距離(Hamming Distance)

漢明距離。 漢明距離是兩個(gè)向量之間不同值的個(gè)數(shù)。它通常用于比較兩個(gè)相同長度的二進(jìn)制字符串。它還可以用于字符串,通過計(jì)算不同字符的數(shù)量來比較它們之間的相似程度。 缺點(diǎn):當(dāng)兩個(gè)向量長度不相等時(shí),漢明距離使用起來很麻煩。當(dāng)幅度是重要指標(biāo)時(shí),建議不要使用此距離指標(biāo)。 用例:典型的用例包括數(shù)據(jù)通過計(jì)算機(jī)網(wǎng)絡(luò)傳輸時(shí)的錯(cuò)誤糾正 / 檢測。它可以用來確定二進(jìn)制字中失真的數(shù)目,作為估計(jì)誤差的一種方法。此外,你還可以使用漢明距離來度量分類變量之間的距離。 曼哈頓距離(Manhattan Distance)

曼哈頓距離。 曼哈頓距離通常稱為出租車距離或城市街區(qū)距離,用來計(jì)算實(shí)值向量之間的距離。想象一下均勻網(wǎng)格棋盤上的物體,如果它們只能移動(dòng)直角,曼哈頓距離是指兩個(gè)向量之間的距離,在計(jì)算距離時(shí)不涉及對角線移動(dòng)。

3c7dd21a-7c22-11eb-8b86-12bb97331649.png

缺點(diǎn):盡管曼哈頓距離在高維數(shù)據(jù)中似乎可以工作,但它比歐式距離直觀性差,尤其是在高維數(shù)據(jù)中使用時(shí)。此外,由于它可能不是最短路徑,有可能比歐氏距離給出一個(gè)更高的距離值。 用例:當(dāng)數(shù)據(jù)集具有離散或二進(jìn)制屬性時(shí),曼哈頓距離似乎工作得很好,因?yàn)樗紤]了在這些屬性的值中實(shí)際可以采用的路徑。以歐式距離為例,它會在兩個(gè)向量之間形成一條直線,但實(shí)際上這是不可能的。 切比雪夫距離(Chebyshev Distance)

切比雪夫距離。 切比雪夫距離定義為兩個(gè)向量在任意坐標(biāo)維度上的最大差值。換句話說,它就是沿著一個(gè)軸的最大距離。切比雪夫距離通常被稱為棋盤距離,因?yàn)閲H象棋的國王從一個(gè)方格到另一個(gè)方格的最小步數(shù)等于切比雪夫距離。

缺點(diǎn):切比雪夫距離通常用于特定的用例,這使得它很難像歐氏距離或余弦相似度那樣作為通用的距離度量。因此,在確定適合用例時(shí)才使用它。 用例:切比雪夫距離用于提取從一個(gè)方塊移動(dòng)到另一個(gè)方塊所需的最小移動(dòng)次數(shù)。此外,在允許無限制八向移動(dòng)的游戲中,這可能是有用的方法。在實(shí)踐中,切比雪夫距離經(jīng)常用于倉庫物流,因?yàn)樗浅n愃朴谄鹬貦C(jī)移動(dòng)一個(gè)物體的時(shí)間。 閔氏距離(Minkowski)

閔氏距離。 閔氏距離比大多數(shù)距離度量更復(fù)雜。它是在范數(shù)向量空間(n 維實(shí)數(shù)空間)中使用的度量,這意味著它可以在一個(gè)空間中使用,在這個(gè)空間中,距離可以用一個(gè)有長度的向量來表示。 閔氏距離公式如下:

最有趣的一點(diǎn)是,我們可以使用參數(shù) p 來操縱距離度量,使其與其他度量非常相似。常見的 p 值有:

p=1:曼哈頓距離

p=2:歐氏距離

p=∞:切比雪夫距離

缺點(diǎn):閔氏距離與它們所代表的距離度量有相同的缺點(diǎn),因此,對哈頓距離、歐幾里得距離和切比雪夫距離等度量標(biāo)準(zhǔn)有個(gè)好的理解非常重要。此外,參數(shù) p 的使用可能很麻煩,因?yàn)楦鶕?jù)用例,查找正確的 p 值在計(jì)算上效率低。 用例:p 的積極一面是可迭代,并找到最適合用例的距離度量。它允許在距離度量上有很大的靈活性,如果你非常熟悉 p 和許多距離度量,將會獲益多多。 雅卡爾指數(shù)(Jaccard Index)

雅卡爾指數(shù)。 雅卡爾指數(shù)(交并比)是用于比較樣本集相似性與多樣性的統(tǒng)計(jì)量。雅卡爾系數(shù)能夠量度有限樣本集合的相似度,其定義為兩個(gè)集合交集大小與并集大小之間的比例。 例如,如果兩個(gè)集合有 1 個(gè)共同的實(shí)體,而有 5 個(gè)不同的實(shí)體,那么雅卡爾指數(shù)為 1/5 = 0.2。要計(jì)算雅卡爾距離,我們只需從 1 中減去雅卡爾指數(shù):

缺點(diǎn):雅卡爾指數(shù)的一個(gè)主要缺點(diǎn)是它受數(shù)據(jù)大小的影響很大。大數(shù)據(jù)集對指數(shù)有很大影響,因?yàn)樗梢燥@著增加并集,同時(shí)保持交集相似。 用例:雅卡爾指數(shù)通常用于使用二進(jìn)制或二進(jìn)制數(shù)據(jù)的應(yīng)用程序中。當(dāng)你有一個(gè)深度學(xué)習(xí)模型來預(yù)測圖像分割時(shí),比如一輛汽車,雅卡爾指數(shù)可以用來計(jì)算給定真實(shí)標(biāo)簽的預(yù)測分割的準(zhǔn)確度。 類似地,它可以用于文本相似性分析,以測量文檔之間有多少詞語重疊。因此,它可以用來比較模式集合。 半正矢(Haversine)

半正矢距離。 半正矢距離是指球面上的兩點(diǎn)在給定經(jīng)緯度條件下的距離。它與歐幾里得距離非常相似,因?yàn)樗梢杂?jì)算兩點(diǎn)之間的最短連線。主要區(qū)別在于半正矢距離不可能有直線,因?yàn)檫@里的假設(shè)是兩個(gè)點(diǎn)都在一個(gè)球面上。

缺點(diǎn):這種距離測量的一個(gè)缺點(diǎn)是,假定這些點(diǎn)位于一個(gè)球體上。實(shí)際上,這種情況很少出現(xiàn),例如,地球不是完美的圓形,在某些情況下可能使計(jì)算變得困難。相反,如果假定是橢球,使用 Vincenty 距離比較好。 用例:半正矢距離通常用于導(dǎo)航。例如,你可以使用它來計(jì)算兩個(gè)國家之間的飛行距離。請注意,如果距離本身不那么大,則不太適合。 S?rensen-Dice 系數(shù)

S?rensen-Dice 系數(shù)。 S?rensen-Dice 系數(shù)與雅卡爾指數(shù)非常相似,都是度量樣本集的相似性和多樣性。盡管它們的計(jì)算方法相似,但是 S?rensen-Dice 系數(shù)更直觀一些,因?yàn)樗梢员灰暈閮蓚€(gè)集合之間重疊的百分比,這個(gè)值在 0 到 1 之間:

3eb903f6-7c22-11eb-8b86-12bb97331649.png

缺點(diǎn):正如雅卡爾指數(shù),S?rensen-Dice 系數(shù)也夸大了很少或沒有真值的集合的重要性,因此,它可以控制多集合的平均得分,還可以控制多組平均得分并按相關(guān)集合的大小成反比地加權(quán)每個(gè)項(xiàng)目,而不是平等對待它們。 用例:用例與雅卡爾指數(shù)相似,它通常用于圖像分割任務(wù)或文本相似性分析。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7337

    瀏覽量

    94812
  • 距離
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    13964
  • 向量
    +關(guān)注

    關(guān)注

    0

    文章

    55

    瀏覽量

    12042

原文標(biāo)題:一文讀懂常見的9種距離度量方法

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    傾斜儀常見故障診斷與排除方法

    傾斜儀在工程監(jiān)測應(yīng)用中,可能因環(huán)境因素或安裝問題出現(xiàn)各類故障。了解常見故障的識別與處理方法,對保障監(jiān)測數(shù)據(jù)連續(xù)性具有重要意義。常見故障類型與診斷讀數(shù)異常是傾斜儀最常見的故障表現(xiàn)。當(dāng)監(jiān)測
    的頭像 發(fā)表于 03-02 14:39 ?135次閱讀
    傾斜儀<b class='flag-5'>常見</b>故障診斷與排除<b class='flag-5'>方法</b>

    ODF配線架常見故障及解決方法?

    ODF配線架常見故障及解決方法如下: 一、接地故障 故障表現(xiàn): 防雷性能下降,靜電積累,甚至引發(fā)設(shè)備損壞。 光信號傳輸不穩(wěn)定,出現(xiàn)誤碼或中斷。 常見原因: 接地端子氧化、松動(dòng)或接觸不良。 接地線
    的頭像 發(fā)表于 01-05 10:43 ?354次閱讀

    LED顯示屏常見故障分類及處理方法

    常見故障分類LED顯示屏常見故障分為三類:LED模組常見故障、室內(nèi)全彩顯示屏故障及戶外全彩顯示屏故障。針對每一類故障,我們將詳細(xì)分析可能的原因,并提供具體的檢測與維修步驟。LED模組常見
    的頭像 發(fā)表于 12-18 15:48 ?1202次閱讀
    LED顯示屏<b class='flag-5'>常見</b>故障分類及處理<b class='flag-5'>方法</b>

    工業(yè)鏡頭測量中的“工作距離”是什么?

    的設(shè)計(jì)和性能。本文將從定義、影響因素、計(jì)算方法以及實(shí)際應(yīng)用等方面,對工業(yè)鏡頭的工作距離進(jìn)行科普性闡述,以期為相關(guān)從業(yè)者提供清晰的參考。工作距離的定義工作距離是指工業(yè)鏡頭的
    的頭像 發(fā)表于 12-06 16:46 ?800次閱讀
    工業(yè)鏡頭測量中的“工作<b class='flag-5'>距離</b>”是什么?

    Keithley吉時(shí)利6511常見故障排查及解決方法

    Keithley吉時(shí)利6511作為一款精密測量儀器,在長期使用中可能會遇到各種故障。以下是該設(shè)備常見故障的排查思路及解決方法,幫助用戶快速定位問題并恢復(fù)設(shè)備正常運(yùn)行。 ? ? 一、常見故障及排查步驟
    的頭像 發(fā)表于 11-21 18:47 ?971次閱讀
    Keithley吉時(shí)利6511<b class='flag-5'>常見</b>故障排查及解決<b class='flag-5'>方法</b>

    晶振使用中常見問題與解決方法

    一、頻偏造成的使用異常異常現(xiàn)象:色彩圖像不正常;音頻雜音,無數(shù)據(jù)傳輸,距離短,遙控?zé)o反應(yīng)。常見處理:換一個(gè)就OK根本原因:晶振負(fù)載電容同電路不匹配。解決辦法:調(diào)整電路匹配電容大小,或換用不同負(fù)載電容
    的頭像 發(fā)表于 11-21 15:37 ?4019次閱讀
    晶振使用中<b class='flag-5'>常見</b>問題與解決<b class='flag-5'>方法</b>

    FPGA測試DDR帶寬跑不滿的常見原因及分析方法

    在 FPGA 中測試 DDR 帶寬時(shí),帶寬無法跑滿是常見問題。下面我將從架構(gòu)、時(shí)序、訪問模式、工具限制等多個(gè)維度,系統(tǒng)梳理導(dǎo)致 DDR 帶寬跑不滿的常見原因及分析方法。
    的頭像 發(fā)表于 10-15 10:17 ?1049次閱讀

    蓄電池運(yùn)維的常見誤區(qū)及解決方法

    和其他工業(yè)與電氣設(shè)備一樣,蓄電池也需要定期的維護(hù)。但不少工程師對于蓄電池維護(hù)項(xiàng)目和方法等還存在一些誤解。今天小福為大家深度剖析蓄電池運(yùn)維的常見4大維護(hù)誤區(qū),助你避開雷區(qū),精準(zhǔn)預(yù)判電池壽命!
    的頭像 發(fā)表于 09-04 13:58 ?1051次閱讀
    蓄電池運(yùn)維的<b class='flag-5'>常見</b>誤區(qū)及解決<b class='flag-5'>方法</b>

    貼片晶振中兩常見封裝介紹

    貼片晶體振蕩器作為關(guān)鍵的時(shí)鐘頻率元件,其性能直接關(guān)系到系統(tǒng)運(yùn)行的穩(wěn)定性。今天,凱擎小妹帶大家聊聊貼片晶振中兩常見封裝——金屬面封裝與陶瓷面封裝。
    的頭像 發(fā)表于 07-04 11:29 ?1280次閱讀
    貼片晶振中兩<b class='flag-5'>種</b><b class='flag-5'>常見</b>封裝介紹

    介紹三常見的MySQL高可用方案

    在生產(chǎn)環(huán)境中,為了確保數(shù)據(jù)庫系統(tǒng)的連續(xù)可用性、降低故障恢復(fù)時(shí)間以及實(shí)現(xiàn)業(yè)務(wù)的無縫切換,高可用(High Availability, HA)方案至關(guān)重要。本文將詳細(xì)介紹三常見的 MySQL 高可用
    的頭像 發(fā)表于 05-28 17:16 ?1257次閱讀

    常見的PFC拓?fù)浼軜?gòu)及控制方法

    本期,芯朋微技術(shù)團(tuán)隊(duì)將為各位fans分享常見的PFC拓?fù)浼軜?gòu)及控制方法,為設(shè)計(jì)選型提供參考。
    的頭像 發(fā)表于 04-27 18:03 ?7614次閱讀
    <b class='flag-5'>常見</b>的PFC拓?fù)浼軜?gòu)及控制<b class='flag-5'>方法</b>

    光模塊波長與傳輸距離

    光信號傳輸時(shí)所使用的光波段,它的單位是納米(nm)。常見的波長有850nm、1310nm、1550nm。這三光波形較長,衰減小,比較適合光纖傳輸。光模塊的傳輸距離可分為短距、中距和長距三
    的頭像 發(fā)表于 04-25 16:53 ?2108次閱讀
    光模塊波長與傳輸<b class='flag-5'>距離</b>

    電機(jī)常見故障分析及解決方法

    電機(jī)在運(yùn)行過程中可能會出現(xiàn)多種故障,以下是一些常見故障的分析及解決方法: 一、機(jī)械故障 1. 軸承損壞或磨損 ? ?● 故障表現(xiàn):電機(jī)運(yùn)轉(zhuǎn)不平穩(wěn),產(chǎn)生異響,嚴(yán)重時(shí)甚至停轉(zhuǎn)。 ? ?● 原因分析:通常
    的頭像 發(fā)表于 04-25 15:20 ?5713次閱讀
    電機(jī)<b class='flag-5'>常見</b>故障分析及解決<b class='flag-5'>方法</b>

    如何增加藍(lán)牙通信距離?

    什么是藍(lán)牙?藍(lán)牙是一無線通信技術(shù),主要用于短距離內(nèi)實(shí)現(xiàn)設(shè)備之間的連接和數(shù)據(jù)傳輸。目前無論是在無線耳機(jī)、智能手表,還是智能家居中,亦或是其他的物聯(lián)網(wǎng)設(shè)備,藍(lán)牙連接都在其中發(fā)揮著重要的作用。但是在一些
    的頭像 發(fā)表于 04-10 19:35 ?4111次閱讀
    如何增加藍(lán)牙通信<b class='flag-5'>距離</b>?

    激光焊接十大常見缺陷及解決方法

    激光焊接是一以高能量密度的激光束作為熱源的高效精密焊接方法,具有高效精準(zhǔn)、簡單易上手等優(yōu)勢。如今,激光焊接已廣泛應(yīng)用于各個(gè)行業(yè),如:電子零件、汽車制造、航空航天等工業(yè)制造領(lǐng)域。 然而,激光焊接并非
    的頭像 發(fā)表于 03-17 16:02 ?6011次閱讀