91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)科學(xué)家Maarten Grootendorst向我們介紹了9種距離度量方法

新機(jī)器視覺 ? 來源:人工智能愛好者社區(qū) ? 作者:人工智能愛好者社 ? 2021-03-29 11:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在數(shù)據(jù)挖掘中,我們經(jīng)常需要計(jì)算樣本之間的相似度,通常的做法是計(jì)算樣本之間的距離。在本文中,數(shù)據(jù)科學(xué)家 Maarten Grootendorst 向我們介紹了 9 種距離度量方法,其中包括歐氏距離、余弦相似度等,并探討如何以及何時(shí)以最佳的方式使用它們。此外 Maarten Grootendorst 還對(duì)它們的缺點(diǎn)進(jìn)行了介紹,以及如何規(guī)避不足。歐氏距離(Euclidean Distance)

6f6bc4e6-8e94-11eb-8b86-12bb97331649.png

歐式距離。 我們從最常見的歐式距離開始,歐式距離可解釋為連接兩個(gè)點(diǎn)的線段的長度。歐式距離公式非常簡(jiǎn)單,使用勾股定理從這些點(diǎn)的笛卡爾坐標(biāo)計(jì)算距離。

6f86ca52-8e94-11eb-8b86-12bb97331649.png

缺點(diǎn):盡管這是一種常用的距離度量,但歐式距離并不是尺度不變的,這意味著所計(jì)算的距離可能會(huì)根據(jù)特征的單位發(fā)生傾斜。通常,在使用歐式距離度量之前,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理。 此外,隨著數(shù)據(jù)維數(shù)的增加,歐氏距離的作用也就越小。這與維數(shù)災(zāi)難(curse of dimensionality)有關(guān)。 用例:當(dāng)你擁有低維數(shù)據(jù)且向量的大小非常重要時(shí),歐式距離的效果非常好。如果在低維數(shù)據(jù)上使用歐式距離,則如 k-NN 和 HDBSCAN 之類的方法可達(dá)到開箱即用的效果。 余弦相似度(Cosine Similarity)

6fce2820-8e94-11eb-8b86-12bb97331649.png

余弦相似度。 余弦相似度經(jīng)常被用作抵消高維歐式距離問題。余弦相似度是指兩個(gè)向量夾角的余弦。如果將向量歸一化為長度均為 1 的向量,則向量的點(diǎn)積也相同。 兩個(gè)方向完全相同的向量的余弦相似度為 1,而兩個(gè)彼此相對(duì)的向量的余弦相似度為 - 1。注意,它們的大小并不重要,因?yàn)檫@是在方向上的度量。

703e5b0e-8e94-11eb-8b86-12bb97331649.png

缺點(diǎn):余弦相似度的一個(gè)主要缺點(diǎn)是沒有考慮向量的大小,而只考慮它們的方向。以推薦系統(tǒng)為例,余弦相似度就沒有考慮到不同用戶之間評(píng)分尺度的差異。 用例:當(dāng)我們對(duì)高維數(shù)據(jù)向量的大小不關(guān)注時(shí),可以使用余弦相似度。對(duì)于文本分析,當(dāng)數(shù)據(jù)以單詞計(jì)數(shù)表示時(shí),經(jīng)常使用此度量。例如,當(dāng)一個(gè)單詞在一個(gè)文檔中比另一個(gè)單詞更頻繁出現(xiàn)時(shí),這并不一定意味著文檔與該單詞更相關(guān)??赡苁俏募L度不均勻或者計(jì)數(shù)的重要性不太重要。我們最好使用忽略幅度的余弦相似度。 漢明距離(Hamming Distance)

708c32e8-8e94-11eb-8b86-12bb97331649.png

漢明距離。 漢明距離是兩個(gè)向量之間不同值的個(gè)數(shù)。它通常用于比較兩個(gè)相同長度的二進(jìn)制字符串。它還可以用于字符串,通過計(jì)算不同字符的數(shù)量來比較它們之間的相似程度。 缺點(diǎn):當(dāng)兩個(gè)向量長度不相等時(shí),漢明距離使用起來很麻煩。當(dāng)幅度是重要指標(biāo)時(shí),建議不要使用此距離指標(biāo)。 用例:典型的用例包括數(shù)據(jù)通過計(jì)算機(jī)網(wǎng)絡(luò)傳輸時(shí)的錯(cuò)誤糾正 / 檢測(cè)。它可以用來確定二進(jìn)制字中失真的數(shù)目,作為估計(jì)誤差的一種方法。此外,你還可以使用漢明距離來度量分類變量之間的距離。 曼哈頓距離(Manhattan Distance)

70e00c60-8e94-11eb-8b86-12bb97331649.png

曼哈頓距離。 曼哈頓距離通常稱為出租車距離或城市街區(qū)距離,用來計(jì)算實(shí)值向量之間的距離。想象一下均勻網(wǎng)格棋盤上的物體,如果它們只能移動(dòng)直角,曼哈頓距離是指兩個(gè)向量之間的距離,在計(jì)算距離時(shí)不涉及對(duì)角線移動(dòng)。

712adcc2-8e94-11eb-8b86-12bb97331649.png

缺點(diǎn):盡管曼哈頓距離在高維數(shù)據(jù)中似乎可以工作,但它比歐式距離直觀性差,尤其是在高維數(shù)據(jù)中使用時(shí)。此外,由于它可能不是最短路徑,有可能比歐氏距離給出一個(gè)更高的距離值。 用例:當(dāng)數(shù)據(jù)集具有離散或二進(jìn)制屬性時(shí),曼哈頓距離似乎工作得很好,因?yàn)樗紤]了在這些屬性的值中實(shí)際可以采用的路徑。以歐式距離為例,它會(huì)在兩個(gè)向量之間形成一條直線,但實(shí)際上這是不可能的。 切比雪夫距離(Chebyshev Distance)

715ac446-8e94-11eb-8b86-12bb97331649.png

切比雪夫距離。 切比雪夫距離定義為兩個(gè)向量在任意坐標(biāo)維度上的最大差值。換句話說,它就是沿著一個(gè)軸的最大距離。切比雪夫距離通常被稱為棋盤距離,因?yàn)閲H象棋的國王從一個(gè)方格到另一個(gè)方格的最小步數(shù)等于切比雪夫距離。

71c6ed56-8e94-11eb-8b86-12bb97331649.png

缺點(diǎn):切比雪夫距離通常用于特定的用例,這使得它很難像歐氏距離或余弦相似度那樣作為通用的距離度量。因此,在確定適合用例時(shí)才使用它。 用例:切比雪夫距離用于提取從一個(gè)方塊移動(dòng)到另一個(gè)方塊所需的最小移動(dòng)次數(shù)。此外,在允許無限制八向移動(dòng)的游戲中,這可能是有用的方法。在實(shí)踐中,切比雪夫距離經(jīng)常用于倉庫物流,因?yàn)樗浅n愃朴谄鹬貦C(jī)移動(dòng)一個(gè)物體的時(shí)間。 閔氏距離(Minkowski)

71d2029a-8e94-11eb-8b86-12bb97331649.png

閔氏距離。 閔氏距離比大多數(shù)距離度量更復(fù)雜。它是在范數(shù)向量空間(n 維實(shí)數(shù)空間)中使用的度量,這意味著它可以在一個(gè)空間中使用,在這個(gè)空間中,距離可以用一個(gè)有長度的向量來表示。 閔氏距離公式如下:

7253d90a-8e94-11eb-8b86-12bb97331649.png

最有趣的一點(diǎn)是,我們可以使用參數(shù) p 來操縱距離度量,使其與其他度量非常相似。常見的 p 值有:

p=1:曼哈頓距離

p=2:歐氏距離

p=∞:切比雪夫距離

缺點(diǎn):閔氏距離與它們所代表的距離度量有相同的缺點(diǎn),因此,對(duì)哈頓距離、歐幾里得距離和切比雪夫距離等度量標(biāo)準(zhǔn)有個(gè)好的理解非常重要。此外,參數(shù) p 的使用可能很麻煩,因?yàn)楦鶕?jù)用例,查找正確的 p 值在計(jì)算上效率低。 用例:p 的積極一面是可迭代,并找到最適合用例的距離度量。它允許在距離度量上有很大的靈活性,如果你非常熟悉 p 和許多距離度量,將會(huì)獲益多多。 雅卡爾指數(shù)(Jaccard Index)

728742b8-8e94-11eb-8b86-12bb97331649.png

雅卡爾指數(shù)。 雅卡爾指數(shù)(交并比)是用于比較樣本集相似性與多樣性的統(tǒng)計(jì)量。雅卡爾系數(shù)能夠量度有限樣本集合的相似度,其定義為兩個(gè)集合交集大小與并集大小之間的比例。 例如,如果兩個(gè)集合有 1 個(gè)共同的實(shí)體,而有 5 個(gè)不同的實(shí)體,那么雅卡爾指數(shù)為 1/5 = 0.2。要計(jì)算雅卡爾距離,我們只需從 1 中減去雅卡爾指數(shù):

72bd3724-8e94-11eb-8b86-12bb97331649.png

缺點(diǎn):雅卡爾指數(shù)的一個(gè)主要缺點(diǎn)是它受數(shù)據(jù)大小的影響很大。大數(shù)據(jù)集對(duì)指數(shù)有很大影響,因?yàn)樗梢燥@著增加并集,同時(shí)保持交集相似。 用例:雅卡爾指數(shù)通常用于使用二進(jìn)制或二進(jìn)制數(shù)據(jù)的應(yīng)用程序中。當(dāng)你有一個(gè)深度學(xué)習(xí)模型來預(yù)測(cè)圖像分割時(shí),比如一輛汽車,雅卡爾指數(shù)可以用來計(jì)算給定真實(shí)標(biāo)簽的預(yù)測(cè)分割的準(zhǔn)確度。 類似地,它可以用于文本相似性分析,以測(cè)量文檔之間有多少詞語重疊。因此,它可以用來比較模式集合。 半正矢(Haversine)

7318aa82-8e94-11eb-8b86-12bb97331649.png

半正矢距離。 半正矢距離是指球面上的兩點(diǎn)在給定經(jīng)緯度條件下的距離。它與歐幾里得距離非常相似,因?yàn)樗梢杂?jì)算兩點(diǎn)之間的最短連線。主要區(qū)別在于半正矢距離不可能有直線,因?yàn)檫@里的假設(shè)是兩個(gè)點(diǎn)都在一個(gè)球面上。

736087f8-8e94-11eb-8b86-12bb97331649.png

缺點(diǎn):這種距離測(cè)量的一個(gè)缺點(diǎn)是,假定這些點(diǎn)位于一個(gè)球體上。實(shí)際上,這種情況很少出現(xiàn),例如,地球不是完美的圓形,在某些情況下可能使計(jì)算變得困難。相反,如果假定是橢球,使用 Vincenty 距離比較好。 用例:半正矢距離通常用于導(dǎo)航。例如,你可以使用它來計(jì)算兩個(gè)國家之間的飛行距離。請(qǐng)注意,如果距離本身不那么大,則不太適合。 S?rensen-Dice 系數(shù)

73cd45a0-8e94-11eb-8b86-12bb97331649.png

S?rensen-Dice 系數(shù)。 S?rensen-Dice 系數(shù)與雅卡爾指數(shù)非常相似,都是度量樣本集的相似性和多樣性。盡管它們的計(jì)算方法相似,但是 S?rensen-Dice 系數(shù)更直觀一些,因?yàn)樗梢员灰暈閮蓚€(gè)集合之間重疊的百分比,這個(gè)值在 0 到 1 之間:

741769e6-8e94-11eb-8b86-12bb97331649.png

缺點(diǎn):正如雅卡爾指數(shù),S?rensen-Dice 系數(shù)也夸大了很少或沒有真值的集合的重要性,因此,它可以控制多集合的平均得分,還可以控制多組平均得分并按相關(guān)集合的大小成反比地加權(quán)每個(gè)項(xiàng)目,而不是平等對(duì)待它們。 用例:用例與雅卡爾指數(shù)相似,它通常用于圖像分割任務(wù)或文本相似性分析。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7339

    瀏覽量

    94827
  • 系數(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    15

    瀏覽量

    8403
  • 度量
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    2821

原文標(biāo)題:一文讀懂常見的9種距離度量方法

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    中國科學(xué)家重大突破:智能手表未來有望靠體溫供電

    長久以來,“續(xù)航焦慮”困擾著可穿戴消費(fèi)電子、植入式醫(yī)療領(lǐng)域。但現(xiàn)在,中國科學(xué)家的一項(xiàng)重磅研究,正在讓“人體自帶充電寶”從科幻走進(jìn)現(xiàn)實(shí)——只需利用體溫與環(huán)境的微小溫差,就能為智能設(shè)備持續(xù)供電。2026
    的頭像 發(fā)表于 03-10 18:09 ?17次閱讀

    思必馳首席科學(xué)家俞凱教授當(dāng)選2026年度IEEE Fellow

    日前,全球最大的專業(yè)技術(shù)組織國際電氣電子工程師協(xié)會(huì)(The Institute of Electrical and Electronics Engineers, IEEE)公布2026年度IEEE Fellow(會(huì)士)名單,上海交通大學(xué)特聘教授、思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家
    的頭像 發(fā)表于 12-12 11:36 ?843次閱讀

    中興通訊崔麗受邀出席2025騰沖科學(xué)家論壇

    近日,“2025騰沖科學(xué)家論壇”在云南啟幕。本屆論壇以“科學(xué)·AI改變世界”為主題,匯聚包括諾貝爾獎(jiǎng)、圖靈獎(jiǎng)、菲爾茲獎(jiǎng)得主在內(nèi)的國際頂尖科學(xué)家,以及百余位兩院院士、高校校長、科技精英與產(chǎn)業(yè)領(lǐng)袖,共話
    的頭像 發(fā)表于 12-09 11:36 ?623次閱讀

    昊衡科技:第四屆飛行器健康管理技術(shù)國際高端論壇暨青年科學(xué)家論壇圓滿落幕

    2025年11月21日,第四屆飛行器健康管理技術(shù)國際高端論壇暨青年科學(xué)家論壇在廈門國際會(huì)展酒店(會(huì)展二路199號(hào))圓滿落下帷幕。深度交流本屆論壇上,國產(chǎn)光學(xué)測(cè)量與傳感儀器制造商——武漢昊衡科技,展示
    的頭像 發(fā)表于 11-21 17:59 ?476次閱讀
    昊衡科技:第四屆飛行器健康管理技術(shù)國際高端論壇暨青年<b class='flag-5'>科學(xué)家</b>論壇圓滿落幕

    技術(shù)感知世界!昊衡科技在第四屆飛行器健康管理技術(shù)國際高端論壇暨青年科學(xué)家論壇等您!

    今日是第四屆飛行器健康管理技術(shù)國際高端論壇暨青年科學(xué)家論壇在廈門國際會(huì)展酒店(會(huì)展二路199號(hào))的會(huì)議日,現(xiàn)場(chǎng)學(xué)術(shù)氛圍持續(xù)高漲。武漢昊衡科技作為國產(chǎn)先進(jìn)光學(xué)測(cè)量與傳感測(cè)量儀器制造商,此次攜兩款創(chuàng)新
    的頭像 發(fā)表于 11-20 17:15 ?1714次閱讀
    技術(shù)感知世界!昊衡科技在第四屆飛行器健康管理技術(shù)國際高端論壇暨青年<b class='flag-5'>科學(xué)家</b>論壇等您!

    科學(xué)家利用微波激光照射鉆石,制造出時(shí)間準(zhǔn)晶體

    科學(xué)家利用微波激光照射鉆石,制造出時(shí)間準(zhǔn)晶體。 美國華盛頓大學(xué)、麻省理工學(xué)院和哈佛大學(xué)科學(xué)家攜手,成功在鉆石上“雕刻”出一全新的物質(zhì)形態(tài):時(shí)間準(zhǔn)晶體。這項(xiàng)突破有望為量子計(jì)算、精確計(jì)時(shí)等領(lǐng)域帶來
    的頭像 發(fā)表于 11-19 07:35 ?205次閱讀
    <b class='flag-5'>科學(xué)家</b>利用微波激光照射鉆石,制造出時(shí)間準(zhǔn)晶體

    第四屆飛行器健康管理技術(shù)國際高端論壇暨青年科學(xué)家論壇:昊衡科技,歡迎您來!

    大會(huì)介紹第四屆飛行器健康管理技術(shù)國際高端論壇暨青年科學(xué)家論壇將于2025年11月19-21日在中國廈門舉行。會(huì)議由廈門大學(xué)和江南大學(xué)聯(lián)合主辦,圍繞飛行器健康管理與智能運(yùn)維,以“數(shù)字時(shí)代、智領(lǐng)運(yùn)維
    的頭像 發(fā)表于 11-14 17:36 ?3082次閱讀
    第四屆飛行器健康管理技術(shù)國際高端論壇暨青年<b class='flag-5'>科學(xué)家</b>論壇:昊衡科技,歡迎您來!

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保護(hù)科學(xué)

    損壞的風(fēng)險(xiǎn)(所有浸入水中的技術(shù)設(shè)備都是如此),這意味著數(shù)據(jù)可能會(huì)在不知不覺中丟失,而基線數(shù)據(jù)集的后續(xù)缺口可能會(huì)妨礙科學(xué)家得出具有統(tǒng)計(jì)意義的可靠結(jié)論。 在邊緣部署深度學(xué)習(xí)模型可以規(guī)避自主記錄器數(shù)
    發(fā)表于 10-27 09:18

    國際類腦計(jì)算科學(xué)家Yulia Sandamirskaya教授加盟時(shí)識(shí)科技

    近日,國際類腦計(jì)算與神經(jīng)形態(tài)機(jī)器人領(lǐng)域知名科學(xué)家Yulia Sandamirskaya 教授,作為科學(xué)家顧問正式加入時(shí)識(shí)科技(SynSense)。
    的頭像 發(fā)表于 10-13 13:50 ?766次閱讀

    科技感拉滿!鯨啟智能機(jī)器人與無人機(jī)聯(lián)動(dòng),閃耀服務(wù)世界青年科學(xué)家論壇

    9 月 20 日,以 “青年,世界科學(xué)的未來” 為主題的世界青年科學(xué)家論壇(南京)在江北新區(qū)啟幕。20 余位諾貝爾獎(jiǎng)得主、海內(nèi)外院士,超百位國際國內(nèi)青年科學(xué)家及產(chǎn)業(yè)代表齊聚,圍繞前沿科
    的頭像 發(fā)表于 10-11 16:54 ?295次閱讀

    喜報(bào)|ZYNALOG徴格半導(dǎo)體首席模擬設(shè)計(jì)科學(xué)家喬納森·史卓德被授予2025年度“錢江友誼使者”稱號(hào)

    9月28日上午,2025杭州國際人才交流與項(xiàng)目合作大會(huì)在杭州國際博覽中心隆重開幕。在開幕式上,徴格半導(dǎo)體(杭州)有限公司的首席模擬設(shè)計(jì)科學(xué)家喬納森·史卓德被授予2025杭州市外國專家"錢江
    的頭像 發(fā)表于 09-30 14:06 ?1041次閱讀
    喜報(bào)|ZYNALOG徴格半導(dǎo)體首席模擬設(shè)計(jì)<b class='flag-5'>科學(xué)家</b>喬納森·史卓德被授予2025年度“錢江友誼使者”稱號(hào)

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    AI被賦予人的智能,科學(xué)家們希望在沒有人類的引導(dǎo)下,AI自主的提出科學(xué)假設(shè),諾貝爾獎(jiǎng)級(jí)別的假設(shè)哦。 AI驅(qū)動(dòng)科學(xué)被認(rèn)為是科學(xué)發(fā)現(xiàn)的第五個(gè)范
    發(fā)表于 09-17 11:45

    復(fù)星醫(yī)藥使用亞馬遜云科技生成式AI技術(shù)賦能醫(yī)療撰寫場(chǎng)景 助力科學(xué)家效率躍升

    進(jìn)程。通過“臨床試驗(yàn)報(bào)告一致性檢查”和“研發(fā)文獻(xiàn)翻譯”兩大功能,復(fù)星醫(yī)藥可解放科學(xué)家生產(chǎn)力,使其專注于創(chuàng)新藥研發(fā)的核心工作。在亞馬遜云科技的加持下,“臨床試驗(yàn)報(bào)告一致性檢查”可覆蓋研究人員90%的撰寫場(chǎng)景,工作效率提升70%;而在“研發(fā)文
    發(fā)表于 07-14 14:16 ?1136次閱讀

    地物光譜儀如何幫助科學(xué)家研究植被和土壤?

    在遙感、生態(tài)、農(nóng)業(yè)等研究領(lǐng)域,科學(xué)家們常常會(huì)提到一個(gè)工具: 地物光譜儀 。它看起來像一臺(tái)“測(cè)光的槍”,卻能揭示土壤和植被的“隱藏信息”。那么,地物光譜儀到底是怎么工作的?它又是如何在科學(xué)研究中
    的頭像 發(fā)表于 05-20 15:46 ?643次閱讀
    地物光譜儀如何幫助<b class='flag-5'>科學(xué)家</b>研究植被和土壤?

    云天勵(lì)飛董事長陳寧當(dāng)選深圳市青年科學(xué)家協(xié)會(huì)第十屆會(huì)長

    ? 2025年3月29日,深圳市青年科學(xué)家協(xié)會(huì)十屆一次會(huì)員大會(huì)在深圳市青少年活動(dòng)中心南廳隆重舉行。百余位青年才俊齊聚一堂,共同見證協(xié)會(huì)換屆選舉,共話科技創(chuàng)新未來。共青團(tuán)深圳市委員會(huì)書記胡火明出席
    的頭像 發(fā)表于 03-31 19:15 ?1265次閱讀
    云天勵(lì)飛董事長陳寧當(dāng)選深圳市青年<b class='flag-5'>科學(xué)家</b>協(xié)會(huì)第十屆會(huì)長