(博客主亲自录制视频教程)
杰卡德距离(Jaccard Distance) 是用来衡量两个集合差异性的一种指标,它是杰卡德 的 ,被定义为1减去Jaccard相似系数。而杰卡德相似系数(Jaccard similarity coefficient),也称杰卡德指数(Jaccard Index),是用来衡量两个集合相似度的一种指标。
- 中文名
- 杰卡德距离 外文名
- Jaccard Distance
- 提出者
- Paul Jaccard 应用学科
- 统计学,机器学习,数据挖掘,信息信息检索 适用领域范围
- 集合相似性度量,字符串相似性度量
目录
- 1
- 2
- 3
定义
Jaccard相似指数用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以 的元素个数。
![](http://d.hiphotos.baidu.com/baike/s%3D115/sign=7f5efa23379b033b2888f8db20ce3620/203fb80e7bec54e79da5fd39ba389b504fc26a48.jpg)
Jaccard距离用来度量两个集合之间的差异性,它是Jaccard的 的 ,被定义为1减去Jaccard相似系数。
![](http://d.hiphotos.baidu.com/baike/s%3D272/sign=5a0ced3dc55c1038207ec9c58011931c/77c6a7efce1b9d164ea67746f0deb48f8c5464b0.jpg)
性质
1) 若A、B两个集合都为空,则
;
![](http://f.hiphotos.baidu.com/baike/s%3D72/sign=241eec05b01bb0518b24b12a367aa032/5243fbf2b21193133d171f9766380cd791238d45.jpg)
2)
;
![](http://e.hiphotos.baidu.com/baike/s%3D98/sign=b6597309abd3fd1f3209ae32314e179c/b21bb051f819861802a80fa349ed2e738bd4e62e.jpg)
应用
给定两个n维二元向量A、B,A、B的每一维都只能是0或者1,利用Jaccard 来计算二者的相似性:
1)
代表向量A与向量B都是0的维度个数;
![](http://e.hiphotos.baidu.com/baike/s%3D30/sign=2c9635978518367aa98979dd2f73bd07/0dd7912397dda14431f3940cb1b7d0a20df48692.jpg)
2)
代表向量A是0而向量B是1的维度个数;
![](http://d.hiphotos.baidu.com/baike/s%3D29/sign=ff7aab09d11b0ef468e89f57dcc47685/503d269759ee3d6d0e4364ec40166d224f4ade14.jpg)
3)
代表向量A是1而向量B是0的维度个数;
![](http://a.hiphotos.baidu.com/baike/s%3D30/sign=0f82b64e262dd42a5b0907ab023bf8ed/b03533fa828ba61e707b2b084234970a304e5904.jpg)
4)
代表向量A和向量B都是1的维度个数。
![](http://e.hiphotos.baidu.com/baike/s%3D29/sign=c1049623940a304e5622a7f3d1c8146a/8601a18b87d6277fa234d01f2b381f30e924fcf7.jpg)
n维向量的每一维都会落入这4类中的某一类,因此:
![](http://e.hiphotos.baidu.com/baike/s%3D196/sign=6c05f6499c3df8dca23d8b98fb1072bf/d833c895d143ad4bcdd9be7e81025aafa50f069c.jpg)
则Jaccard 为
![](http://d.hiphotos.baidu.com/baike/s%3D190/sign=649826aabb99a9013f355f3f2d940a58/8644ebf81a4c510fa25118a46359252dd52aa5f3.jpg)
Jaccard距离为
![](http://c.hiphotos.baidu.com/baike/s%3D197/sign=75033033bb99a9013f355f3f2a950a58/0b46f21fbe096b639c17b2770f338744ebf8ac8f.jpg)