Coeficiente de Sorensen-Dice

El coeficiente ó índice de Sørensen-Dice, también conocido por otros nombres[1]​ tales como el índice de Sørensen, coeficiente de Dice, es un estadístico muestral utilizado para comparar la similitud de dos muestras. Fue desarrollado independientemente por los botánicos Thorvald Sørensen[2]​ y Lee Raymond Dice,[3]​ que publicaron en 1948 y 1945 respectivamente.

Fórmula

La fórmula original de Sørensen estaba destinada a ser aplicada a datos de presencia/ausencia, y se define de la siguiente forma:

Q S = 2 C A + B = 2 | A B | | A | + | B | {\displaystyle QS={\frac {2C}{A+B}}={\frac {2|A\cap B|}{|A|+|B|}}}

donde A y B son el número de especies en las muestras A y B, respectivamente, y C es el número de especies compartidas por las dos muestras; QS es el cociente de similitud y varía de 0 a 1. Esta expresión se extiende fácilmente a la abundancia en lugar de la presencia / ausencia de especies. Esta versión cuantitativa del índice de Sørensen también se conoce como Czekanowski índice. El índice de Sørensen es idéntico al coeficiente de Dice[4]​ que siempre está en [0, 1] rango. El índice de Sørensen utilizado como una medida de distancia, 1 - QS, es idéntica a la distancia Hellinger y Bray Curtis disimilitud[5]​ cuando se aplica a los datos cuantitativos.

Puede ser visto como una medida de similitud sobre conjuntos:

s = 2 | X Y | | X | + | Y | {\displaystyle s={\frac {2|X\cap Y|}{|X|+|Y|}}}

No es muy diferente en forma del índice de Jaccard , pero tiene algunas propiedades diferentes. Por ejemplo en la función oscila entre cero y uno, como Jaccard. A diferencia de Jaccard, la función correspondiente diferencia

d = 1 2 | X Y | | X | + | Y | {\displaystyle d=1-{\frac {2|X\cap Y|}{|X|+|Y|}}}

no es una distancia métrica adecuada, ya que no posee la propiedad de la desigualdad del triángulo. El contraejemplo más simple de esto se da por los tres conjuntos {a}, {b}, y {a, b}, la distancia entre los dos primeros son 1, y la diferencia entre la tercera y cada uno de los otros son un tercio .

De manera similar a Jaccard, el conjunto de operaciones se pueden expresar en términos de operaciones vectoriales sobre vectores binarios A y B:

s v = 2 | A B | | A | 2 + | B | 2 {\displaystyle s_{v}={\frac {2|A\cdot B|}{|A|^{2}+|B|^{2}}}}

que da el mismo resultado en vectores binarios y también da una similitud más general métrica sobre vectores en términos generales.

Para los conjuntos de X e Y de palabras clave utilizadas en la recuperación de la información , el coeficiente puede ser definido como dos veces la información compartida (intersección) sobre la suma de cardinalidades:[6]

Referencias

  1. Carass, A.; Roy, S.; Gherman, A.; Reinhold, J.C.; Jesson, A. et al. (2020). «Evaluating White Matter Lesion Segmentations with Refined Sørensen-Dice Analysis». Scientific Reports 10 (1): 8242. Bibcode:2020NatSR..10.8242C. ISSN 2045-2322. PMC 7237671. PMID 32427874. doi:10.1038/s41598-020-64803-w. 
  2. Sørensen, T. (1957). «A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons». Kongelige Danske Videnskabernes Selskab 5 (4): 1-34. 
  3. Dice, Lee R. (1945). «Measures of the Amount of Ecologic Association Between Species». Ecology 26 (3): 297-302. JSTOR 1932409. doi:10.2307/1932409. 
  4. http://www.sekj.org/PDF/anbf40/anbf40-415.pdf
  5. Bray, J. Roger; Curtis, J. T. (1948). «An Ordination of the Upland Forest Communities of Southern Wisconsin». Ecological Monographs 27 (4): 326-349. doi:10.2307/1942268. 
  6. van Rijsbergen, Cornelis Joost (1979). Information Retrieval. Londres: Butterworths. ISBN 3-642-12274-4. 

Enlaces externos

  • A multiple-site similarity measure. Ola H Diserud y Frode Ødegaard
  • http://www.bio-nica.info/biblioteca/HumboldtAnalisisDatos.pdf
Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q2613728
  • Wd Datos: Q2613728