Coeficiente de Sorensen-Dice : Fórmula, Referencias, Enlaces externos Wikipedia, la enciclopedia libre

Coeficiente de Sorensen-Dice

El coeficiente ó índice de Sørensen-Dice, también conocido por otros nombres^[1] tales como el índice de Sørensen, coeficiente de Dice, es un estadístico muestral utilizado para comparar la similitud de dos muestras. Fue desarrollado independientemente por los botánicos Thorvald Sørensen^[2] y Lee Raymond Dice,^[3] que publicaron en 1948 y 1945 respectivamente.

Fórmula

La fórmula original de Sørensen estaba destinada a ser aplicada a datos de presencia/ausencia, y se define de la siguiente forma:

QS={\frac {2C}{A+B}}={\frac {2|A\cap B|}{|A|+|B|}}

donde A y B son el número de especies en las muestras A y B, respectivamente, y C es el número de especies compartidas por las dos muestras; QS es el cociente de similitud y varía de 0 a 1. Esta expresión se extiende fácilmente a la abundancia en lugar de la presencia / ausencia de especies. Esta versión cuantitativa del índice de Sørensen también se conoce como Czekanowski índice. El índice de Sørensen es idéntico al coeficiente de Dice^[4] que siempre está en [0, 1] rango. El índice de Sørensen utilizado como una medida de distancia, 1 - QS, es idéntica a la distancia Hellinger y Bray Curtis disimilitud^[5] cuando se aplica a los datos cuantitativos.

Puede ser visto como una medida de similitud sobre conjuntos:

s={\frac {2|X\cap Y|}{|X|+|Y|}}

No es muy diferente en forma del índice de Jaccard , pero tiene algunas propiedades diferentes. Por ejemplo en la función oscila entre cero y uno, como Jaccard. A diferencia de Jaccard, la función correspondiente diferencia

d=1-{\frac {2|X\cap Y|}{|X|+|Y|}}

no es una distancia métrica adecuada, ya que no posee la propiedad de la desigualdad del triángulo. El contraejemplo más simple de esto se da por los tres conjuntos {a}, {b}, y {a, b}, la distancia entre los dos primeros son 1, y la diferencia entre la tercera y cada uno de los otros son un tercio .

De manera similar a Jaccard, el conjunto de operaciones se pueden expresar en términos de operaciones vectoriales sobre vectores binarios A y B:

$s_{v}={\frac {2|A\cdot B|}{|A|^{2}+|B|^{2}}}$

que da el mismo resultado en vectores binarios y también da una similitud más general métrica sobre vectores en términos generales.

Para los conjuntos de X e Y de palabras clave utilizadas en la recuperación de la información , el coeficiente puede ser definido como dos veces la información compartida (intersección) sobre la suma de cardinalidades:^[6]

Referencias

↑ Carass, A.; Roy, S.; Gherman, A.; Reinhold, J.C.; Jesson, A. et al. (2020). «Evaluating White Matter Lesion Segmentations with Refined Sørensen-Dice Analysis». Scientific Reports 10 (1): 8242. Bibcode:2020NatSR..10.8242C. ISSN 2045-2322. PMC 7237671. PMID 32427874. doi:10.1038/s41598-020-64803-w.
↑ Sørensen, T. (1957). «A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons». Kongelige Danske Videnskabernes Selskab 5 (4): 1-34.
↑ Dice, Lee R. (1945). «Measures of the Amount of Ecologic Association Between Species». Ecology 26 (3): 297-302. JSTOR 1932409. doi:10.2307/1932409.
↑ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf
↑ Bray, J. Roger; Curtis, J. T. (1948). «An Ordination of the Upland Forest Communities of Southern Wisconsin». Ecological Monographs 27 (4): 326-349. doi:10.2307/1942268.
↑ van Rijsbergen, Cornelis Joost (1979). Information Retrieval. Londres: Butterworths. ISBN 3-642-12274-4.