El planteamiento es muy sencillo e intuitivo. Se parte de un conjunto de n vectores de m componentes cada uno, representando m mediciones realizadas sobre cada uno de n individuos diferentes. Se sabe que el i-ésimo individuo muestral pertenece a cierta clase ci y todo el conjunto de datos se guarda en una matriz:

Además se dispone también de s vectores, de dimensión m como los anteriores:

El procedimiento de los k vecinos más próximos consiste en calcular la distancia euclídea entre el vector a clasificar y cada uno de los n vectores muestrales, asignando el primero a aquella clase que con mayor frecuencia aparece entre los k más cercanos.
La selección de k debe hacerse empíricamente, buscando un compromiso entre estas dos ideas:
Se les ha extraído muestras sanguíneas a un total de 75 mujeres, 45 de las cuales eran portadoras de hemofilia. En cada muestra se han realizado las mediciones de dos variables, cuyas transformaciones logarítmicas se reflejan a continuación:
Se desea construir una función de discriminación que ayude a detectar posibles portadoras de hemofilia. Construida ésta, se quiere decidir si el siguiente grupo de mujeres a quienes se les ha extraído la muestra sanguínea son o no portadoras:
Clase 1: mujeres no portadoras Clase 2: mujeres portadoras log10(actividad AHF) log10(antígeno AHF) log10(actividad AHF) log10(antígeno AHF) -0.0056 -0.1657 -0.3478 0.1151 -0.1698 -0.1585 -0.3618 -0.2008 -0.3469 -0.1879 -0.4986 -0.086 -0.0894 0.0064 -0.5015 -0.2984 -0.1679 0.0713 -0.1326 0.0097 -0.0836 0.0106 -0.6911 -0.339 ... ... ... ...
log10(actividad AHF) log10(antígeno AHF) -0.112 -0.279 -0.059 -0.068 0.064 0.012 -0.043 -0.052 -0.05 -0.098 ... ... Los nuevos individuos quedan todos clasificados como pertenecientes a la clase 1 de mujeres no portadoras de hemofilia.
(Fuente: B.N. Bouma. et al.(1975) Evaluation of the detection rate of hemophilia carriers. Statistical Methods for Clinical Decision Making, 7(2): 339-350.)
© BioMates, 2003