miércoles, 26 de noviembre de 2008

actividad 6 de noviembre

El Modelo de Espacio Vectorial f
ué realizado por primera vez por G.Salton, y la mayoría de los motores de búsqueda lo utilizan para la recuperación de la Información. La base de éste modelo reside en la construcción de una matriz (podría llamarse tabla) de términos y documentos, donde las filas fueran estos últimos y las columnas correspondieran a los términos incluídos en ellos. Así, las filas de esta matriz (que en términos algebraicos se denominan vectores) serían equivalentes a los documentos que se expresarían en función de las apariciones (frecuencia) de cada término. De esta manera, un documento podría expresarse de la manera d1=(1, 2, 0, 0, 0, ... ... ..., 1, 3) siendo cada uno de estos valores el número de veces que aparece cada término en el documento. La longitud del vector de documentos sería igual al total de términos de la matriz (el número de columnas).

MODELO BOOLEANO
Los contenidos de Internet deben buscarse de acuerdo con las reglas establecidas para realizar búsquedas en bases de datos. Gran parte de la búsquda, se apoya en los principios de la búsqueda booleana. Estos principios hacen referencia a las relaciones lógicas existentes entre los términos de búsqueda a las cuales se les dio el nombre del matemático británico George Boole. En los motores de búsqueda por Internet, las opciones para construir relaciones lógicas entre los términos de búsqueda se extienden más allá de la práctica tradicional de la búsqueda Booleana. Estó último se cubrirá en este mismo documento en la sección llamada

Modelo probabilístico

Modelo probabilístico, es la forma que pueden tomar un conjunto de datos obtenidos de muestreos de datos con comportamiento que se supone aleatorio.
Los modelos probabilísticos más típicos son:
Distribución Normal: usada ampliamente en muestras mayores a 30 datos.
Distribución Chi Cuadrado: usada en muestras pequeñas.
Distribución Exponencial: usada en duración o donde interviene el paso del tiempo.
Distribución F-Snedecor: usada para controlar la varianza de 2 distribuciones.

No hay comentarios: