martes, 21 de abril de 2009

pausa en las actualizaciones

visita nuestra página web(en inglés) para saber más sobre
* la revisión sobre métodos actuales
* las bases teóricas de trendingBot

miércoles, 28 de enero de 2009

estadística trad [b-]

[- métodos predictivos]

b-5) MÉTODOS BASADOS EN CÁLCULO PROBABILÍSTICO (carácter aleatorio)

teorías más importantes que se incluyen en este grupo
- método (generalizado) de momentos
- método bayesiano
- modelado predictivo
- método de las variables instrumentales (IV)
- 2SLS/3SLS
- estimaciones SUR

wikipedia.com - "la probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables"
por tanto, estos métodos no predicen comportamientos futuros en base a pasados [los efectos sobre la variable dependiente derivadas de las variaciones de la(s) independiente(s)], sino la probabilidad que tiene un evento [= fenómeno invariante = no puede ser descrito como resultado de la interactuación entre variables dependiente(s)/independientes] de suceder


interpretación de trendingBot

búsqueda de tendencias [trendingBot]
- comportamientos definibles y "más o menos ciertos"
- indicados para casos donde se observe cierto carácter repetitivo

probabilidad
- da cierto nivel de certeza a fenómenos eminentemente aleatorios
- indicada para comportamientos
aleatorios o no fácilmente definibles

ambas teorías tienen distintos campos de aplicación - trendinBot no puede usarse para describir comportamientos aleatorios - la probabilidad no puede entender/describir un fenómeno, tan sólo estimar su susceptibilidad para presentarse bajo determinadas circunstancias

por tanto y desde el punto de vista de la presente clasificación, ni la probabilidad debería ser incluida dentro de los métodos predictivos ni ningún método que se defina como tal debería entrar a analizar comportamientos de tipo aleatorio

sábado, 24 de enero de 2009

estadística trad [b-]

[- métodos predictivos]
b-4) ANÁLISIS DE COMPONENTES PRINCIPALES
wikipedia.com - "en estadística, el Análisis del Componente Principal (ACP) (en inglés, PCA) es una técnica utilizada para reducir la dimensionalidad de un conjunto de datos"

su estructura básica, equivalente a la de las regresiones PLS, viene definida por dos matrices, X [variables independientes] e Y [variable(s) independiente(s)] - las diferencias entre ambos métodos son consecuencia de los modelos matemáticos empleados para relacionar dichas matrices
model lineal -> regresión PLS
hiperplanos de minima varianza -> análisis principales

la distinción referida no es relevante para el presente estudio y, por tanto, basta con lo dicho en la entrada referente a la regresión PLS

estadística trad [b-]

[- métodos predictivos]
b-3) REGRESIÓN PLS
NOTA: wikipedia.com no recoge ningún artículo en español (al contrario de lo q sucede en la versión inglesa) que trate sobre la regresión PLS - este hecho, unido a la ausencia de alternativas aceptables, ha desaconsejado la inclusión de una definición introductoria
este método está recomendado para casos donde las regresiones estándar muestran un comportamiento inestable [por ejemplo: más predictores que mediciones o multicolinealidad entre los predictores]

desventajas
* soluciones parciales - resultados basados en variables matemáticas [variables latentes], en vez de ser directamente aplicables [ecuaciones]
* sin capacidades predictivas - resultados cualitativos [predictor que más influye sobre las mediciones, dependencia entre predictores...], en vez de cuantitativos [ecuaciones]


interpretación de trendingBot

en cuanto el número de variables independientes aumenta más allá de cierto límite [las limitaciones dimensionales de los métodos regresivos convencionales serán tratados en futuras entradas - 3D (2 independientes vs. 1 independiente) podría tomarse como una buena estimación], los métodos regresivos estándar no son suficientemente fiables y la estadística tradicional ha preferido considerar estimaciones aproximativas, antes que plantearse una forma diferente de afrontar el problema

ejemplo sencillo
40 valores para 5 variables independientes [X_a, X_b, X_c, X_d, X_e], que afectan a una dependiente [Y_1] (y, eventualmente, a dos más)

1. regresión PLS [modelaje vía PLS]
- X_c es la variable que más influye sobre Y_1
- todas las variables, excepto X_a y X_e, se correlacionan de manera positiva con Y_1
- a partir de Y_1, Y_2 e Y_3, que cualquier fluctuación en X_b es compensada por la suma de X_a y X_c (¿tiene algún interés tal evolución (entre diferentes fenómenos (Y))?)

2. trendingBot
NOTA: mejores tendencias = las que muestran menor error tras ser aplicadas a los datos originales
Y_1 = X_a^0.42+5.21*X_c-X_e - error esp. = 5%
Y_2 = X_c^-1.3*X_c-X_a - error esp. = 3.6%
Y_3 = X_c-X_e/2 - error esp. = 8.1%

sábado, 10 de enero de 2009

estadística trad [b-]

[- métodos predictivos]
b-2) MÉTODOS DE EXTRAPOLACIÓN
diccionario de la RAE [extrapolar (mat)] - " averiguar el valor de una magnitud para valores de la variable que se hallan fuera del intervalo en que dicha magnitud es conocida"
NOTA: curiosamente y, al contrario de lo que sucede en la versión inglesa, no existe en wikipedia ningún artículo en español que trate la extrapolación desde un punto de vista matemático (pero sí en catalán)

a pesar de que no haya diferencias fundamentales entre los métodos de interpolación y los de extrapolación, el nivel de acierto esperado en los resultados de unos y de otros difiere notablemente; este hecho y el principal motivo que sirve de fundamento a la presente clasificación [enfatizar la oposición entre probable/predecible y aleatorio/impredecible] son las únicas razones que explican la creación de este subtipo específico (fuera de los métodos regresivos)

nadie pone en duda que la consecuencia inmediata de cualquier proceso extrapolador es un aumento en el nivel de incertidumbre, sin embargo, la actitud que parecería lógica tener a la luz de estas ideas [no extrapolar] no goza de la necesaria preeminencia; o, al menos, esa es la conclusión a la que se llega tras ver la abundancia de métodos de extrapolación existentes
- extrapolación lineal
- extrapolación polinomial
- extrapolación cónica
- extrapolación de "curva francesa"
e, incluso, métodos específicamente desarrollados para ordenadores
- extrapolación de Richardson
- extrapolación de Aitken


interpretación de trendingBot

la extrapolación debe ser considerada como el último recurso y, en todo caso, como un concepto netamente diferente al de interpolación

un ejemplo sencillo
datos originales - X (independiente) ∈ [5,10] e Y(dependiente) ∈ [10,20]
* los valores de Y, para cualquier X dentro del rango propuesto, pueden ser predichos - 7.5 -> 15
* por otro lado, los valores de Y, para X que estén fuera, pueden tan sólo ser estimados de forma aproximada - 15 -> 30

toda predicción implica cierto nivel de incertidumbre pero, generalmente, uno que podría calificarse como más o menos controlable [requisito necesario es el establecimiento de un conjunto de condiciones mínimas cuya misión sería la delimitación de dicho carácter predictivo ("se considera predicción sólo en el caso de que...")] - las estimaciones (aproximativas) implican una incertidumbre incontrolable y, por lo tanto, deberían ser entendidas únicamente como ideas preliminares y nunca calificadas como "predicciones"

miércoles, 7 de enero de 2009

estadística trad [b-]

[- métodos predictivos]
b-1) ANÁLISIS DE SERIES TEMPORALES
wikipedia.com - "en estadística, procesamiento de señales y econometría, una serie temporal es una secuencia de puntos de datos, medidos típicamente a intervalos de tiempo sucesivos , y espaciados (con frecuencia) de forma uniforme. El análisis de series temporales comprende métodos que ayudan a interpretar este tipo de datos, extrayendo información representativa, tanto referente a los orígenes o relaciones subyacentes como a la posibilidad de extrapolar y predecir su comportamiento futuro"
hay muchos modelos específicamente diseñados para maximizar la información contenida en series temporales, es decir, para entender el comportamiento implícito y, por tanto, para predecir futuros acontecimientos en base a dicha información

principal clasificación
1. dependencia lineal [~ regresiones lineales]
tres clases principales
NOTA: nombres en inglés a fin de mantener la coherencia con los acrónimos
- autoregressive (AR) models
- integrated (I) models
- moving average (MA) models
adicionalmente, hay que mencionar dos combinaciones [autoregressive moving average (ARMA) models y autoregressive integrating moving average (ARIMA) models] y una generalización [autoregressive fractionally integrated moving average (ARFIMA) models] basadas en ellos

2. dependencia no lineal o autoregressive conditional heteroskedasticity models
[~ regresiones no lineales]
- generalised autoregressive conditional heteroskedacity [GARCH] models
- threshold autoregressive conditional heteroskedacity [TARCH] models
- exponential generalised autoregressive conditional heteroskedacity [EGARCH] models
...

todos estos modelos presentan dos características comunes
a. son aplicables sólo a dos variables [dependientes vs. independientes]
b. tratan de dar explicación a procesos estocásticos [= aleatorios]


interpretación de trendingBot

a. ¿por qué no aplicar métodos regresivos convencionales?
respuesta de la estadística -> la esencia aleatoria tiene que ser tenida en cuenta (¿?)

b. estocástico/aleatorio ~ no puede ser predicho - ... ¿entonces?
b.2.- un método regresivo modificado (basado en ideas suficientemente contrastadas) no debería ser definido como estocástico, siempre que los coeficientes modificadores se apliquen de una manera regular y consistente
b.3.- probablemente, toda referencia a aleatoriedad desaparecería en caso de elegir un conjunto de variables más adecuado

CONCLUSIÓN 1 los modelos que analizan las series temporales pueden ser definidos como extensiones de los métodos regresivos a comportamientos estocásticos
CONCLUSIÓN 2 el resultado de trendingBot tras ser aplicado a una serie temporal (estocástica) = "tendencia no encontrada"

viernes, 2 de enero de 2009

estadística trad [a-]

[- métodos regresivos]

PROBLEMA [análisis de datos] - ¿cuál es la mejor forma de maximizar la información? ¿de entender cualquier comportamiento?
- el resultado ideal sería una respuesta indudable, es decir, una respuesta matemática -

métodos regresivos - determinan la influencia que el comportamiento de las variables independientes [o predictores] tienen sobre la dependiente [o medición]
ventaja
- aceptable nivel de acierto e "incertidumbre relativamente controlable" (sin intervención arbitraria del usuario)
desventaja
- máximo número de variables independientes = limitado ()

¿SOLUCIÓN?
1. virtualmente, cualquier conjunto de datos puede adaptarse fácilmente a la referida división [variables independientes/dependiente]
NOTA- datos susceptibles de ser predichos, es decir, no aleatorios
2. ideas que conviene tener presentes
* NUNCA extrapole
* considere carácter predictivo únicamente bajo determinadas circunstancias [por ejemplo, mínimo número de repeticiones y nivel de adecuación de la curva]
* ponderaciones, parámetros definidos por el usuario... sólo en casos extremos => "no hay tendencia" es un resultado tan válido como puede serlo cualquier solución numérica

pero... no hay ningún comportamiento [al menos, ninguno que merezca ser predicho] que pueda describirse atendiendo a pocas variables
NOTA: esta limitación en el número de variables independientes será tratada en futuras entradas