Upload
hugoandresdb
View
167
Download
1
Embed Size (px)
Citation preview
De donde proviene la información?
Muchas más…
más de 38.576 consultas por segundo!
5700 tweets por segundo!
1 billón de usuarios activos
http://cuartoenlace.blogspot.com/2014/01/las-estadisticas-de-
facebook-twitter.html
Más frecuente!
En que formato vienen estos datos?
Muchas otras fuentes de datos no estructurados…
Imagenes satelitales Páginas web
Videos
Quienes son los interesados?
- Compañías que utilizan Marketing como estrategia de ventas.
- La agricultura.
- Quienes establecen políticas publicas .
- Sector de la Salud.
- Muchos otros sectores.
Definición del Big Data
“Una tendencia que se impone en el mundo para el análisis y
procesamiento de información masiva, la cual se ha convertido en una
herramienta muy útil para tomar decisiones”
http://colombia-inn.com.co
4 V del Big Data – Piezas del rompecabezas
VOLUMEN
Grades conjuntos de datos
VELOCIDAD
Alta velocidad del flujo de datos,
cambio y procesamiento
VARIEDAD
Varios tipos de fuentes (Datos
estructurados y no estructurados)
VERACIDAD
Incertidumbre: Inconsistencia de los
datos, ambigüedad y modelos de
aproximación.
IBM corporation 2012
Información del cultivo de arroz
Sistema de riego Sistema secano
SiembraCosecha
Un evento productivo de arroz = alrededor de 120
días
Temas de interés para el productor o
el gremio.
- Como afecta el clima al
cultivo.
- Que variedad se debe sembrar
- Cuando se debe sembrar para
sacar el mayor potencial del
cultivo.
- Entre otros
Contexto de la investigación
Variabilidad en los rendimientos de
arroz y brecha productiva.
Hipótesis:
- El clima tiene efectos relevante, que contribuyen a la variación en los
rendimientos.
- Tomando referencia datos del pasado se puede extraer información
para tomar mejores decisiones en el futuro.
- La planta presenta mayor sensibilidad en ciertas fases del cultivo.
Buscando y uniendo las fichas
Convenio MADR - CIAT
IDEAM
Fisiólogos expertos en el
cultivo
Encuesta nacional arrocera
Registros de cosechas en
zonas arroceras
Variedad
Saldaña (Tolima), Caso de estudio
Saldaña 2007 a 2012
N: 793 eventos productivos
Estaciones meteorológicas
Volumen
Definiendo las variables, con colaboración
de los expertos
Cómo aumentar la predicción? VEG
Ini
Pan
FLOR
VEG
Ini Pan
FLOR
Variedad 1
Variedad 2
SiembraCosecha
• Energía solar acumulada
• Precipitación acumulada
• Promedio de la temperatura máxima
• Número de días de precipitación significativa (Mayor
10 mm) . . .
Fase vegetativa
Iniciación panícula
Floración
Llenado panícula
Manos a la obra
• Estandarización de la base de datos (Clima y formatos en Excel).
• Llenados de datos faltes.
• Uso de R y Fennix para la ejecución de modelos analíticos, paralelo.
• Creación de Scripts para el procesamiento de datos.
Velocidad• Uso de redes neuronales para identificar .
Redes neuronales artificiales
V1
V2
V3
V4
V5
V60
sp1
V1
V2
V3
V4
V5
V60
sp1
Entradas
Capa oculta
Salida
Capacidad de predecir.
Flexibilidad en los
supuestos de los datos
de entrada.
Percibir relaciones no
lineales
Tratando de ver que hay dentro de
la caja negra
Métricas para medir la sensibilidad
¿Hay un orden de relevancia?
¿Qué tipo de relación?
Perfiles de relación entre variable de
entrada y variable salida
Resultados (Caso de estudio Saldaña)
Zona Saldaña
Variedad F733
Número de registro 190
Desempeño (R) 28.47
Energía acumulada en fase de llenado
Promedio de temperatura mínima en fase
vegetativa
Resultados (Caso de estudio Saldaña)
Zona Saldaña
Variedad F60
Número de registro 100
Desempeño (R) 35.4
Proporción de dias con precipitación mayor a 10mm
Resultados (Caso de estudio Córdoba)
Localidades de Montería y Cereté
Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/tools/cpt/
Ago 1 2014
Ago 1 2014 Ener 30 2015
Pronóstico climático diario
Fechas de siembra
Sep 30 2014
Variedades disponibles: F733, F2000 y F473
¿Cuándo y que sembrar?
Aplicación en pronósticos climáticos
Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/tools/cpt/
Aplicación en pronósticos climáticos
Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/tools/cpt/
Evaluación de lo resultado con lo
gremios
Reunión con productores
Aguazul - Yopal
Reunión con gremio
Fedearroz BogotáGira en Ibagué
Veracidad
Nuevas metodologías a explorar
• Suport Vector Machine
• C forest
• Random Forest
• Datos funcionales
Conclusiones
- Big Data en la época actual se presenta como una alternativa útil que
permite beneficiarse de la información que se está generando por todos
lados y trasciende a muchos de los campos de investigación; entre ellos la
agricultura.
- Buscar un valor agregado a través de la información colectada con distintos
propósitos bajo el enfoque de bigData, nos proporcionó información base
muy útil que luego pudo ser utilizada por agricultores para tomar mejores
decisiones en campo.
- Fue fundamental aplicar las 4 V´s del BigData para realizar el caso de estudio
de manera que pudieran obtener productos de gran valor.
Equipo de trabajo
Fisiologa
Agrónomo experto
Estadísticos
Ingeniero de
sistemas
Agrónomo
Biólogo
Antropóloga
¡Gracias!