Open Business Intelligence

La red del Business Intelligence

Pentaho Data Integration

Información

Pentaho Data Integration

Página Web: http://wiki.pentaho.com/display/EAI/Latest+Pentaho+Data+Integration+(aka+Kettle)+Documentation
Miembros: 147
Última actividad: 5 Jul 2020

Foro de discusión

[Tutorial 03] Poblar 3 Dimensiones - Id Dinámicos 10 contestaciones 

Iniciada por Bernabeu R. Dario. Última respuesta de Eduardo Piray 5 Jul 2020.

[Tutorial 04] Poblar tabla de Hechos - Crear Trabajo 33 contestaciones 

Iniciada por Bernabeu R. Dario. Última respuesta de ANDREA 14 May 2020.

Comparar Valores 6 contestaciones 

Iniciada por Exequiel Arce. Última respuesta de Juan V. 30 Ene 2019.

[Tutorial 09] Web Scraping 3 contestaciones 

Iniciada por Bernabeu R. Dario. Última respuesta de Mario Snash 18 Oct 2018.

Error en tipo de dato 5 contestaciones 

Iniciada por stefy. Última respuesta de Bernabeu R. Dario 4 Jun 2018.

Comentarios

Comentario por Dennis Alba Infante el abril 30, 2010 a las 8:04pm
Muchas gracias Mariano por tu pronta respuesta, me esta siendo util, hora empezare a documentarme sobre el AT de windows.
me sera muy util si me podrias abordar la pregunta sobre la ultima pregunta
"Necesito saber cómo puedo hacer para evitar que cuando valla a incorporar datos
en una tabla del DW no me sobrescriba toda la tabla, sino que empiece por donde
se quedó la última actualización.
Esto se podría hacer desde el propio job en el Kettle si la Tabla guardara un
Id por el cual se podría buscar la existencia del mismo en ambas tablas OLTP y
la OLAP, pero cuando la tabla del OLAP no guarda un Id , sino cantidades, no
tengo cómo ver cuál fue la última en insertarse, y en el proceso de carga
podrían ocurrir inconvenientes como que se ve afectado el fluido eléctrico o se
cae la conexión.
Podrían explicarme como podría hacer que siempre que se realice el proceso ETL
este empiece por donde se quedo la carga y no me pase por encima otra vez a
toda la tabla?"

Gracias otra vez
Comentario por Mariano García Mattío el mayo 1, 2010 a las 2:31am
Hola Denis,

Bien, veamos, con respecto a la actualización existen, el líneas generales, dos caminos:
1) Crear la estructura necesaria para que solo leas los datos nuevos de tus fuentes, esto podría ser una tabla que almacene la ultima estampa de tiempo en la cual se actualizaron los datos, luego tendrás que concebir tu etl de tal manera que reciba esa fecha como parámetro para leer los datos a partir de allí. Al finalizar la actualización, cuando esta sea correcta, debes actualizar esa estampa de tiempo.
2) Utilizar algunos de los pasos de kettle que te permiten actualizar tablas.
En ambos casos implementar un rollback al final es un tanto complejo, para ello yo he utilizado, o bien una tabla intermedia en la cual hago todos las actualizaciones y cuando está todo ok, con un par de sentencias insert vuelco todo a las tablas del DW, o bien en el DW, en las tablas que actualices, tener una columna auxiliar que contenga una marca que indica que la transacción no ha sido completada, el etl lo primero que debe hacer es eliminar los registros marcados y luego ejecutarse normalmente, si al final todo fue bien el mismo etl debe desmarcar esa columna, de esa manera la primera acción de un etl no implicará ninguna eliminación si la ejecución anterior fue exitosa. El problema que acarea esto último es que los análisis no se enteran que no deben usar las filas marcadas en el caso de un etl fallido, aunque para este último problema hay varias soluciones como ejecutar un proceso post etl que limpie también.
Espero que se comprenda.

Saludos

Mariano
Comentario por Yoleidys Frometa Moreno el mayo 12, 2010 a las 8:17pm
Hola a todos:
Cree un trabajo en el kettle, al ejecutarlo como se si esta bien? Se ejecuta igual que las transformaciones? Necesito que me ayuden...
Comentario por Mariano García Mattío el mayo 12, 2010 a las 10:11pm
No se ejecuta "igual" a los trabajos los ejecuta un motor dedicado a trabajos y a las transformaciones uno dedicado a ese tipo de objetos. Para saber el resultado de una ejecución particular, debes fijarte en el log de esa ejecución.

Saludos
Comentario por Yoleidys Frometa Moreno el mayo 12, 2010 a las 10:44pm
Hola:

Gracias por ayudarme, el problema que tenia era con el start que señalé algo que no debía ir y no me ejecutaba las transformaciones, aunque tambien me di cuenta que las transformaciones no las tenia dentro del data integration gracias a los manuales que tienen en el foro, que por cierto estan buenos.
Comentario por maricela el octubre 16, 2010 a las 2:27am
HOLA BUENAS UNA PREGUNTA EN EL KETTLE HAY ALGUNA OPCION PARA ELIMINAR ALGUNA FILAS DE LOS CMPOS QUE ESTES NULOS O ESO SE LO HACE EN LA PROPIA BASE PORQ POR ALGO EL KETTLE ES EL ETL
Comentario por Mariano García Mattío el octubre 16, 2010 a las 2:29am
No entiendo en absoluto que es lo que planteas, por se más clara para que podamos ayudarte

Saludos

Mariano
Comentario por Elizabeth el octubre 29, 2010 a las 11:27pm
Buenas tardes amig@s

Porfavor me podrían ayudar en la siguiente consulta:

Estoy trabajando con Pentaho Data Integration 4.0.1, mi base de datos destino está en Oracle 10g cuyo sistema operativo es RHEL con 6GB en RAM, estoy realizando una trasformación que hace una copia de la tabla origen(sqlserver 2005) al esquema creado en oracle, pero el tiempo de carga es de 2 horas aproximadamente en 1200 000 registros, la pregunta es hay forma de configurar el PDI para que el proceso de carga sea mas rápido o de que depende para que este proceso sea más rápido.?

Gracias
Comentario por Mariano García Mattío el octubre 29, 2010 a las 11:38pm
El proceso será más o menos lento según la lógica que apliques y el volumen de datos. A veces se puede mejorar el proceso, pero eso depende del conocimiento del desarrollador: En cuanto a configurar Kettle para que corra más rápido (sería genial que alguna herramienta de software lo permitiese, el programador ganaría el premio novel :) ). Puedes probar aumentando la memoria de la JVM y crear transacciones un poco más grandes, pero seguramente tendrás que configurar algo en los SGBD involucrados, sobre todo en el destino.

Saludos

Mariano
Comentario por Elizabeth el octubre 30, 2010 a las 1:19am
Gracias por su pronta respuesta pero ya aplique el incremento de memoria de la JVM y no consegui mejoras y con respecto al SGBD si tendria que tunear a mi SGB, pero en realidad el problema radica en que la maquina destino esta en otra provincia y el ancho de banda es bajo puedo decir que este fue mi problema temporalmente, poq probe con otra tabla con casi la misma cantidad de registros pero que esta localmente y la carga fue en menos tiempo.

Gracias

Comentar

¡Necesitas ser un miembro de Pentaho Data Integration para añadir comentarios!

 

Miembros (147)

 
 
 

Distintivo

Cargando…

© 2024   Creado por Emilio.   Tecnología de

Emblemas  |  Reportar un problema  |  Términos de servicio