Open Business Intelligence

La red del Business Intelligence

Buenas,

estoy empezando en todo el mundo del BI y Data warehouse.

El problema que estoy teniendo es que al ser principiante y la documentación al respecto hace que muchas veces no sepa muy bien que hacer.

El caso es que estoy haciendo un Data warehouse de un ERP, el ERP tiene muchísimas tablas y registros. De primeras estoy haciendo un Data Stage de la base de datos con la tablas que utilizo un select * from tabla. y a continuación empiezo el proceso de Data warehouse donde normalizo los datos y se crea el almacén, ahora mismo se borra y se actualiza las tabla con cada proceso. El problema que tengo es que como la base de datos del ERL tiene tantas tablas y registros el proceso de Stage y Data warehouse, tarda muchísimo cerca de una hora y si se tiene que ejecutar más de una vez al día hace que sea un gran problema si hubiera algún fallo.

¿Hay alguna forma de hacer que el proceso sea más rápido? ¿porque ejemplo hacer que alguna de las bases de datos en vez de ser sql server ser alguna base de datos noSql? También he visto algo sobre hadoop pero no entiendo mucho sobre el tema y si me ayudaría en el proceso.

Cualquier aportación me ayudaría muchisimo.

Muchas gracias

Etiquetas: pentaho, sqlserver

Visitas: 789

Responde a esto

Respuestas a esta discusión

Buenas! Es un tema complicado y que a casi todos nos tiene de cabeza la carga de datos... solo unos consejos que no creo que te resuelvan el problema.

- No uses select *, en todas las bases de datos se recomienda select y el nombre de los campos, aunque sean todos. 

- Busca en kettle una caja que sea bulk loader para tu base de datos y cargala mediante esa caja, debería de ser rápido.

- Intenta mejor actualizar que borrar e insertar todo de nuevo, por lógica debería de ser mas rápido.

- Yo en base de datos NoSQL estoy de pruebas con una columnar, es la que se recomienda en BI.

Por otro lado muy importante que te leas alguna metodología BI para crear un DWH. La de Hefesto, creada por un compañero del foro, está muy bien, es fácil de entender y te dará ideas.

Muchas gracias!! me pondré a ello y cualquier solución que encuentre la compartiré en el foro.

Gracias!!

Surgeon dijo:

Buenas! Es un tema complicado y que a casi todos nos tiene de cabeza la carga de datos... solo unos consejos que no creo que te resuelvan el problema.

- No uses select *, en todas las bases de datos se recomienda select y el nombre de los campos, aunque sean todos. 

- Busca en kettle una caja que sea bulk loader para tu base de datos y cargala mediante esa caja, debería de ser rápido.

- Intenta mejor actualizar que borrar e insertar todo de nuevo, por lógica debería de ser mas rápido.

- Yo en base de datos NoSQL estoy de pruebas con una columnar, es la que se recomienda en BI.

Por otro lado muy importante que te leas alguna metodología BI para crear un DWH. La de Hefesto, creada por un compañero del foro, está muy bien, es fácil de entender y te dará ideas.

Responder a debate

RSS

Distintivo

Cargando…

© 2024   Creado por Emilio.   Tecnología de

Emblemas  |  Reportar un problema  |  Términos de servicio