Todas las discusiones etiquetadas "scraping" - Open Business Intelligence2024-03-28T14:21:39Zhttp://openbi.ning.com/group/pentahodataintegration/forum/topic/listForTag?tag=scraping&feed=yes&xn_auth=no[Tutorial 09] Web Scrapingtag:openbi.ning.com,2016-01-25:2400100:Topic:1089542016-01-25T18:14:03.349ZBernabeu R. Dariohttp://openbi.ning.com/profile/BernabeuRDario
<p>En este video tutorial haremos <strong>Web Scraping</strong> utilizando Pentaho Data Integration (PDI).</p>
<p>Nos conectaremos a un web site y obtendremos el título y la descripción de sus cinco primeros artículos.</p>
<p><a href="http://storage.ning.com/topology/rest/1.0/file/get/2060485698?profile=original" target="_self"><img class="align-center" height="214" src="http://storage.ning.com/topology/rest/1.0/file/get/2060485698?profile=RESIZE_1024x1024" width="574"></img></a> Crearemos una Transformation y haremos lo siguiente:</p>
<ul>
<li>obtendremos un documento HTML (<span style="color: #008000;">HTTP…</span></li>
</ul>
<p>En este video tutorial haremos <strong>Web Scraping</strong> utilizando Pentaho Data Integration (PDI).</p>
<p>Nos conectaremos a un web site y obtendremos el título y la descripción de sus cinco primeros artículos.</p>
<p><a target="_self" href="http://storage.ning.com/topology/rest/1.0/file/get/2060485698?profile=original"><img width="750" class="align-center" src="http://storage.ning.com/topology/rest/1.0/file/get/2060485698?profile=RESIZE_1024x1024" height="214" width="574"/></a>Crearemos una Transformation y haremos lo siguiente:</p>
<ul>
<li>obtendremos un documento HTML (<span style="color: #008000;">HTTP Client</span>)</li>
<li>dividiremos filas en columnas (<span style="color: #008000;">Split Fields</span>)</li>
<li>normalizaremos el data set (<span style="color: #008000;">Row Normaliser</span>)</li>
<li>filtraremos las filas deseadas (<span style="color: #008000;">Filter rows</span>)</li>
<li>obtendremos el título y la descripción utilizando expresiones regulares y javascript (<span style="color: #008000;">Modified Java Script Value</span> | <span style="color: #008000;">Replace in string</span>)</li>
<li>seleccionaremos las columnas deseadas (<span style="color: #008000;">Select values</span>)</li>
</ul>
<p></p>
<p><iframe src="https://www.youtube.com/embed/XSXzGTwbQYc?wmode=opaque" frameborder="0" height="315" width="420"></iframe>
</p>
<p></p>
<p>Para consultas sobre cursos Pentaho: <a href="http://www.troyanx.com/" target="_blank">http://www.troyanx.com/</a></p>
<p></p>
<p>Espero les sea útil</p>
<p>Salud</p>