Dopo grandi fatiche a imparare crawler e scraper senza interfaccia ho trovato (opensource) Vietspider su una dimostrazione su YouTube.
Finalmente un programma con interfaccia e che mi aspetto più intuitivo da imparare.

Il tutorial appare ottimamente fatto con tanti snapshot che accompagnano il testo.
L'unico problema è che spiega solo l'avviamento da Windows ma non fa menzione su cosa fare per chi come me l'ha scaricato su Ubuntu.

Nella directory ho un esercito di scatoloni .jar. Suppongo che sia dentro a uno di essi il comando da dare in terminale per avviare il programma. Ma come faccio a sapere dove?

La mia domanda non riguarda solo Vietspider.

In Ubuntu io trovo non semplice il fatto di non avere un qualcosa come .exe.

chiesto 04 Jan '14, 21:49

tiwasay's gravatar image

tiwasay
417404249

modificato 05 Jan '14, 20:40

enzotib's gravatar image

enzotib ♦♦
14.1k113187

1

dovresti spiegare, per avere più info, come e/o se lo hai installato o almeno il link da dove lo hai scaricato....

(04 Jan '14, 23:34) m3nhir m3nhir's gravatar image

Sì, scusa. Sono andato su: http://binhgiang.sourceforge.net/webextractor/download.htm e ho fatto il downoload di VietSpider Web Data Extractor scegliendo l'opzione Linux 64bit

(04 Jan '14, 23:48) tiwasay tiwasay's gravatar image
2

In Ubuntu non esiste un formato "unico" per i files eseguibili: si basa tutto invece sui permessi.
Potenzialmente un file di LibreOffice potrebbe essere avviato come programma se gli dai i relativi permessi.

Ti consiglio sempre di installare i programmi dai repository ufficiali, che contengono solo programmi verificati.

(05 Jan '14, 09:52) pietroalbini ♦♦ pietroalbini's gravatar image

@pietro98-albini & dadexix86: sono d'accordo con voi. Infatti vado sempre a cercare in USC. Siccome però ho bisogno di uno scraper o un crawler avevo provato con Apache Nutch e poi con Scrapy.org ma entrambi sono programmi'senza interfaccia', cioè un po' difficili per me. Per caso mi sono imbattuto su YouTube in una presentazione di alcuni spider con interfaccia grafica e ne ho trovati alcuni. Scegliendo quelli gratuiti il migliore mi è parso VietSpider. Se però avete da segnalarmi software verificati migliori il consiglio è il benvenuto!

(05 Jan '14, 12:08) tiwasay tiwasay's gravatar image
1

@pietro98-albini, mi scuso se ho sbagliato a rispondere.

(05 Jan '14, 12:17) enzoge enzoge's gravatar image

Indipendentemente dagli effetti che un software non inserito nei repository ufficiali di Ubuntu può avere sulla stabilità dell'intero sistema, ritengo che per installare Vietspider si debba fare così:

  1. copiare la cartella del software scaricato, da "~/Scaricati", dove dovrebbe essere finita con il download, alla propria Home e cliccandoci sopra col tasto destro del mouse dal successivo menu scegliere "Estrai qui";
  2. Aprire una finestra terminale e inserire il comando

    cd VietSpider3_19_XML_Linux64
    
  3. digitare il comando

     chmod 755 vietspider.sh
    
  4. da ultimo lanciare l'installazione con il comando

     ./vietspider.sh
    
coll. permanente

ha risposto 05 Jan '14, 15:37

enzoge's gravatar image

enzoge
4.7k314088

modificato 05 Jan '14, 15:44

enzotib's gravatar image

enzotib ♦♦
14.1k113187

Ho fatto sia come mi hai indicato adesso che provando a far partire dalla directory la cartella.sh. http://chiedi.ubuntu-it.org/upfiles/dopo_risposta_ilgallinetta.png

(05 Jan '14, 15:50) tiwasay tiwasay's gravatar image
1

Se questi snapshot sono immagini, caricale tipo su imageshack e posta i link. Se sono codici, caricali su paste e posta i link :)

Se la tua domanda è stata risposta (ovvero come avviare il programma) accetta la risposta ;)

(05 Jan '14, 15:53) dadexix86 ♦♦ dadexix86's gravatar image
(05 Jan '14, 15:58) enzoge enzoge's gravatar image
(05 Jan '14, 16:07) tiwasay tiwasay's gravatar image

Ok, quindi sei riuscito a lanciarlo :)

(La mia risposta ti spiegava come trovare il file da lanciare, il come lanciarlo lo spiegava già @ilgallinetta) ;)

(05 Jan '14, 16:14) dadexix86 ♦♦ dadexix86's gravatar image

E' soprattutto su questa finestra di dialogo (che appare per pochi secondi e subito sparisce) che non capisco molto. Per es. c'è segnata una password compilata. Io non ricordo di aver messo password e sono sicurissimo che nessuna mia password ha 10 posizioni come i pallini identificativi della password che ho contato: http://chiedi.ubuntu-it.org/upfiles/dopo_run.png

(05 Jan '14, 16:14) tiwasay tiwasay's gravatar image
1

Sì, serve se vuoi crawlare (si dirà così?) un sito che richiede l'accesso :)

(05 Jan '14, 16:19) dadexix86 ♦♦ dadexix86's gravatar image
1

@tiwasay, potrebbe forse essere un qualcosa come certe volte capita con qualche software demo o gratuito, solo che qui anziché dirti quali dati impostare, lo fanno loro da software.

(05 Jan '14, 16:25) enzoge enzoge's gravatar image

Ok, quindi sei riuscito a lanciarlo :)

@dadexix86: sì lo lancio..... ma poi 'atterra' su una videata grigia (l'ultimo snapshot) e da lì non succede niente. Lo scopo per cui avevo scaricato questo programma era per avere finalmente un 'normale' programma con un interfaccia grafica a menu in cui muoversi. Così lo mostrano nel tutorial. Io non ho capito col mio lancio dove sono finito...

(05 Jan '14, 16:35) tiwasay tiwasay's gravatar image

Purtroppo direi che l'unica cosa che puoi fare è chiedere a loro :(

(05 Jan '14, 16:37) dadexix86 ♦♦ dadexix86's gravatar image

Proverò a vedere se mi rispondono nel loro forum. Nel frattempo faccio anche a te (e agli altri) la domanda se avete da segnalarmi un crawler o scraper che abbia però un'interfaccia grafica intuitiva. Meglio se open source, altrimenti ad un prezzo ragionevole. Grazie

(05 Jan '14, 16:58) tiwasay tiwasay's gravatar image
1

Se ci dicessi esattamente a cosa ti serve e quali feature vuoi a parte la GUI magari qualcosa si trova :)

Ad esempio Nepomuk è un crawler/scraper per dati locali.

(05 Jan '14, 17:01) dadexix86 ♦♦ dadexix86's gravatar image
2

@tiwasay, probabilmente qualche problema può essere dovuto all'aver tentato più installazioni. Potrebbe anche essere che il programma di installazione ha bisogno di lavorare con i permessi di root e anche se avrebbe dovuto segnalarti qualche errore tipo "permission denied", magari, anche se sarebbe meglio pulire il sistema, potresti tentare una quarta installazione facendo precedere il comando di avvio "./vietspider.sh" dal comando "sudo -s"

(05 Jan '14, 17:32) enzoge enzoge's gravatar image
1

@tiwasay, mi viene il dubbio che si stia confondendo l'uso del programma di installazione, con l'uso del programma, dove probabilmente bisognerà inserire qualche parametro, se non avviare qualche background. L'installazione l'ha completata?

(05 Jan '14, 18:18) enzoge enzoge's gravatar image

@ ilgallinetta: Sì, l'installazione l'ho completata e senza problemi. Sono pieno di sottocartelle nella directory dove c'è VietSpider. La cartella cui ho dato il nome VietSpider contiene file e sottocartelle per 58,8 MB che è in linea con quello che deve 'pesare' il prodotto.

(05 Jan '14, 18:43) tiwasay tiwasay's gravatar image

Se ci dicessi esattamente a cosa ti serve e quali feature vuoi a parte la GUI magari qualcosa si trova :)

@dadexix86: hai ragione, vedo di essere preciso e sintetico. Su un universo di alcune decine di migliaia di siti (sempre gli stessi però) devo trovare che risposte danno a circa una trentina di tag-queries (anch'esse sempre le stesse). Inizialmente mi ero indirizzato su Apache Solr e Nutch che sto trovando estremamente faticoso da imparare da solo.

(05 Jan '14, 18:52) tiwasay tiwasay's gravatar image

segue @dadexix86: mi è stato poi consigliato che più che un crawler a me andrebbe bene uno scraper. Mi hanno indicato scrapy.org quale miglior soluzione open source. Un po' più facile ma sempre molto laborioso da imparare. Solo casualmente mi sono imbattuto su YouTube su alcune presentazioni di scrapers (finalmente) GUI. Fra quelli free ho provato a scaricare VietSpider il cui tutorial (Windows oriented) lo presenta come una soluzione friendly e facile da imparare/usare. I problemi di avviamento ti sono ormai noti.

(05 Jan '14, 18:55) tiwasay tiwasay's gravatar image

link per @dadexix86: per darti un'idea di ciò che penso possa fare al caso mio: http://www.youtube.com/watch?v=qEvLfTAJmUE la pagina web del produttore é: http://www.visualwebripper.com/ Piccolo problema: la licenza costa 349$..... Io desidererei qualcosa, con interfaccia a menu tipo webripper, ma opensource o a prezzo ragionevole e che vada tranquillamente su Ubuntu come fosse un qualsiasi altro programma.

(05 Jan '14, 19:04) tiwasay tiwasay's gravatar image

@tiwasay: quindi se l'installazione è si è completata, puoi accettare la mia risposta così altri sapranno che quei comandi funzionano.

(05 Jan '14, 19:53) enzoge enzoge's gravatar image

Visto che non si tratta solo di un problema di questo programma ma di una cosa generale, valgono innanzitutto le osservazioni di @pietro98-albini .
Quando ti è possibile usa solo programmi verificati (così ti eviti molti problemi, tra cui in alcuni casi il dover formattare e reinstallare).

In generale, comunque, per i programmi non ufficiali, devi leggere la Documentazione (in questo caso molto scarna e solo per Windows) ma soprattutto riferirti principalmente ai canali di supporto offerti dagli sviluppatori, perché la community che gira intorno al programma lo conosce molto meglio di quanto possa fare chiunque altro su un servizio di supporto generico (come questo).

Nel dettaglio comunque, aprendo il file zip in questione, è presente un file vietspider.sh, ovvero un file di shell, il cui contenuto è il seguente:

#!/bin/sh

MEMORY="-Xshare:auto -Xms128m -Xmx1024m"

JAVA_OPTS="$MEMORY $JAVA_OPTS"

CLASSPATH="-cp startup.jar"
export JAVA_OPTS LD_LIBRARY_PATH

exec java $CLASSPATH $JAVA_OPTS org.vietspider.startup.StartAll >> system.out 2>&1 &

Direi che è quello giusto da lanciare per eseguire il programma, seguendo eventualmente le risposte a questa domanda se non sai come fare.

coll. permanente

ha risposto 05 Jan '14, 11:59

dadexix86's gravatar image

dadexix86 ♦♦
17.0k916161

sì ero andato anche sul canale di supporto e avevo posto la domanda (http://binhgiang.sourceforge.net/webextractor/forum.htm) ma finora nessuno mi ha risposto. Ho avuto anche l'impressione che sia una comunità con pochissimi frequentatori. D'altronde mi rendo conto che il software di cui ho bisogno non è un prodotto di massa.

(05 Jan '14, 12:14) tiwasay tiwasay's gravatar image
1

@dadexix86, mi sono già scusato con @pietro98-albini e rinnovo le mie scuse anche a te.

(05 Jan '14, 12:19) enzoge enzoge's gravatar image

@ilgallinetta scuse per cosa? Perché hai cancellato la tua risposta?

Era molto completa in tutti i dettagli! (forse l'unica pecca era il cd /cartella che avrebbe dovuto essere cd cartella) :)

(05 Jan '14, 12:56) dadexix86 ♦♦ dadexix86's gravatar image

Le scuse perché dai vostri interventi mi è parso di capire che avrete preferito diversamente. La cancellazione della risposta è avvenuta mentre la modificavo, per un errore dovuto al mouse che funziona male.

(05 Jan '14, 13:49) enzoge enzoge's gravatar image

La tua risposta era pertinente alla domanda e relativa al servizio che su questo sito viene fornito, quindi non vedo perché

  1. se pensi che io o pietro o chiunque altro la possiamo pensare diversamente da te, tu ti debba auto-censurare
  2. tu ti debba scusare con qualcuno se dici ciò che pensi

Comunque, considerazioni personali a parte, se ti va di ripristinarla sei il benvenuto! ;)

(05 Jan '14, 14:09) dadexix86 ♦♦ dadexix86's gravatar image

@dadexix86, auto-censurarmi? Assolutamente no, e a proposito di "pensarla"; io penso che voi siete gli amministratori ed avete indubbiamente delle responsabilità che uno come me, che da pensionato si passa il tempo qui, non ha. Va da se che quando un amministratore sconsiglia l'uso di software non controllato, ragionandoci sopra, chi ha suggerito come installarlo, se gli stessi suggerimenti li avesse dati a voce, si morderebbe la lingua.

La risposta volevo modificarla in alcuni punti e sul chmod, ma con sto mouse... L'intenzione era ed è di reinserirla corretta quanto prima.

(05 Jan '14, 14:50) enzoge enzoge's gravatar image

@ tutti voi: ragazzi non perdiamoci in un bicchiere d'acqua. Frequento spesso Chiedi e siete tutti e tre fra quelli che più spesso si 'sbattono' per aiutare chi ha difficoltà.

(05 Jan '14, 14:52) tiwasay tiwasay's gravatar image
La tua risposta
abilita/disabilita anteprima

Segui questa domanda

Via email:

Una volta eseguito l'accesso potrai iscriverti a tutti gli aggiornamenti qui

Via RSS:

Risposte

Risposte e commenti

Basi di markdown

  • *corsivo* o __corsivo__
  • **grassetto** o __grassetto__
  • collegamento:[testo](http://url.com/ "titolo")
  • immagine?![alt testo](/path/img.jpg "titolo")
  • elenco numerato: 1. Foo 2. Bar
  • per aggiungere un'interruzione di riga, aggiungi due spazi a fine riga e premi «Invio»
  • è supportato anche semplice HTML

Tag:

×41
×1

domanda posta: 04 Jan '14, 21:49

domanda visualizzata: 2,764 volte

ultimo aggiornamento: 05 Jan '14, 20:40

Chiedi è un servizio di supporto gestito da Ubuntu-it. Contattaci!

powered by OSQAPostgreSQL database
Ubuntu e Canonical sono marchi registrati da Canonical Ltd.