Dominus – Find what you want wherever you want!

Nuovo POST per nuovo progetto.

In effetti era da un pò che non postavo progetti nuovi, ma credetemi sono stato davvero incasinato. Questo progetto, per altro, ha richiesto un eccessivo tempo di realizzazione e collaudo: ma adesso è (quasi) pronto.

Il nuovo progetto non a caso è stato chiamato Dominus, perchè permette tramite ricerche comparate su più portali nel web di indentificare una informazione mettendola in correlazione con eventuali falsi positivi.

Mi spiego meglio: Dominus ricerca su vai motori di ricerca ed effettuando una comparazione di risultati li mette in correlazione fornendo il risultato migliore. Si potreste dirmi, bene ma questo esiste già. Si è vero ma lo strumento in questione permette di essere personalizzato e per di più di poter effettuare la ricerca nel Dark Web, come? tramite il nostro amico TOR.

Andiamo alle caratteristiche tecniche:

Il progetto è stato sviluppato in ASP.NET c# ed è attualmente visualizzabile su https://dominus.azurewebsites.net/ ; solo visualizzabile perchè l’usabilità è riservata solo al sottoscritto (al momento).

Realizzazione della procedura chrome per lo scraping:

ChromeOptions options = new ChromeOptions();
options.AddUserProfilePreference("profile.default_content_setting_values.notifications", 2);
options.AddArguments("--disable-extensions");
options.AddArgument("test-type");
options.AddArgument("--ignore-certificate-errors");
options.AddArgument("no-sandbox");
options.AddArgument("--headless");

IWebDriver driver = new ChromeDriver(System.Web.Hosting.HostingEnvironment.MapPath("~/App_Data/"),options);

Per effettuare le stesse ricerche però sul mondo TOR aggiungiamo queste poche linee di codice:

options.addArguments("--proxy-server=socks5://127.0.01:50001");

Utilizzando chromedriver e selenium (vi propongo questi siti per approfondire) integrati perfettamente con ASP.NET, il portale esegue in modalità “headless” gli scraping dei vari portali e lo store su mysql delle varie informazioni.

Allo stato attuale delle cose il portale in questione conserva anche tramite un cron tutte le news del mondo per poi elaborare tramite un algoritmo specifico determinate richieste statisitche su eventi e luoghi.

Il progetto è ancora in forma embrionale ma si spera possa passare allo step successivo entro il prossimo anno.

Per informazioni o commenti non esitate a contattarmi.

A presto.

Leave a Reply

Your email address will not be published. Required fields are marked *