La maggior parte degli utenti ha diversi account su internet, in una o più piattaforme.
La quantità di informazioni personali rivelata all'interno di questi account è diversa, sia per la piattaforma in cui l'account è stato creato, sia per una volontà dell'utente. In alcuni siti tipo Facebook, le persone appaiono normalmente con il loro vero nome. In altre piattaforme gli utenti usano gli alias per proteggere la propria identità, senza però il bisogno di una forte protezione della privacy. In questa categoria, ricadono ad esempio gli alias usati all'interno dei forum. Questi, permettono di rimanere ignoti agli altri utenti, ma non garantiscono l'anonimato nei confronti del sito stesso, dei provider o delle autorità. Talvolta, però, l'utente potrebbe necessitare di alias che ne garantiscano sia l'anonimato sia la privacy e per questo si utilizzano tool come TOR, con cui l'utente si aspetta di raggiungere un alto grado di protezione dei propri dati personali. Quando vengono utilizzati questi alias, infatti, gli utenti navigano con la convinzione di essere totalmente anonimi.
All'interno di questo lavoro cercheremo di dimostrare come l'uso di diversi alias sul web in chiaro e sul Dark Web può minare l'anonimato a cui l'utente aspira. L'obiettivo è sviluppare un metodo che permetta l'identificazione di account diversi appartenenti alla stessa persona, facendo in modo che divenga possibile individuare in chiaro l'account di un utente che utilizza tecnologie come TOR. Diversamente dalla bibliografia già esistente, il nostro tentativo sarà su larga scala, implicherà un'ampia ricerca di utenti nel web in chiaro e nel Dark Web, e utilizzerà come dati solo il testo dei messaggi e il timestamp in cui questi sono stati scritti.
Nonostante l'Authorhsip Attribution sia un task molto studiato, crediamo che questa ricerca sia in grado dimostrare la reale praticità dell'utilizzo di questi strumenti in ambito investigativo, concentrandosi nello specifico in realtà, quali quella del Dark Web,
in cui gli utenti si sentono tanto sicuri da commettere illeciti senza spesso temerne le conseguenze.
Inoltre, la maggior parte dei lavori sull'Authorship Attribution o Authorship Verification, si basano su dataset con testi redatti in linguaggio formale o privi di idiosincrasie, appartenenti allo stesso dominio. Nel nostro caso, invece, i dataset saranno ricavati scaricando i messaggi da alcuni tra i forum più famosi del Dark Web, e da diversi subreddit di Reddit incentrati sull'argomento della droga, in cui idiosincrasie ed elementi non comuni sono praticamente la regola. In questo modo, ci proponiamo di studiare un caso non solo estremamente realistico, ma anche di un certo peso legale. Verranno raccolti dati a partire da forum eterogenei, all'interno dei quali, lo stile, le regole e la cura con cui l'utente scrive, cambiano radicalmente, apportando un ulteriore grado di difficoltà alla nostra ricerca. In conclusione, cercheremo di proporre alcuni metodi che gli utenti potrebbero usare per limitare le possibilità di riuscita dell'attacco, affrontando anche il problema etico che deriva da questo studio. Più in generale, vogliamo porre l'attenzione su come non basti usare servizi per l'anonimato per garantirsi una certa protezione, ma che oltre a questi sarebbe necessario offuscare il proprio stile di scrittura e possibilmente scrivere in orari diversi rispetto a quanto si fa in chiaro.
Crediamo che questo lavoro possa contribuire a svelare le reali potenzialità che l'Authorship Attribution può avere nella vita di tutti i giorni e, inoltre, rivolgere l'attenzione verso attacchi, a utenti che usano TOR, che non si avvalgano di strategie complesse legate ad applicazioni di terze parti o all'analisi della rete, ma che si basino su dati, come messaggi e timestamp, mezzi necessari al normale funzionamento di social e forum.