Caratteristiche dei dati d'ingresso Il primo dei due file di input è un insieme di transazioni. Ogni transazione è un insiemi di numeri che rappresentano i vari item. L'ultimo item di ogni transazione rappresenta la classe associata alla transazione. Ogni transazione ha una sola eticheta di classe e quindi un solo item di classse (presente al fondo della transazione). Ogni transazione è inoltre caratterizzata da due numeri iniziali (tid e cid) che la identificano univocamente e da un numero (presente dopo tid e cid) che dice quanti item contiene la transazione (item di classe incluso). Esempio dati di ingresso (insieme di transazioni): tid,cid,numero item, elenco di item che compongono la transazione 1,1,3,1,2,10 2,2,4,1,4,5,11 Il dataset appena descritto è composto da due transazioni. La prima transazione è composta da 3 item. In particolare dagli item 1,2,10. L'item di classe è 10. La seconda transazione è composta da 4 item. In particolare dagli item 1,4,5,11. L'item di classe è 11. Le transazioni da utilizzate come dati di ingresso per l'algortimo di estrazione sono salvate in un file binario che usa lo stesso "tracciato" appena descritto, ossia: tid,cid,numero item, elenco di item che compongono la transazione Tutti i dati sono stati salvati usando dati di tipo unsigned int. I file sono stati creati usando un programma C su macchina intel (o similare) e quindi i dati sono memorizzati in binario usando la rappresentazione little endian. Fare attenzione al fatto che invece Java si aspetta i dati in formato big endian quando questi sono letti da un file binario (indipendentemente dal tipo di macchina utilizzata). Quindi fare molta attenzione alla lettura del file binario.