MicroCloud Hologram, fornitore di servizi tecnologici, ha annunciato l’ottimizzazione approfondita degli autoencoder sparsi impilati tramite il modello open source DeepSeek, iniettando nuova vitalità nella tecnologia di rilevamento delle anomalie e fornendo una soluzione efficiente.
La qualità dei dati è fondamentale per le prestazioni del modello, quindi i dati comportamentali raccolti nella fase di pre-elaborazione dei dati contengono in genere più feature con dimensioni e intervalli numerici diversi. Per eliminare l’influenza dimensionale tra diverse feature e migliorare l’efficacia dell’addestramento del modello, HOLO utilizza il metodo di elaborazione della normalizzazione.
La normalizzazione è una comune tecnica di pre-elaborazione dei dati che ridimensiona i dati a un intervallo specifico, in genere tra 0 e 1 o -1 e 1. In questo modo, i dati di diverse funzionalità possono essere confrontati e analizzati sulla stessa scala, evitando la situazione in cui alcune funzionalità dominano l’addestramento del modello a causa dei loro ampi intervalli di valori. Nel progetto di rilevamento di HOLO, la normalizzazione non solo ha migliorato l’efficienza dell’addestramento del modello, ma ha anche gettato solide basi per la successiva estrazione delle funzionalità. I dati elaborati tramite la normalizzazione sono più allineati con i requisiti di input dei modelli di apprendimento profondo, consentendo al modello di apprendere modelli intrinseci in modo più accurato.
Una volta completata la preelaborazione dei dati, il passaggio successivo consiste nell’inserire i dati elaborati nel modello autoencoder stacked sparse. L’autoencoder stacked sparse è una potente architettura di apprendimento profondo composta da più livelli di autoencoder, con ogni livello responsabile dell’estrazione di feature a diversi livelli. HOLO utilizza il modello DeepSeek per regolare dinamicamente la forza e la modalità del vincolo di sparsità, assicurando che le feature apprese da ogni livello dell’autoencoder siano sparse e rappresentative. Impostando opportunamente il vincolo di sparsità, il modello può catturare meglio le informazioni chiave nei dati e ridurre le feature ridondanti.
Un autoencoder è un modello di apprendimento non supervisionato progettato per codificare i dati di input in una rappresentazione di feature a dimensione inferiore tramite l’encoder, quindi ricostruire i dati di input originali il più accuratamente possibile tramite il decoder. Tra l’encoder e il decoder, l’autoencoder apprende la rappresentazione di feature dei dati tramite un livello nascosto.
HOLO ha innovato e ottimizzato l’autoencoder sparse impilato utilizzando il modello DeepSeek. Questa tecnica impiega un approccio di addestramento greedy, layer-wise, ottimizzando i parametri di ogni layer dell’autoencoder passo dopo passo. Il fulcro di questa strategia di addestramento layer-wise è prima addestrare i layer inferiori dell’autoencoder per apprendere le caratteristiche di base dei dati di input, quindi utilizzare l’output dell’autoencoder del layer inferiore come input per il layer successivo, continuando l’addestramento ed estraendo progressivamente le caratteristiche più profonde. In questo modo, il modello è in grado di catturare gradualmente le complesse relazioni all’interno dei dati, migliorandone il potere espressivo. Ogni layer dell’autoencoder è vincolato dalla sparsità, assicurando che le caratteristiche apprese siano sparse, il che significa che vengono attivati solo pochi neuroni, consentendo al modello di apprendere rappresentazioni di caratteristiche più compatte ed efficaci.
L’autoencoder sparse impilato di HOLO, addestrato con il modello DeepSeek, aggiunge rumore ai dati di input e richiede al modello di ricostruire l’input originale nonostante l’interferenza del rumore. Questo approccio di addestramento con denoising incoraggia il modello ad apprendere rappresentazioni di feature più robuste, consentendogli di eseguire un rilevamento di anomalie accurato anche quando si trova di fronte a dati rumorosi in scenari del mondo reale, migliorando così la robustezza del modello. Nello specifico, durante l’addestramento, viene aggiunto rumore casuale ai dati di input e il modello è incaricato di ricostruire l’input originale. Questo processo costringe il modello ad apprendere rappresentazioni di feature più resilienti, garantendo un’elevata accuratezza anche in presenza di vari tipi di rumore in condizioni del mondo reale.
Oltre al denoising, HOLO applica anche Dropout durante il processo di training. Dropout è una tecnica di regolarizzazione comunemente utilizzata, mirata principalmente a ridurre l’overfitting del modello. Nei modelli di deep learning, l’overfitting si riferisce al fenomeno per cui un modello funziona bene sui dati di training ma male su campioni non visti. Per evitare ciò, HOLO elimina casualmente un sottoinsieme di neuroni durante il training dell’autoencoder sparse impilato. In ogni iterazione di training, il modello seleziona casualmente una porzione di neuroni e imposta i loro output su zero. Il vantaggio di questo approccio è che il modello non può basarsi su alcun neurone specifico per apprendere le caratteristiche dei dati, ma deve invece apprendere rappresentazioni di caratteristiche più generali e robuste.
Inoltre, il modello DeepSeek utilizza un framework di elaborazione distribuita, che assegna attività di training su più nodi computazionali per l’esecuzione parallela. Ciò riduce significativamente i tempi di training e ne migliora l’efficienza. Utilizzando il modello DeepSeek, il pretraining può essere prima condotto sull’autoencoder sparse impilato per apprendere rappresentazioni di funzionalità generali. Questa strategia di pretraining + fine-tuning può accelerare notevolmente la convergenza del modello e migliorare le prestazioni. Introducendo il modello DeepSeek, HOLO ha iniettato nuova vitalità nell’ottimizzazione degli autoencoder sparse impilati. Il modello DeepSeek fornisce un supporto completo in aree quali progettazione dell’architettura, training, apprendimento di funzionalità strategiche e capacità di generalizzazione.