Hot to write a new ticket:
- go to Jira (project LNF DCS) and create a new issue;
- in the issue section "Details", field "Labels, add the label "DCS_log" <--- THIS IS MANDATORY;
- fill out the issue form;
- go back to this page and refresh it (it could require a click on the dedicated button placed below the issues table).
Jump ahead to old style tickets: the old style tickets (from 01/2012 to 01/2021, formerly on Google Drive) are reported as plain text at the end of this page.
Old style tickets (imported from Google Drive. The original document is discontinued and deprecated).
Jump to new style tickets (made with JIRA)
Data: 21/01/2021
Oggetto: Data errata su dante003 (ntp spento)
ID: 20210121.1
Autore: P.C.
Problema: La data predefinita nei salvataggio dei dataset di una barra dante che girava sulla dante003 era errata (1987)
Soluzione: Il client ntp era spento. Lanciato di nuovo da utente root con il comando /usr/lib/inet/xntpd
Descrizione:
Un operatore ha aperto il ticket http://www.lnf.infn.it/acceleratori/public/trouble/updateList.php?id=5730 descrivendo un problema di data errata durante il salvataggio di un dataset.
A.S. ha trovato in effetti la data errata sulla macchina dante003 e l’ha reimpostata manualmente da utente root con il comando date mmddHHMMyyyy (dove mm è il mese a due digit, dd il giorno a due digit, HH è l'ora in formato 24 ore a due digit, MM i minuti a due digit e yyyy l’anno a quattro digit).
Lanciando il comando ps -fe | grep ntp si nota però che sulla macchina dante003 il client ntp non sta girando (lanciando il comando ntpq -c peers si nota che sulle altre force l’output è una lista di server ntp mentre sulla dante003 viene stampato un messaggio di errore), mentre sulle altre force si.
Si provvede quindi a rilanciare il client ntp sulla dante003 da utente root con il comando /usr/lib/inet/xntpd e si controlla che il client ntp sia configurato per partire all’avvio della macchina (in effetti è presente lo script /etc/rc2.d/S74xntpd su tutte le force).
Si controlla che il client ntp sia configurato per partire all’avvio della macchina (in effetti è presente lo script /etc/rc2.d/S74xntpd su tutte le force).
Con il comando date si controlla che la data sia corretta e con il comando ntpq -c peers l’output è correttamente una lista di server ntp.
Data: 15/01/2021
Oggetto: Valori del vuoto e rawData vuoti o a zero (0)
ID: 20210115.1
Autore: P.C.
Problema: Dati del vuoto assenti o uguali a zero. Idem per la pagina rawData
Soluzione: fermare in ordine devil 205, 203, 202; Chiudere devil 203; Riaprire devil 203 con “Manual Management” da sysreset; far partire in ordine devil 202, 203 e 205.
Descrizione:
Sandro De Biase segnala che i valori del vuoto dalla sala controllo si vedono, mentre dalla pagina web di dafne http://dafne.lnf.infn.it/cgi-bin/vs.csh no (restano tutti a zero). Ho notato che quel grafico del vuoto viene generato dallo script /space/daq/status/dafnePlots.csh che a sua volta lancia più generateJPEG con diversi parametri. Visto che gli UDPServer su dafne girano senza problemi ed il problema sembra nella parte che genera i dati, ho fatto le seguenti operazioni:
- Ho provato a far riavviare il devil202 ma non ha sortito effetto;
- Sono entrato in VNC sulla console in sala controllo ed ho notato che stoppando il devil203 e riavviandolo apparivano dei warning nel campo log del devil (segnalando una discrepanza di tempo). Allora l’ho chiuso e riaperto col tool “Manual Management” della SysReset ed ho fermato in ordine il devil205, 203 e 202. Ho aspettato 10 secondi ed ho fatto ripartire prima il devil202, poi il 203 (stavolta non sono apparsi warning) ed infine il 205.
Rilanciando a mano il comando /space/daq/status/dafnePlots.csh ho notato che le immagini finalmente contengono i dati, di conseguenza il problema è risolto.
Data: 23/11/2020
Oggetto: Font di LabVIEW in sala controllo più grandi (su solaris) dopo riavvio sunray server
ID: 20201123.1
Autore: P.C.
Descrizione:
Dopo un riavvio del sunray server (per consumo eccessivo di ram), le barre dante in sala controllo avevano i font “sballati” (più grandi del solito, con conseguente disallineamento delle righe degli elementi nei mag terminal e nei menù delle applicazioni LabVIEW). Per risolvere la problematica, ho dovuto modificare la dimensione dei font (Application Font, System Font, Etc) dalle opzioni di labview (Tools -> Options… -> Fonts) che era diventata 10 invece di essere 9. Dopo averla reimpostata correttamente, ho chiuso labview, fatto logout dalla sunray e riloggato. I font ora sono corretti e tutto funziona senza problemi (unica nota: il menu’ dell’applicazione con il disegno di dafne è diventato in grassetto, ma si vede bene).
NOTA: probabilmente, il file di configurazione delle preferenze di labview in qualche modo si è corrotto. La prossima volta che dovesse ricapitare una cosa simile, provare prima a ripristinare il file delle pref al path /u1/dafne/.labviewrc con il suo backup presente in /u1/dafne/.labviewrc.20201123.save
Data: 28/10/2020
Oggetto: Plot dei rawData su dafne.lnf.infn.it non visibile con errre
ID: 20201028.1
Autore: P.C.
Descrizione:
Dal vuoto si segnala che alla url http://dafne.lnf.infn.it/cgi-bin/rawData quando si prova a “plottare” un elemento appare un errore.
Dopo diagnosi, si è scoperto che la cartella /space/daq/www/scratch era dell’utente daq e del gruppo dcs, mentre il web server gira come nobody:nobody. Di conseguenza, la pagina web che chiamava lo script /space/daq/www/cgi-bin/generateJPEG dava errore perché questo script provava a salvare l’immagine generata nella cartella scratch ma non ne aveva i permessi.
La cartella è stata reimpostata a nobody:nobody con permessi in rwx per tutti gli utenti e la pagina non ha più avuto problemi.
Data: 30/06/2020
Oggetto: modifica a IPTable.DBFile
ID: 20200630.1
Autore: A.S.
Descrizione:
Inserito DEVIL671 nel file IPTable.DBFile per test alimentatori BTF2. Documentazione su Confluence aggiornata.
Data: 05/05/2020
Oggetto: http://dafne.lnf.infn.it/cgi-bin/rawData modificato per visualizzare dati di vecchi elementi non in linea
ID: 20200505.2
Autore: P.C.
Descrizione:
La pagina http://dafne.lnf.infn.it/cgi-bin/rawData (user: dafne, pass: 1033lumi) permette di interrogare i dati raw del sistema di controllo di dafne. Il problema è che se un elemento ha cambiato nome durante la sua vita e lo si cerca con il nome nuovo, i vecchi dati non si visualizzano più. E’ stata realizzata una patch per permettere di vedere anche i vecchi dati dei tre elementi che hanno cambiato nome:
- DCTEL001 rinominato in DCTEL002 dal 25/04/2020 (ticket ID: 20200425.1);
- DCTPS001 rinominato in DCTPS002 dal 25/04/2020 (ticket ID: 20200425.1);
- RDS42001 rinominato in RDS42002 dal 26/02/2020 (ticket ID: 20200226.1);
Di conseguenza, se si cerca uno di questi elementi nuovi per una data antecedente al loro essere rinominati, la pagina si occupa di cercare il vecchio nome al posto del nuovo.
ATTENZIONE: Se non si utilizza la pagina ma si modifica a mano la URL per avere dati più velocemente, ricordarsi che la patch permette di cercare i nomi nuovi per date antecedenti alla modifica del nome, ma se si cerca con il nome vecchio per date successive al cambio del nome, lo script non fa nulla e di conseguenza non si otterranno dati.
Data: 05/05/2020
Oggetto: dante002 riavviata
ID: 20200505.1
Autore: P.C.
Descrizione:
La console Force dante002 non risponde più sulla seriale anche se risponde in ssh.
Si tenta un reboot da ssh ma la macchina non risale (probabilmente è caduta a prompt ok).
Si fa un reset fisico sulla Force (fatto da Giampiero) che riparte. La seriale torna a funzionare.
ATTENZIONE: inaspettatamente, insieme alla dante002 si riavvia anche la dante004 (da investigare se c'è un errore di configurazione di ponticelli o di qualche parametro in vram che causano il riavvio su sysreset. Da notare che le altre Force NON si sono riavviate).
Data: 02/05/2020
Oggetto: modificato DEVIL205 (per utilizzo con il nuovo DCT Agilent Ethernet)
ID: 20200502.1
Autore: A.S.
Descrizione:
Modificato DEVIL205 (DDDCtrl, InitHWICM, ICMCtrl) come segue:
I VIs .../DCT/console/readCurrent e readCurrentFast (identici fra loro) che leggono il DCT con voltmetro HP (VME)
sono stati sostituiti dal VI .../DCT/console/memcached/readCurrent_mc.vi che legge il volmetro Agilent (ETH).
NOTA: il VI readCurrent_mc.vi viene inizializzato due volte: nella InitHWICM e nel frame di init della DDDCtrl. Questo non crea alcun problema perchè la modalità "init" del VI non fa altro che recuperare il mcConnectionID dalla globale e quindi non interferisce con le altre istanze del VI che eventualmente stanno già girando in modalità "run".
Data: 25/04/2020
Oggetto: modificato file di configurazione del DUMPER /u2/dcs/prefs/DMP/serverConfigFile.conf
ID: 20200425.1
Autore: A.S.
Descrizione:
Nel file serverConfigFile.conf, gli elementi DCTEL001 e DCTPS001 sono stati cambiati con DCTEL002 e DCTPS002 per far pervenire sul file fast.stat i dati relativi al nuovo DEVIL eth che controlla i nuovi DCT Ethernet Agilent dei monitor di corrente degli anelli.
Data: 26/02/2020
Oggetto: modificato file di configurazione del DUMPER /u2/dcs/prefs/DMP/serverConfigFile.conf
ID: 20200226.1
Autore: A.S.
Descrizione:
Nel file serverConfigFile.conf, l'elemento RDS42001 è stato cambiato in RDS42002 per far pervenire sul file fast.stat i dati relativi al nuovo DEVIL eth che controlla il generatore di frequenza.
Data: 21/01/2020
Oggetto: Cambio permessi su shares NFS
ID: 20200121.1
Autore: P.C.
Descrizione:
Sono stati cambiati i permessi sulle shares NFS da gruppo wheel a gruppo dcs (presente su tutti gli host: target solaris, vmic, macchine virtuali, sun ray server e server con servizi).
Monitorare come va il sistema di controllo.
Data: 20/01/2020
Oggetto: Sostituzione dafneswitch con moxa in sala strumentazione per seriali target solaris
ID: 20200120.1
Autore: P.C.
Descrizione:
Visto che ogni volta c’era un problema di accesso al dafneswitch via rete, si è deciso di sostituire il CMS con un moxa da 8 porte in sala strumentazione. Il moxa è stato configurato sul NUC in sala controllo (dove gira caronte) ed è stata creata la pagina wiki per illustrare come connettersi alle force:
http://wiki.infn.it/strutture/lnf/da/dafne/sistema_di_controllo/sviluppatori/forceconsole
NOTE Hardware: Sono stati realizzati dei cavetti da RJ45 a RS-232 con RX e TX invertiti (per parlare con le force). Sono connessi sulle porte 3-7 del moxa in questione ed hanno sopra di loro una scritta con pennarello ROSSO. Solo uno di questi connettori, connesso alla porta 2, ha una scritta di colore BLU (Moxa RS232): questo non inverte i segnali di RX e TX (è dritto). Difatti è connesso con un secondo cavetto che converte una DB9 ad una DB25 ed inverte RX e TX, ed è connesso alla dante002.
Data: 09/10/2019
Oggetto: Connettore seriale su DHRTT001 sembra inaffidabile
ID: 20191009.1
Autore: P.C.
Descrizione:
Viene segnalato che il connettore seriale del cavo che arriva al DHRTT001 (Sala Modulatori) è lento e provoca falsi contatti. Valutare se da sostituire o comunque da tenere d’occhio.
Data: 27/09/2019
Oggetto: VNC display del DEVIL675 nero e DEVIL dead
ID: 20190927.1
Autore: A.S.
Descrizione:
DEVIL 675 - Virtual machine 032 - VNC display 75
- kill -9 <PID dell'XVnc del DEVIL675>
- restart del DEVIL675
Si riportano a seguito i comandi utili per una diagnosi (da eseguire sulla vm interessata):
$ more /home/dafne/.vnc/vldantedev032:75.log
$ ls -l /tmp/.X11-unix il display X75 non compare
$ vncserver -list il display :75 non compare
$ ps -fe | grep labview il LabVIEW con -display vldantedev032:75 non compare
$ ps -fe | grep Xvnc il processo XVnc :75 e DEVIL675 compare!
Data: 17/07/2019
Oggetto: Modifica script per avvio/reset VNC per devil serie 7
ID: 20190717.1
Autore: P.C.
Descrizione:
Per abilitare l’utilizzo dei devil serie 7, si è resa necessaria la modifica degli script per il calcolo del display VNC. Sono stati modificati i seguenti files:
- /u2/dcs/script_linux/devil_mngr.sh per aggiungere il parametro -name DEVIL$devil_number all'avvio del display VNC; Così facendo, la finestra VNC mostra il nome del devil e lanciando il comando ps -fe | grep Xvnc si possono vedere quali devil girano su quali display;
- /var/www/html/devil_manager/index.php su danteweb per calcolare il display VNC come resto della divisione intera per 100 del numero del devil (così funziona anche per i devil della serie 7, 8, etc.)
NOTA: Ci sono altri controlli sul numero del devil: ad oggi vengono accettati devil della serie 6 e 7! Nel caso si volessero aggiungere altre serie di devil, riaprire lo script /u2/dcs/script_linux/devil_mngr.sh ed aggiungere le nuove serie nei controlli sul numero del devil;
Data: 03/04/2019
Oggetto: configurazione porte switches vLAN Apple
ID: 20190403.3
Autore: A.S.
Descrizione:
Le porte degli switches dove sono connessi tutti i devils Apple non avevano più la configurazione per: 10 Mbps, no autonegotiation, half-duplex. Pensiamo che questo possa essere la causa del problema di perdita di connessione dei devils Apple e di Caron (AKA Console100) dal server Bible che stiamo sperimentando ultimamente (forse da quando Spigone ha riconfigurato gli switches del controllo).
Richiesta riconfigurazione delle porte degli switches che sono configurati per avere dei devil connessi su di loro:
SWDAFNE4B Porte 11-16
SWDAFNE2C Porta 48
SWDAFNE1 Porta 44
SWALIMDAFNE Porte 7-12
SWMACC Porte 7-10
SWMOD1 Porte 7-10
SWBTF Porte 9-10
Data: 03/04/2019
Oggetto: Problema riavvio CPU force e DAFNE dovute a server NFS krunc spento
ID: 20190403.2
Autore: P.C.
Descrizione:
Dopo un blackout, le FORCE non ripartivano. Rimanevano bloccate con il messaggio di errore:
Setting default IPv4 interface for multicast:add net 224.0/4: gateway dante00[2-7]
Il problema era dovuto al fatto che nel file /etc/vfstab dei vari target veniva montato il seguente path via NFS:
krunc:/runcond/slow/global /u2/kloe
ed il server krunc non è più raggiungibile (KLOE Spento). Di conseguenza la sequenza di boot si fermava in attesa della risorsa NFS.
Commentando quella riga, le force sono ripartite senza problemi.
Per sicurezza, anche sul server DAFNE le righe relative ai mount dei folder da kloe sono state commentate ed è stato effettuato un umount delle stesse:
krunc:/runcond/slow/global /kloe
krunc:/runcond/slow/curr/stat /kloenano
krunc:/runcond/slow/trg /kloelumi
NOTA: Mentre si debuggava l’errore del boot, abbiamo notato un messaggio di errore nella configurazione della porta ethernet dei target. Si è provveduto a modificare i files di configurazione dei target come riportato nella tabella seguente (nel file della prima scheda era presente solo il nome del target, mentre ci doveva essere l’IP seguito dalla netmask). Ora i target si avviano senza messaggi di errore per quanto riguarda la parte ethernet.
Target 2 ed 8 | Target 3, 4, 5, 6 e 7 |
Modificato file /etc/hosts per definire tutti gli ip dei target e di loghost come dante002 | |
Modificato file /etc/hostname.hme0 | Modificato file /etc/hostname.eri0 |
Rinominato file /etc/hostname.fciprb1 in /etc/ORIG.hostname.fciprb1 | Rinominato file /etc/hostname.frcgei1 in /etc/ORIG.hostname.frcgei1 |
Data: 03/04/2019
Oggetto: Lextel 23 spenta
ID: 20190403.1
Autore: A.S.
Descrizione:
In uno dei crate VME di livello 2, è presente la Lextel 23 spenta. Questa era utilizzata dall'ex devil Apple 361 che gestiva le flags. Adesso le Flags sono gestite dal DEVIL661 che gira su VMIC. La Lextel è una ottica "pura" e quindi non da problemi di rumore se la compagna a livello 3 è spenta e non manda il carrier. Si può togliere.
Data: 26/03/2019
Oggetto: QUATM002, QUATM003 intervento definitivo per ripetuti problemi di fuori comunicazione
ID: 20190326.1
Autore: A.S.
Descrizione:
Riguardo la problematica del 10/04/2017 e del 12/11/2015 descritta nel ticket ID: 20151112.1
Si sostituisce il monchino+DB9 sulla porta 5 dl MOXA .40
Si testa muovendo i connettori mentre si osserva sul posto il driver di comunicazione: connessione stabile.
Data: 19/03/2019
Oggetto: Modifiche DBFile per ripartenza marzo 2019
ID: 20190319.1
Autore: A.S.
DEVIL 646
rimossi quadrupoli skew QSKPL107, QSKPS100 e sostituiti con canali DUMMY011, DUMMY012 in bypass
Le altre back-leg erano messe in local su DBFile: rimesse in remote.
DEVIL 640
rimossi quadrupoli skew QSKES100, QSKEL107 e sostituiti con canali DUMMY010, DUMMY013 in bypass
Le altre back-leg erano messe in local su DBFile: rimesse in remote.
Create le directories
AAA_OLD_DEVIL640_20190311
AAA_OLD_DEVIL646_20190311
e copiatici dentro i DBFiles di prima della modifica
Rimossi da
/u2/dcs/space/uniDatabase/elementaryAreas/MRe/MRe_quadrupoles_skew.cnf
/u2/dcs/space/uniDatabase/saveAreas/MRe/MRe_quadrupoles_skew.cnf
/u2/dcs/space/uniDatabase/functionalAreas/MRe/MRe_quadrupoles_skew.cnf
QSKES100
QSKEL107
/u2/dcs/space/uniDatabase/elementaryAreas/MRp/MRp_quadrupoles_skew.cnf
/u2/dcs/space/uniDatabase/saveAreas/MRp/MRp_quadrupoles_skew.cnf
/u2/dcs/space/uniDatabase/functionalAreas/MRp/MRp_quadrupoles_skew.cnf
QSKPL107
QSKPS100
Nuovi correttori MRs
Rimossi DEVILs
636
637
643
645
Rimpiazzati da 664 e 665
Rimosse le seguenti Main Units
(nella finestra MRCorrectorsMainUnit, rimangono solo le due SIM che pilotano le back-legs)
SIMEL101, SIMES101, SIMES102, SIMPL201, SIMPS101, SIMEL201, SIMPL202, SIMPS201
DEVIL602
Create directory
AAA_OLD_DEVIL602_20190318
e copiatici dentro i DBFiles di prima della modifica
Modificati files DBSta e DBDyn: rimessi in linea QUAI1023 (Add 00) e QUAI1014 (Add 07).
Aggiunti QUAI1023 e QUAI1014 in
/u2/dcs/space/uniDatabase/elementaryAreas/IR/IR_quadrupoles.cnf
/u2/dcs/space/uniDatabase/functionalAreas/IR/IR_quadrupoles.cnf
/u2/dcs/space/uniDatabase/saveAreas/MRe/MRe_quadrupoles.cnf
/u2/dcs/space/uniDatabase/saveAreas/MRp/MRp_quadrupoles.cnf
DEVIL619
MRe
MRe_correctors_C_Lamb
Sostituiti questi nomi | Con questi |
CVVPL107 | CVVPI102 |
CVVPS100 | CVVPI101 |
CHHPL107 | CHHPI102 |
CHHPS100 | CHHPI101 |
Creata directory:
AAA_OLD_DEVIL619_20190319
e copiatici dentro i DBFiles dei DEVIL 619 di prima della modifica.
/u2/dcs/space/uniDatabase/elementaryAreas/ MRp/MRp_correctors_C_Lamb.cnf
/u2/dcs/space/uniDatabase/functionalAreas/MRp/MRp_correctors_C_Lamb.cnf
/u2/dcs/space/uniDatabase/saveAreas/MRp/MRp_correctors_C_Lamb.cnf
CDVPS101
CDVPS201
CDVPL101
CDVPL201
CDHPS101
CDHPS201
CDHPL101
CDHPL201
CVVPI201
CVVPI102
CVVPI202
CVVPI101
CHHPI201
CHHPI102
CHHPI202
CHHPI101
DEVIL618
MRe
MRe_correctors_C_Lamb
Sostituiti questi nomi | Con questi |
CVVES100 | CVVEI102 |
CVVEL107 | CVVEI101 |
CHHES100 | CHHEI102 |
CHHEL107 | CHHEI101 |
Creata directory:
AAA_OLD_DEVIL618_20190319
e copiatici dentro i DBFiles dei DEVIL 618 di prima della modifica.
/u2/dcs/space/uniDatabase/elementaryAreas/MRe/MRe_correctors_C_Lamb.cnf
/u2/dcs/space/uniDatabase/functionalAreas/MRe/MRe_correctors_C_Lamb.cnf
/u2/dcs/space/uniDatabase/saveAreas/MRe/MRe_correctors_C_Lamb.cnf
CDVES101
CDVES201
CDVEL101
CDVEL201
CDHES101
CDHES201
CDHEL101
CDHEL201
CVVEI201
CVVEI102
CVVEI202
CVVEI101
CHHEI201
CHHEI102
CHHEI202
CHHEI101
Data: 07/02/2019
Oggetto: Nuova versione finestra Odoscopio.vi (da 1.94 a 1.95)
ID: 20190207.1
Autore: P.C.
Descrizione:
A seguito di più ticket aperti dalla sala controllo si interviene per valutare il malfunzionamento della finestra.
Dopo attenta analisi, si è notato che la finestra - a fronte di un comando di set partendo dai MeV - inviava i comandi relativi ai due elementi sempre e solo al devil identificato dall’element index relativo all’elemento selezionato invece di discriminare in base all’elemento da controllare (con un devil che gestiva tutti e due gli elementi il problema non si poteva notare facilmente; da quando ci sono i due devil 682 e 683 però la finestra ha smesso di funzionare correttamente). Si è provveduto a sanare il bug ed a certificare il corretto funzionamento della nuova versione. In concomitanza di questo intervento, sono state richieste altre due modifiche: una con la sostituzione del selettore 100pC - 800pc inserendo un campo di testo libero (inserita con criterio insieme a Foggetta); una cambiando i calcoli fatti sui primi ed ultimi 4 “beam index” in quanto veniva divisa la carica sia dal devil che dalla finestra ed il grafico risultante non era corretto.
Resta da verificare la corretta calibrazione della finestra (calcolata su di una macchina a 500 MeV mentre ora è ben al di sopra per PADME) che si farà in seguito con Foggetta e Di Giulio.
Data: 22/01/2019
Oggetto: Installazione VIPM e modulo MODBUS su VMs del controllo
ID: 20190122.1
Autore: P.C.
Descrizione:
Si installa sulle seguenti VM il software VIPM ed il modulo MODBUS (tutte queste sono LabVIEW 2102 SP1) con i seguenti dettagli da segnalare:
Labview non partiva. Il reboot della VM si è bloccato con un kernel panic dovuto ad alcuni moduli labview; Dopo un Power Off e Power On della VM dall’interfaccia oVirt, tutto è tornato funzionante:
vldantedev023 (192.168.198.123) - vldantedev029 (192.168.198.129)
Labview non partiva. Dopo un reboot della VM tutto è tornato funzionante:
vldantedev027 (192.168.198.127) - vldantedev028 (192.168.198.128) - vldantedev032 (192.168.198.132)
Nessun Problema:
vldantedev015 (192.168.198.115) - vldantedev020 (192.168.198.120) - vldantedev021 (192.168.198.121)
vldantedev022 (192.168.198.122) - vldantedev024 (192.168.198.124) - vldantedev025 (192.168.198.125)
vldantedev026 (192.168.198.126) - vldantedev030 (192.168.198.130) - vldantedev031 (192.168.198.131)
vldantedev033 (192.168.198.133) - vldantedev034 (192.168.198.134) - vldantedev035 (192.168.198.135)
vldantedev036 (192.168.198.136) - vldantedev038 (192.168.198.138)
Su alcune macchine, aprendo labview 2012 SP1 da VIPM (utente root) appare un popup di errore, ma come utente dante non è successo. Restano le seguenti macchine senza VIPM:
LabVIEW 2010: vldantedev001 (192.168.198.101) - vldantedev014 (192.168.198.114)
LabVIEW 2012: vldantedev101 (192.168.198.150)
LabVIEW 2015: vldantedev701 (192.168.198.210) - vldantedev702 (192.168.198.211)
Data: 09/11/2018
Oggetto: QUATM002, QUATM003 fuori comunicazione
ID: 20181109.1
Autore: A.S.
Descrizione:
Si ripete la problematica del 10/04/2017 e del 12/11/2015 descritta nel ticket ID: 20151112.1
Si risolve sempre smanettando il monchino+DB9 sulla porta 5 dl MOXA .40
Si ri-confermana quindi la precarietà del "monchino" o del connettore del cavo seriale lato MOXA (falsi contatti o crimpatura difettosa). CONTROLLARE connettore e SOSTITUIRE monchino.
Data: 04/12/2017
Oggetto: file fast.stat generato dal DUMPER malformato
ID: 20171204.1
Autore: A.S.
Descrizione:
Il file fast.stat risultava malformato per errore nel descrittore di formato scritto nel file:
/u2/dcs/prefs/DMP/serverConfigFile.conf
Si veda rapporto completo su:
smb://nasda.lnf.infn.it/control/docs/2_purgatory/Dumper/dumper\ ConfigFile\ analisi.docx
Data: 25/05/2017
Oggetto: situazione installazione versione newOCEM_x.x alla data attuale
ID: 20170525.2
Autore: A.S., P.C.
Descrizione:
problema con seriali DEVIL642 su vldantedev032
Il devil gira velocissimo. Guardando sul MOXA si vede che le porte vengono prese dall'IP giusto ma non c'è traffico (neanche in trasmissione).
- si riavvia il DEVIL: Nessun miglioramento
- si riavvia il MOXA: Nessun miglioramento
- si riavvia la vm: Nessun miglioramento
- si passa da VISA a native: Nessun miglioramento
- si mette in run il DEVIL su un'altra vm (che ha lo stesso MOXA configurato): Nessun miglioramento
- si riavvia NUOVAMENTE la vm: OK
Dopo due riavvii ha funzionato tutto correttamente… restano i dubbi sul perché si sia comportato così, visto che sulla stessa macchina c’era in run un altro devil che andava sullo stesso MOXA e funzionava correttamente, sia prima che dopo i riavvii.
Data: 25/05/2017
Oggetto: situazione installazione versione newOCEM_x.x alla data attuale
ID: 20170525.1
Autore: A.S.
Descrizione:
La versione _newOCEM_3.2 richiede le seguenti configurazioni:
DEVIL6XX.DBSta:
timeouts = 10, 10, 400
serialType = 1 (native)
DEVIL6XX.pref:
idleTime = 100
Con il simbolo SW si indicano gli alimentatori che commutano durante lo switch di macchina.
Con il simbolo [!C] si indicano i DEVILs potenzialmente sostituibili con CU !CHAOS e DEVIL7XX
DEVIL | Elements | Version | Serial |
652 | DHRTT001 SW | newOcem_3.2 | native |
655 | DHSTT001 SW | newOcem_3.2 | native |
647 | QUATM001:QUATB101:QUATB102:QUATM004 | newOcem_3.2 | native |
650 | QUATB001:QUATT007 | newOcem_3.2 | native |
659 | QUATB002:QUATT008:QUATT009:QUATT010 | newOcem_3.2 | native |
672 | DHSTB001 | newOcem_3.2 | native |
683 | DHPTS001 SW | newOcem_3.2 | native |
682 | DHSTS001 SW | newOcem_3.2 | native |
696 | DHPTT002 SW | newOcem_3.2 | native |
697 | DVRTT001 SW | newOcem_3.2 | native |
695 | DVRTT002 SW | newOcem_3.2 | native |
692 [!C] | QUATM005 SW | newOcem_3.2 | native |
693 [!C] | QUATM007 SW | newOcem_3.2 | native |
694 [!C] | QUATM008 SW | newOcem_3.2 | native |
691 [!C] | QUATM009 SW | newOcem_3.2 | native |
626 | QUATR001:QUATR004:QUATR005 | newOcem_3.2 | native |
673 | QUATR002 SW | newOcem_3.2 | native |
674 | QUATR003 SW | newOcem_3.2 | native |
627 | QUATL001:QUATL002 | newOcem_3.2 | native |
675 | QUATL003 SW | newOcem_3.2 | native |
676 | QUATL004 SW | newOcem_3.2 | native |
678 | QUATL005 SW | newOcem_3.2 | native |
644 | DHPTT001 SW : DHPTT011 SW | newOcem_3.2 | native |
633 | DHRTE002:DHRTE003:DVRTE003:DVRTE004:QUATE005:QUATE006:QUATE003:QUATE004:QUATE007:QUATE008:QUATE009 | newOcem_3.2 | native |
635 | QSK (protocollo VSP) | newOcem_3.2 | native |
Data: 16/05/2017
Oggetto: fermata di maggio - fase 2 lavori cablaggio alimentatori OCEM
ID: 20170516.2
Autore: A.S.
Descrizione:
Power Supply | Sala | Note |
DHPTS001 | modulatori | ready |
DHSTS001 | modulatori | ready |
DHPTT002 | modulatori | ready |
DHRTT001 | modulatori | rimasto solo su catenella (già cablato singolo?) |
DHSTT001 | modulatori | (già cablato singolo?) |
DVRTT001 | modulatori | Messo cavo temporaneo Il cavo difettoso è quello del nuovo cablaggio singolo alimentatore. |
DVRTT002 | modulatori | Messo cavo temporaneo (due spezzoni in serie) su porta 5 del MOXA 192.30 per dipolo DVRTT002. Il cavo difettoso è quello del nuovo cablaggio singolo alimentatore |
QUATM005 | modulatori | ready |
QUATM007 | modulatori | ready |
QUATM008 | modulatori | ready |
QUATM009 | modulatori | ready |
QUATR003 | accumulatore (piattaforma) | cavo, connettori |
QUATR002 | accumulatore (piattaforma) | cavo, connettori |
QUATL005 | accumulatore (piattaforma) | cavo, connettori |
QUATL004 | accumulatore (piattaforma) | cavo, connettori |
QUATL003 | accumulatore (piattaforma) | cavo, connettori |
DHPTT001 - 011 | accumulatore (piattaforma) | ready |
Data: 16/05/2017
Oggetto: fermata di maggio - calendario
ID: 20170516.1
Autore: A.S.
Descrizione:
lun | 15 | sicurezze | controllo ON |
|
mar | 16 | sicurezze | controllo ON |
|
mer | 17 | sicurezze | controllo ON |
|
gio | 18 | 06:00 si fermano i turni | controllo OFF | da 09:00 |
ven | 19 |
| controllo OFF |
|
sab | 20 |
| controllo OFF |
|
dom | 21 |
| controllo OFF |
|
lun | 22 |
| controllo OFF |
|
mar | 23 |
| controllo OFF |
|
mer | 24 |
| controllo OFF |
|
gio | 25 | 06:00 ripartono i turni ??? | controllo OFF | sino a 18:00 - Poi inizio ON |
ven | 26 |
| controllo ON | da 12:00 DEVE essere ON |
sab | 27 | impianti ON - 12:00 warm-up | controllo ON |
|
dom | 28 | operazioni | controllo ON |
|
Data: 14/04/2017
Oggetto: Connessione difettosa alimentatore OCEM
ID: 20170414.1
Autore: A.S.
Descrizione:
Messo cavo temporaneo per dipolo DVRTT001. Lasciato monchino precedente.
Il cavo difettoso è quello del nuovo cablaggio singolo alimentatore.
Messi VI _newOCEM in DEVIL697. Nessun errore di comunicazione/protocollo nel periodo osservato (~ 30').
Modalità seriale: native
Data: 10/04/2017
Oggetto: connessione difettosa alimentatore OCEM
ID: 20170410.2
Autore: A.S.
Descrizione:
Messo cavo temporaneo (due spezzoni in serie) su porta 5 del MOXA 192.30 per dipolo DVRTT002.
Il cavo difettoso è quello del nuovo cablaggio singolo alimentatore.
Data: 10/04/2017
Oggetto: QUATM002, QUATM003 fuori comunicazione
ID: 20170410.1
Autore: A.S.
Descrizione:
Si ripete la problematica descritta nel ticket ID: 20151112.1
Si confermano quindi i dubbi sul "monchino" o sul connettore del cavo seriale lato MOXA (falsi contatti o crimpatura difettosa). SOSTITUIRE connettore e monchino.
Data: 21/03/2017
Oggetto: Nuovo cablaggio alimentatori in sala modulatori
ID: 20170321.1
Autore: A.S., P.C.
Descrizione:
Gli alimentatori da cablare a stella sono:
Devil | Elemento | Tipologia |
655 -> 696 | DHPTT002 | OCEM |
656 -> 697 | DVRTT001 | OCEM |
653 -> 695 | DVRTT002 | OCEM |
658 -> 692 | QUATM005 | OCEM |
658 -> 693 | QUATM007 | OCEM |
658 -> 694 | QUATM008 | OCEM |
650 -> 691 | QUATM009 | OCEM |
652 -> 682 | DHSTS001 | OCEM |
652 -> 683 | DHPTS001 | OCEM |
Compiti da svolgere:
ID | Task | Status |
1 | Installazione MOXA 8 porte (nport801 - 192.168.192.30) | Fatto |
2 | Assegnazione alimentatori a nuovi DEVILs (691-697, 682-683) | Fatto |
3 | Preparazione DBFiles nuovi DEVILs (NewChaosDafne) | Fatto |
4 | Modifica DBFiles DEVILs attuali (NewChaosDafne) | Fatto |
5 | Configurazione MOXA su VMs (vldantedev035-36) | Fatto |
6 | Configurazione VISA su VMs | Fatto |
7 | Modifica files di documentazione | Fatto |
8 | Preparazione monchini MOXA 422 RJ45 - DAFNE DB-9 maschio | Fatto |
9 | Pre-intestazione cavi DAFNE DB-9 femmina lato MOXA | Fatto |
10 | Stesura cavi | Fatto |
11 | Intestazione cavi lato alimentatori | Fatto |
12 | Preparazione datasets per la commutazione e/p dei PS | Fatto (A.S.) |
Cartella contenente i nuovi DBFiles:
/u2/dcs/db/DBFiles_3/CPU_LINUX_eth/NewChaosDafne
preCabling/DEVIL[6UV].DB[Dyn/Sta] -> DBFiles pre cablaggio (22/03/2017)
postCabling/DEVIL[6UV/6WX].DB[Dyn/Sta] -> DBFiles per uso DAFNE post cablaggio
postCabling/DEVIL[7YZ].DB[Dyn/Sta] -> DBFiles per uso CHAOS post cablaggio
Modifica seriali per devil:
DEVIL650 (vldantedev022)
OLD: SER15004 (QUATM009:QUATT007:QUATB001)
NEW: SER15004 (QUATT007:QUATB001) (ASRL12::INSTR - /dev/ttyr0b) nport1601 (192.40) porta 12
DEVIL691 (vldantedev035)
NEW: SER15007 (QUATM009) (ASRL1::INSTR - /dev/ttyr00) nport801 (192.30) porta 1
DEVIL658 (vldantedev015)
OLD: SER15005 (QUATM005:QUATT011:QUATM007:QUATM008)
NEW: SER15005 (QUATT011) (ASRL18::INSTR - /dev/ttyr11) nport403 (192.22) porta 2
DEVIL692 (vldantedev035)
NEW: SER15008 (QUATM005) (ASRL2::INSTR - /dev/ttyr01) nport801 (192.30) porta 2
DEVIL693 (vldantedev035)
NEW: SER15009 (QUATM007) (ASRL3::INSTR - /dev/ttyr02) nport801 (192.30) porta 3
DEVIL694 (vldantedev035)
NEW: SER15010 (QUATM008) (ASRL4::INSTR - /dev/ttyr03) nport801 (192.30) porta 4
DEVIL653 (vldantedev034)
OLD: SER23011 (DHRTP001:DHRTP002:DHRTE001:DVRTT002)
NEW: SER23011 (DHRTP001:DHRTP002:DHRTE001) (ASRL2::INSTR - /dev/ttyr01) nport1601 (192.40) porta 2
DEVIL695 (vldantedev036)
NEW: SER23017 (DVRTT002) (ASRL5::INSTR - /dev/ttyr04) nport801 (192.30) porta 5
DEVIL655 (vldantedev021)
OLD: SER23015 (DHSTB001:DHSTT001:DHPTT002)
NEW: SER23015 (DHSTB001:DHSTT001) (ASRL10::INSTR - /dev/ttyr09) nport1601 (192.40) porta 10
DEVIL696 (vldantedev036)
NEW: SER23018 (DHPTT002) (ASRL6::INSTR - /dev/ttyr05) nport801 (192.30) porta 6
DEVIL656 (vldantedev021)
OLD: SER23016 (DVRTT001:DVRTE002:DVRTE001)
NEW: SER23016 (DVRTE002:DVRTE001) (ASRL11::INSTR - /dev/ttyr0a) nport1601 (192.40) porta 11
DEVIL697 (vldantedev036)
NEW: SER23019 (DVRTT001) (ASRL7::INSTR - /dev/ttyr06) nport801 (192.30) porta 7
DEVIL652 (vldantedev021)
OLD: SER23010 (DHPTS001:DHSTS001:DHRTT001)
NEW: SER23010 (DHRTT001) (ASRL1::INSTR - /dev/ttyr00) nport1601 (192.40) porta 1
DEVIL682 (vldantedev021)
NEW: SER23008 (DHSTS001) (ASRL9::INSTR - /dev/ttyr08) nport1601 (192.40) porta 9
DEVIL683 (vldantedev036)
NEW: SER23009 (DHPTS001) (ASRL8::INSTR - /dev/ttyr07) nport801 (192.30) porta 8
Creato script eseguibile “switch_chaos_dafne.sh” dentro /u2/dcs/db/DBFiles_3/CPU_LINUX_eth/ che cambia le configurazioni tra chaos e dafne (sia come DBFile che come IPTable)
Data: 12/01/2017
Oggetto: sostituzione DEVIL361 con DEVIL661
ID: 20170112.1
Autore: A.S., F.G.
Descrizione:
Sostituzione DEVIL361 Apple/VME - Lextel 23 - Flags & GWO - Sala controllo BTF (vetrina) con VMIC dante063, DEVIL661, display 192.168.192.107:61
In caso di un eventuale roll-back, ripercorrere le azioni della seguente lista (ovviamente, facendo l'azione opposta):
- decommentato (come utente root) nel file /etc/rc.local della dante063 il rigo per il lancio del DEVIL661;
- disarmati DBFiles e mappe Apple del DEVIL361, spostandoli in /DBFiles_3/disarmed/;
- esposti DBFiles Linux in /DBFiles_3/CPU_LINUX_eth/;
- DEVIL361disconnesso dalla rete Ethernet 10-base2 ma lasciato sul bus;
- DEVIL361 commentato in /DBFiles_2/WorldMap.DBFile;
- DEVIL661 de-commentato in /DBFiles_2/IPTable.DBFile;
- nuova finestra delle Flags "combo" salvata come "Flags.vi" (quella Apple-VME è stata salvata come "Flags_1.0.vi";
- modificato typeDef "FL1HCIDyn" alterando l'ordine degli elementi dentro il cluster: nella finestra per Apple/VME l'ordine deve essere "sbagliato" come nella figura seguente.
Il TypeDef è stato modificato per la finestra "combo" ripristinando un ordine progressivo dall'alto vesro il basso); - finestra GWOMUX.vi rimossa da /pref/menu/itemsCtrl.tbl (file precedente salvato come itemsCtrl.tbl_20170111);
- aggiornata tabella html in "dafne/space/daq/www/home/info/" (come utente daq), commentando la table-row del vecchio DEVIL361 in modo che non compaia più nella tabella che si visualizza dal link "riavvio_livello_3.htm".
Prossimo step (dopo collaudo e uso senza problemi del nuovo sistema FATTO ): rimozione DEVIL Apple, lextel da livello 3 e 2, riconfigurazione del sysreset-VMICReset per funzionare come unico processore sul bus.
Data: 07/12/2016
Oggetto:
ID: 20161207.1
Autore: A.S.
Descrizione: Sostituzione MOXA 16 porte corretori skew e+ e- con 2 MOXA 8 porte.
Il Moxa 16 porte (montato come detto nel ticket 20161205.1), era quello rimosso recentemente per numerosi errori di comunicazione contemporanei su tutte le linee RS232 (come detto nel ticket 20161110.1).
E' stato rimpiazzato da due MOXA 8 porte (192.168.192.33 per QSK elettroni e 192.168.192.34 per QSK positroni). Aggiornato file di configurazione nella macchina virtuale e documentazione Excel.
Data: 05/12/2016
Oggetto: Rottura moxa 16 porte ( 192.168.190.46) corretori skew e+ e-
ID: 20161205.1
Autore: Olimpio Giacinti, Andrea Michelotti
Descrizione:
Devil 651 e 657 bloccati, entrati in sala Dafne, trovato moxa 16p spento 192.168.190.46 e non recuperabile, abbiamo sostituito HW con un moxa 16p 192.168.190.45 e rimpiazzata l’entry nel driver moxa.
Data: 10/11/2016
Oggetto:
ID: 20161110.1
Autore: A.S.
Descrizione: errori su QSK seriali RS232 (serialTimeout e invalidProtocol)
DEVIL651 seriali VISA
errori prodotti: serialTimeout
QSKEL
QSKES
DEVIL657 seriali native tty
errori prodotti: invalidProtocol (Catia dice che sui positroni ci sono più errori)
QSKPL
QSKPS
Classe: MG1
Protocollo: Probus
MOXA 192.168.190.46
16 porte RS232 (tutte usate per i QSK)
Dato che gli errori si verificano su tutti, il problema sembra essere sul MOXA o sul cavo o sullo SWITCH
Data: 24/10/2016
Oggetto:
ID: 20161024.2
Autore: A.S.
Descrizione: tune-up pref e DBFiles DEVIL618, DEVIL655, DEVIL652
DEVIL618
idleTime abbassato da 100 a 10
DEVIL652 alzate soglie di read sensitivity ed error per DHSTS001
currRead,0.009918,0.0,0.0,650.0,0.5 (era 0.1),1.0 (era 0.5)
DEVIL655 alzate soglie di read sensitivity ed error per DHPTT002
currRead,0.004273,0.0,0.0,280.0,0.5 (era 0.1),1.0 (era 0.5)
Data: 24/10/2016
Oggetto: Controllo magneti OCEM lento - DEVIL625
ID: 20161024.1
Autore: A.S.
Descrizione:
Si lamenta una lentezza del controllo per quanto riguarda gli alimentatori OCEM.
La lentezza è reale ed è riconducibile alla nuova modalità di "contextual check" introdotta sulla MG1Ctrl ad agosto.
Per testare una soluzione si è agito sperimentalmente sul DEVIL625.
Dopo opportuno test, le modifiche andranno propagate a tutti i DEVILs MG1-OCEM
Modifiche fatte:
- MG1Ctrl_multi_3.3 (sostituita a mano nella control625)
Modificata la richiesta esplicita di SL e COR ogni 10 giri (funzione denominata "slow poll"). La richiesta esplicita viene ora fatta:
- al primo giro di control per poter avere le informazioni necessarie ad aggiornare i readouts di stato logico, allarmi, polarità. La struttura originale che cadenzava l'evento di slow poll è stata modificata;
- ogni N giri di control per un solo elemento alla volta, con indice dell'elemento che ruota circolarmente
- idleTime=10 (era già così)
- DBFile prima
#SER18112
@HCI(S)[DI32,(DBL),A32S,DU32,DU32,A32S,DU32,DU32,(DBL):6]
0,SER18112,E02FF000,1024,100,E02FF800,1024,100,QUATT006:QUATT005:QUATT004:QUATT003:QUATT002:QUATT001
@GSC(S)[DU16,DI32,DU16,DU16,DU16,DU16,TF,TF,HU16,HU16,TF,TF,TF,TF,HU16,HU16,HU16,HU16,HU16,(DBL),A16M,HU32,HU32]
1,9600,8,0,0,1024,0,0,0,0,0,0,0,0,0,0,0,0,0,SerChan2,E3FF4000,64,2
DBFile dopo
#SER18112
@HCI(S)[DI32,(DBL),A32S,DU32,DU32,A32S,DU32,DU32,(DBL):6]
0,SER18112,E02FF000,1024,50,E02FF800,1024,50,QUATT006:QUATT005:QUATT004:QUATT003:QUATT002:QUATT001
@GSC(S)[DU16,DI32,DU16,DU16,DU16,DU16,TF,TF,HU16,HU16,TF,TF,TF,TF,HU16,HU16,HU16,HU16,HU16,(DBL),A16M,HU32,HU32]
1,9600,8,0,0,1024,0,0,0,0,0,0,0,0,0,0,0,0,0,SerChan2,E3FF4000,32,2
La situazione è migliorata apprezzabilmente anche se ,nel caso più comandi arrivino sullo stesso DEVIL, i contextual checks causano sempre un rallentamento della control.
Data: 14/09/2016
Oggetto: Problema con SCHES101_INT - non riesce ad andare in OPER
ID: 20160914.1
Autore: F.G.
Descrizione:
L’ asse dello scraper SCHES101_INT (1 solo asse) non riesce ad andare in OPER:
Il cassetto in oggetto e’ situato nel rack 084 in sala dafne, ed è configurato con 1 solo asse.
Si risolve collegandosi localmente con il drive Technosoft (mediante porta seriale); in questo caso
- e’ stato necessario fare un “Reset to Drive/Motor” per ripristinare l’errore riportato dalla flag “Invalid setup data” e successivamente...
- impostando una movimentazione locale, si e’ ripristinata la modalita’ “Axis On”, che si traduce in “Oper” a primo livello, altrimenti non risolta dalla procedura descritta al punto (1).
- Problema gia verificato in data 04/11/2014.
Data: 13/09/2016
Oggetto: Corruzione firmware NI-cDAQ-918X
ID: 20160913.1
Autore: R.G.
Descrizione:
I device NI-cDAQ-918X possono essere soggetti a corruzione del firmware. I sintomi evidenziati in questo caso sono: rispondeva al ping, non era raggiungibile da NI-MAX, self-test falliva, riavviando il led di status Yellow “blinca” per tre volte. Da manuale si evince firmware corrotto.
La procedura prevede di scaricare NI Network cDAQ Recovery Utility 1.4.0 - Windows 7 connettere il device direttamente ad un computer impostando la scheda di rete in DCHP, fa partire il programma e vedere se riconosce il dispositivo. Di fatto il device viene visto ma lanciando il tasto update il software si bloccava. Il work-around è stato impostare la scheda di rete del PC nello stesso network in cui è/era il cDAQ e impostare il gateway con l’ip associato al PC. Il Recovery Utility rivedere il cDAQ, funziona anche il PING verso il device e si riesce a concludere l’update del firmware di default ovvero 1.4. Da NI-MAX ora il device si vede e si può aggiornare con firmware più recente.
# NOTA: Non è mai stato eseguito hard-reset del cDAQ che in parte può spiegare il comportamento inusuale del device sulla rete
Data: 12/09/2016
Oggetto: Bug di Caronte
ID: 20160912.1
Autore: A:S.
Al momento dell'avvio di Caronten, nel caso di un DEVIL 3XX in Bus Error, quel DEVIL e tutti i successivi risultano in condizione di "dead" e non ne escono più.
Soluzione temporanea: riavviare Caronte con il VI di inizializzazione aperto e con breakpoint; Alla chiamata del VI di init, quando entra il breakpoint, fare RUN, togliere a mano l'errore in uscita e sganciare. Attenzione: il VI di init viene chiamato due volte e l'operazione deve essere fatta entrambe le volte. Poi rimuovere il breakpoint e richiudere tutto.
Da fissare!
Data: 06/09/2016
Oggetto: problema su migrazione VMs fra hosts con HW/performances diversi
ID: 20160906.1
Autore: R.G.
Descrizione:
Facendo prove di migrazione di VM da host più performanti tipo M620 verso M610, i devil time critical, ovvero quelli che usano drivers per la comunicazione con gli alimentatori, mostrano problemi di timeout sulla comunicazione con gli alimentatori stessi. La migrazione inversa (VM da M610 -> M620) non evidenza lo stesso problema. Di fatto il problema può essere associato a come la VM calcola il proprio tempo al primo bootstrap, ereditando variabile di sistema dall’host fisico. Host diversi impongo alle VM variabili di sistema diversi quindi tempi macchina diversi che possono influenzare il timeout imposti al devil. La possibile soluzione su cluster XEN non omogenei è avere l’emulazione del VCPU conforme con tutte le CPU oppure imporre al KERNEL della VM il ricalcolo del tempo a seguito di una migrazione.
Data: 31/08/2016
Oggetto: modifica DBFiles DEVILs 647 e 650
ID: 20160831.1
Autore: AS
Descrizione:
Avendo spezzato oggi le linee seriali dei DEVILs in oggetto (da 2 iniziali adesso sono 4), si sono conseguentemente frammentati i DBFiles relativi, introducendo due nuovi DEVILs: il 658 ed il 659.
Il 647 si frammenta in 647 e 658
Il 650 si frammenta in 650 e 659
I DBFiles originali dei 647 e 650 sono stati copiati in folder AAA_OLD_......
Attenzione: dato che i DEVILs 647 e 650 sono interessati dai cambi di configurazione per test in BTF con !CHAOS, i loro DBFiles sono in realtà dei links a files che si diversificano secondo la configurazione DAFNE oppure !CHAOS.
DEVIL647.DBDyn -> /u2/dcs/db/DBFiles_3/CPU_LINUX_eth/DafneChaos/DEVIL647.DBDyn.DAFNE (o .CHAOS)
DEVIL647.DBSta -> /u2/dcs/db/DBFiles_3/CPU_LINUX_eth/DafneChaos/DEVIL647.DBSta.DAFNE (o .CHAOS)
DEVIL650.DBDyn -> /u2/dcs/db/DBFiles_3/CPU_LINUX_eth/DafneChaos/DEVIL650.DBDyn.DAFNE (o .CHAOS)
DEVIL650.DBSta -> /u2/dcs/db/DBFiles_3/CPU_LINUX_eth/DafneChaos/DEVIL650.DBSta.DAFNE (o .CHAOS)
Dopo questa frammentazione, bisognerà rivedere i DBFiles ".CHAOS", essendo possibile che gli elementi interessati da quella configurazione siano adesso sotto i nuovi DEVILs 658 e 659. In ogni caso, le linee seriali sono state sdoppiate e quindi vanno rifatti.
Al momento quindi, i links NON DEVONO essere rediretti sui DBFiles ".CHAOS".
Data: 12/08/2016
Oggetto:
ID: 20160812.2
Autore:
Descrizione: Modificato il DEVIL_eth.vi
Documentazione dettagliata su nasda nel file /control/docs/3_hell/DEVIL_eth program/changelog DEVIL
Data: 12/08/2016
Oggetto:
ID: 20160812.1
Autore:
Descrizione: Modificate classi MG1, SER, SIP, VUG
Documentazione dettagliata su nasda nei files control/docs/0_classes/XXX/changelog XXX
Data: 29/06/2016
Oggetto: Sostituita vmic dante074 con dante055 (devil 622, kicker positroni)
ID: 20160629.1
Autore: PC, RG
Descrizione:
Il DEVIL622 viene segnalato come morto. Si riavvia la VMIC dante074 con il tappo da 50ohm in sala strumentazione ma non sortisce alcun effetto. Si entra in sala e la VMIC non da segni di vita se non nel led verde del POWER ON. Si sostituisce con la dante055 (batteria cambiata e BIOS riconfigurato) e si prepara sul server beatrix il file system della VMIC nuova per lanciare i devil al suo avvio. Modificato anche l’IPtable.DBFile per associare il DEVIL622 alla vmic dante055.
Data: 20/06/2016
Oggetto: problema GPIB-ENET/1000 kickers lato elettroni
ID: 20160620.1
Autore: AM
Descrizione:
Ancora problema sul GPIB-ENET/1000 collegato al ritardo dei kicker elettroni (DEVIL690).
Ping ok, DEVIL in run ma comandi non eseguiti.
GPIB Explorer NON testato.
Riavvio della vm 192.168.198.131: tutto ok, GPIB Explorer ok.
Data: 15/06/2016
Oggetto: problema GPIB-ENET/1000 kickers lato elettroni
ID: 20160615.1
Autore: AS, AM
Descrizione:
Identico problema sul GPIB-ENET/1000 collegato al ritardo dei kicker elettroni (DEVIL690) descritto al ticket ID: 20160314.1 .
IP dei 4 GPIB-ENET/1000:
* 192.168.191.31 (Kickers elettroni - sala DAFNE)
* 192.168.191.33 (Kickers positroni - sala DAFNE)
* 192.168.191.34 (sala Modulatori)
* 192.168.191.35 (Kickers accumulatore - sala alimentatori accumulatore)
Questa volta il dispositivo192.168.191.31 faceva con il led rosso 2 lampeggi lunghi e 8 brevi, quindi ERROR = 28 (the interface lost power).
Soluzione: spento e riacceso, led verdi, gpibexplorer = ok, devil = ok
WARNING: lo stesso malfunzionamento era avvenuto in aprile ma non è stato riportato nei tickets e quindi non sappiamo quale era il codice di errore segnalato.
WARNING 2: in questa posizione si sono già rotti 2 GPIB-ENET e l'ultimo sostituito ha avuto problemi 2 volte !!!
AGGIORNAMENTO: nell'ipotesi che il GPIB-ENET/1000 sia colpito da radiazione proveniente dalla TL e-, è stato spostato sopra il rack.
Data: 14/03/2016
Oggetto: Sostituzione GPIB-ENET/1000 kickers lato elettroni
ID: 20160314.1
Autore: P.C. / F.G.
Descrizione:
Il DEVIL690 risultava bloccato sull’initHW. E’ stato riavviato più volte ma la situazione non cambiava. E’ stata riavviata anche la macchina virtuale ma continuava a non funzionare. Si è deciso di andare a vedere i 4 GPIB controllati da quel devil ed è stato trovato quello in posizione kickers elettroni con l’errore 11 (firmware danneggiato). E’ stato quindi sostituito ed è stata avviata la pratica per l’invio in riparazione di quello rimosso. E’ già la seconda volta che un oggetto di questo tipo si rompe, sempre in quella posizione (se dovesse ripresentarsi lo stesso problema conviene anche sostituire l’alimentatore del GPIB-ENET e studiarne una nuova posizione nei limiti consentiti dal cavo GPIB).
Data: 09/11/2015
Oggetto: errore "local error" sul crate delle LEXTEL dell'orbita
ID: 20151109.1
Autore: A.S.
Descrizione:
Durante un ordinario riavvio di livello 2 per crash dell'orbita, esce la paginetta rossa di errore sulle 4 LEXTEL dei 4 DEVILs dell'orbita.
Si fanno vari tentativi di reset ma il risultato è sempre negativo. Si controllano tensioni etc. sui crates di livello 3 e 2 ma risultano a posto.
Si fa un riavvio delle FORCEs e si nota che danno un errore durante il boot (per spazio disco insufficiente).
Si vede che il file /var/adm/wtmpx (contenente il log delle login degli utenti) aveva riempito il file system dove c'è la /export/home (condivisa fra le FORCEs). Si svuota il file e si riavviano le FORCEs: ok.
Si fa un riavvio di livello 2: ok.
Test dell'orbita: ok.
Data: 19/11/2015
Oggetto: down del SunRay server
ID: 20151119.1
Autore: A.S.
Descrizione:
Alle 15:07 tutte le consoles perdono la connessione con il SunRay server (schermata grigia e finestra ORACLE di login con clessidra di connessione non funzionante). Mentre si analizza il problema (dopo 5 minuti circa), le sessioni tornano da sole, con tutte le finestre aperte e funzionanti come al momento della loro scomparsa.
Si analizza con Spigone la situazione e lo storico degli switches e delle porte interessate:
- la vlan 192.168.193.x è collegata all'interfaccia del server em2 -> swlat2 - porta 25
- la vlan 192.168.194.x è collegata all'interfaccia del server p1p2 -> swlat2 - porta 26
- l'uplink 10G di swlat2 -> swlat - modulo 2 - porta SFP #18
Risulta che non c'è stato alcun problema di rete/switches/porte.
Nei logs del SunRay Server si vede — dalle 15:07 alle 15:10 — un lungo elenco di richieste DHCP delle SunRays al server.
Pare quindi si sia trattato di un problema occorso al servizio stesso (risoltosi spontaneamente).
ATTENZIONE: manca sul Wiki la documentazione per riavvio del servizio da terminale. Creata una nuova pagina:
http://wiki.infn.it/strutture/lnf/da/dafne/sistema_di_controllo/sviluppatori/sunray_server
con informazioni di accesso al server e all'amministrazione web del servizio SunRay. Da completare.
ATTENZIONE 2: provando ad andare sulla pagina di amministrazione web del SunRay server con Chrome, si ottiene l'errore:
"Server has a weak ephemeral Diffie-Hellman public key" or ERR_SSL_WEAK_EPHEMERAL_DH_KEY
If you see this error, it means that a secure connection can't be established because of outdated security code on the website. Chrome protects your privacy by preventing you from connecting to these sites. You won't be able to visit this page using Chrome.
If you're a website administrator, we recommend you update your server to support ECDHE and disable DHE. If ECDHE is unavailable, you can instead disable all DHE cipher suites and rely on plain RSA.
Vedere se si può fare quanto indicato...
Data: 12/11/2015
Oggetto: QUATM002, QUATM003 fuori comunicazione
ID: 20151112.1
Autore: A.S.
Descrizione:
I due quadrupoli Danfysik SYS8800, QUATM002, QUATM003, controllati dal DEVIL649 sono in bad status.
Controllando il driver che fa la query, si vede che non rispondono.
Il DEVIL649 gira sulla vldantedev022
La linea seriale interessata è: SER15003, ASRL5::INSTR, MOXA .40 - porta 5
La linea è: porta 5 del MOXA -> QUATM002 -> QUATM003 -> DHRTB001 (in bypass e non usato) -> TERM
Riavvio della vldantedev022: il problema persiste.
Si controllano le connessioni (Stefano Martelli) della linea seriale: si stacca-riattacca il connettore RJ45 dal MOXA: ok, connessione ristabilita. Si lascia così ma attenzione, forse il "monchino" ha dei falsi contatti o la crimpatura difettosa. Appena possibile, provare a muoverlo per vedere se si ri-verifica il problema di comunicazione.
Data: 09/11/2015
Oggetto: procedura di sconfigurazione/riconfigurazione correttori CHV della BTF
ID: 20151105.1
Autore: A.S.
Descrizione:
come si disattiva/riattiva il controllo della Main unit: CITTB001 e dei suoi canali della BTF CHHTB001, CVVTB001, CHHTB002, CVVTB002 (gli altri 4 canali della Main Unit — CHHTE001, CVVTE001, CHHTE002, CVVTE002 — non sono più utilizzati).
Procedura di attivazione/disattivazione
Si può procede tramite script o manualmente, come descritto a seguito.
Con Script
Si usa la procedura:
/u2/dcs/script_linux/manageCHVTB.sh
La procedura deve essere eseguita come utente dante da una macchina che veda le directories:
/u2/dcs/space/uniDatabase/
/u2/dcs/db/DBFiles_3/CPU_LINUX_eth/
come per esempio una dante00X.
ATTENZIONE: la procedura deve essere eseguita dalla shell bash
La procedura presenta il seguente menù:
1) Disable TB correctors (Ovvero toglie i CHVTB dal controllo DANTE)
2) Enable TB correctors (Ovvero mette i CHVTB sotto il controllo DANTE)
3) Quit
Please enter your choice:
- Imettere l'opzione desiderata.
- A procedura conclusa, fare stop-run del DEVIL631, dei processi di servizio (Caron, ....etc...) sulla console di servizio e di tutte le consoles di lavoro.
Manualmente
Volendo operare manualmente, eseguire tutti i seguenti passi.
A livello 1
Bisogna predisporre il MagTerminal in modo da vedere/non vedere i suddetti correttori. Questo si fa modificando i files di configurazione .cnf presenti nella directory: /u2/dcs/space/uniDatabase/
I files di configurazione interessati sono nelle sub-directories: elementaryAreas, functionalAreas, customAreas.
Per mettersi nella condizione voluta, bisogna copiare il files relativi (già pronti) dalle sub-directories disarmed a quelle effettive, rimuovendo l'estensione .[with | without]CHVTB, in modo da sovrascrivere quelli al momento in esercizio.
ATTENZIONE: in un caso, la condizione "CHVs disabilitati" si risolve semplicemente con l'assenza del file .cnf ).
| elementaryAreas/TB/ | elementaryAreas/TB/disarmed/ |
CHVs disabilitati | no file | TB_correctors.cnf.withCHVTB no file (for without CHVTB) |
CHVs abilitati | TB_correctors.cnf |
| functionalAreas/TB/ | functionalAreas/TB/disarmed/ |
CHVs disabilitati | TB_AllMagnets.cnf TB_Magnets.cnf | TB_AllMagnets.cnf.withCHVTB TB_AllMagnets.cnf.withoutCHVTB |
CHVs abilitati | TB_AllMagnets.cnf TB_Magnets.cnf |
| customAreas/BTF/ | customAreas/BTF/disarmed/ |
CHVs disabilitati | magnets.cnf | magnets.cnf.withCHVTB magnets.cnf.withoutCHVTB |
CHVs abilitati | magnets.cnf |
A livello 3
La Main unit ed i suoi canali, sono controllati da:
DEVIL631
vldantedev025
SER40010
MOXA 192.168.192.40, port 16
subID2 = 0f
L'abilitazione/disabilitazione dei CHV si ottiene mettendo in esercizio i files DEVIL631.DBSta e DEVIL631.DBDyn adatti alla condizione voluta (CHVs disabilitati/abilitati) nella directory:
u2/dcs/db/DBFiles_3/CPU_LINUX_eth/
I files già pronti per le due condizioni sono nella sub-directory
.../CPU_LINUX_eth/AAA_OLD_DEVIL631_20151013/
CHVs abilitati | DEVIL631.DBDyn.withCHVTB.twoSerialLines DEVIL631.DBSta.withCHVTB.twoSerialLines |
CHVs disabilitati | DEVIL631.DBDyn.withoutCHVTB.twoSerialLines DEVIL631.DBSta.withoutCHVTB.twoSerialLines |
Bisogna quindi copiare i files voluti da .../CPU_LINUX_eth/AAA_OLD_DEVIL631_20151013/ a .../CPU_LINUX_eth/, rimuovendo l'estensione [.with | .without]CHVTB.twoSerialLines, in modo da sovrascrivere quelli attualmente in esercizio.
A livello di sistema
Fare stop-run del DEVIL631, dei processi di servizio (Caron, ....etc...) sulla console di servizio e di tutte le consoles di lavoro.
Data: 05/10/2015
Oggetto: Problema su MOXA 192.168.190.44
ID: 20151005.1
Autore: A.S.
Descrizione:
Il problema si ripete. Si fa controllare da Spigone la porta dello switch alla quale è collegato il MOXA e risulta che non compare neache il MAC address: il dispositivo è quindi rotto.
Si sostituisce. OK.
Data: 04/10/2015
Oggetto: Problema su MOXA 192.168.190.44
ID: 20151004.1
Autore: A.S.
Descrizione:
Da remoto si verifica che i due DEVILs 651 e 657, entrambi sulla macchina virtuale vldantedev028, girano lentissimi e quindi sono in condizione di "DEAD" con sporadici momenti di "ALIVE".
Il MOXA che gestisce le 16 linee serali RS232 utilizzate da questi due DEVILs è il 192.168.190.44 (situato in sala DAFNE - rack 068).
L'interfaccia WEB del MOXA non risponde e facendo ping, questo risponde con un roundtrip ~ 30 sec. .
Si fa resettare il MOXA (togliendo e rimettendo la spina e il tempo di ping torna regolare.
Si riavviano i DEVILs e il loop torna regolare.
Test di inoltro comandi e riletture = OK.
Data: 01/10/2015
Oggetto: Installazione VMIC dante068 in tower VME Sala Strumentazione (42)
ID: 20151001.1
Autore: P.C.
Descrizione: Posizionato un tower VME in sala strumentazione (42) vicino al crate VME del luminometro ed installata e resa operativa la vmic dante068 (192.168.192.68) per sviluppo da parte di Antonio De Santis (da supervisionare per farlo sviluppare come utente dafne nella cartella /u2/dcs/source_testing).
Data: 30/09/2015
Oggetto: sviluppo drivers seriali “multi” ( VISA & native )
ID: 20150930.1
Autore: A. D’Uffizi, A.S.
DEVIL | VM | Elements | Protocol | drivers seriali e DB file attualmente in uso (1) | Codice in run | Note |
604 |
| SXP, QUA | SYS8X00 | VISA | originale | VISA testato native testato |
635 |
| OCT | VSP | VISA | originale | VISA testato native testato |
648 |
| QUATE, QUATP | E642 (2) | VISA | originale | VISA testato native testato |
01-08-2016 Ribattezzati top-level VIs “_multi” come “_eth” e re-linkate le classi MG1 e SER. Quindi da oggi il codice in run su TUTTI i DEVILs è il "_multi". | ||||||
DEVIL | VM | Elements | Protocol | DB file attualmente in uso (1) | Note | |
657 | .128 | QSKP | Probus | multi dal 22/12/2015 | VISA & native già testati precedentemente | |
647 | .115 | QUA | E642 | multi dal 08/08/2016 |
| |
650 | .122 | QUA | E642 | multi dal 08/08/2016 |
| |
658 | .115 | QUA | E642 | multi dal 01/09/2016 |
| |
659 | .125 | QUA | E642 | multi dal 01/09/2016 |
| |
628 | .122 | Acc, DHS, QUA | SYS8X00 E642 | multi by Paolo 21/09/2016 ripristinato temporaneamente DBFile VISA il 24/09 | SYS8X00: 38400,N,8,2 | |
648 | .122 | QUA | E642 | multi by Paolo 21/09/2016 |
| |
625 | .123 | QUA | E642 | multi dal 11/10/2016 |
|
(1) vedi paragrafo "Particolarità del DBFile nel caso MG1 - E642".
(2) BUG 01 - 22/10/2015: la serialConfigure, dopo i primi due elementi (subID2 = 8 e 9) rilascia tutti handlers uguali a 0. Il risultato è che da console, i comandi su un elemento viene eseguito anche su molti altri.
Forse è un caso ma subito dopo 8 e 9 cominciano gli hex A, B, E, F, C, D...
INOLTRE: dopo un po di debugging e un paio di stop/start, il DEVIL è crashato (come era successo durante lo sviluppo). BUG SOLVED
Note sui timeouts
Le nuove routines seriali "....._multi.vi" utilizzano 2 input di timeout:
- uno è quello che esisteva anche sulle routine VISA e che riguarda il timeout sull'operazione di lettura (serve ad assorbire eventuali frammentazioni della risposta proveniente dal dispositivo)
- l'altro (waitBeforeFirstRead [ms]) è un ritardo che la funzione di read osserva prima di accedere al buffer di input (serve ad assorbire eventuali latenze iniziali della risposta proveniente dal dispositivo)
Il valore assegnato al nuovo timeout waitBeforeFirstRead viene messo nel DBSta nel campo subID1 (prima inutilizzato).
!!! WARNING !!! il campo subID1 è interpretato come HEX e quindi il valore di timeout in millisecondi che viene scritto nel DBFile deve essere scritto come HEX.
Particolarità del DBFile nel caso MG1 - E642
Nel caso di un DBFile di classe MG1 - protocollo E642 (ovvero alimentatori OCEM), il file viene come nell'esempio seguente:
- i due timeout convenzionali (read e write), nel record HCI, sono 40 ms (tarati per OCEM) sia per VISA che per native;
- il campo genericSerialBoardType (0 = VISA, 1 = native), evidenziato in rosso nell'esempio;
- waitBeforeFirstRead, messo nella posizione di subID1 = 0x64 = 100 ms (tarato per OCEM)
WARNING (vedi ticket 20160906.1): waitBeforeFirstRead dovrebbe essere di 40 ms ma viene tenuto a 100 perchè se si migra a caldo una vm fra due hosts con diverse prestazioni, la durata dei tickcounts non è più reale (la taratura viene fatta a boot della vm (vedi p.es. il file /proc/cpuinfo). Questo è un problema di carattere generale e vale anche per altri parametri (p.es. cache, bogomips, etc...).
Caso native
#SER15002
@HCI(S)[DI32,(DBL),A32S,DU32,DU32,A32S,DU32,DU32,(DBL):6]
1,SER15002,E02FE000,1024,40,E02FE800,1024,40,QUATE001:QUATE002:QUATP001:QUATP002:QUATP003:QUATP004
@GSC(S)[DU16,DI32,DU16,DU16,DU16,DU16,TF,TF,HU16,HU16,TF,TF,TF,TF,HU16,HU16,HU16,HU16,HU16,(DBL),A16M,HU32,HU32]
1,9600,8,0,0,1024,0,0,0,0,0,0,0,0,0,0,0,0,0,SerChan2,E3FF4000,64,0C (subID1 indifferente nel caso VISA)
Particolarità del DBFile nel caso MG1 - Probus
Nel caso di un DBFile di classe MG1 - protocollo Probus (ovvero alimentatori per QSK), il file viene come nell'esempio seguente:
Caso VISA
#SER68001
@HCI(S)[DI32,(DBL),HU32,DU32,DU32,HU32,DU32,DU32,(DBL):1]
0,SER68001,E02FF000,1024,100,E02FF800,1024,100,QSKEL106
@GSC(S)[DU16,DI32,DU16,DU16,DU16,DU16,TF,TF,HU16,HU16,TF,TF,TF,TF,HU16,HU16,HU16,HU16,HU16,(DBL),HU32,HU32,HU32]
0,9600,8,0,0,1024,0,0,0,0,0,0,0,0,0,0,0,0,0,SerCh001,E3FF4000,0,5 (subID1 indifferente nel caso VISA)
Caso native
#SER68001
@HCI(S)[DI32,(DBL),HU32,DU32,DU32,HU32,DU32,DU32,(DBL):1]
0,SER68001,E02FF000,1024,50,E02FF800,1024,50,QSKPS101
@GSC(S)[DU16,DI32,DU16,DU16,DU16,DU16,TF,TF,HU16,HU16,TF,TF,TF,TF,HU16,HU16,HU16,HU16,HU16,(DBL),HU32,HU32,HU32]
1,9600,8,0,0,1024,0,0,0,0,0,0,0,0,0,0,0,0,0,SerCh001,E3FF4000,50,5 (subID1 = 50 nel caso native)
Data: 18/05/2015
Oggetto: messa in produzione la switchDAFNE_COMBO.vi ver 3.3
ID: 20150518.1
Autore: A.S. & P.C.
Descrizione:
Dopo un week-end di utilizzo senza problemi, è stata messa in produzione la versione 3.3, build 20150511-1540 del programma switchDAFNE_COMBO.vi.
La versione che è stata in run sino ad oggi è la 3.22, build 20141201-1433
Data: 23/03/2015
Oggetto: Ripristino linea seriale BTF (post Test CHAOS)
ID:20150323
Autore: F.G., P.C.
Descrizione: Ripristinata linea seriale BTF (Test CHAOS -> Dafne); trovati connettori seriali con torrette lente (girano a vuoto le femmine) e non tutte le viti prendono nel modo corretto, determinando un’inaffidabilita’ e stabilita’ del connettore stesso (suggerisco di fare spezzoni di adattamento con viti lunghe per corretto serraggio e affidabilita’ della connessione).
ATTENZIONE: Etichettatura, relativa alla vecchia linea seriale dipolo BTF, insufficiente (potrebbe indurre in errore).
Data: 17/03/2015
Oggetto: Ripetute perdite di connessione con sistemi CompactDAQ della RF
ID:20150317
Autore: A.S., R.G.
Our setup (see fig. 1) consists of three CompactDAQ crates connected to a dedicated VLan and controlled by a LabVIEW 2012 program running on a Windows computer, which is connected to the same VLan.
Fig. 1 - CompactDAQ crates connection layout
With this setup, we are suffering frequent connection drops between the Windows computer and the CompactDAQ modules (random disconnections of one or more modules installed into one or more crates). When this happens, we have to:
- stop the LabVIEW program
- recover the lost connection/s with MAX start the LabVIEW program again
At first, we deeply checked the network health and performance and it turned out to be ok.
Then — looking at our Nagios monitoring system — we looked for any correlation between the disconnection events and the Windows machine parameters logged by Nagios and we found a strict and repetitive concurrence between the connection drops and the Windows system time synchronisation events.
Fig. 2 - Plot of the Windows System Time Offset (respect to our ntp server) from the Nagios monitoring system
Looking at the Nagios “system time offset” plot (see fig. 2), three different regimes can be identified:
Until the 5th day of week 09
The synchronisation period is set to 24 hours.
The System Time drifts of few seconds per day (respect to the ntp server ) and then it re-synchronises. We didn’t experience connection drops in this condition;From the 5th day of week 09 up to the mid 6th day of week 11
The synchronisation period is set to 1 week.
The System Time drifts of about 30 s per week and then it re-syncs. We had two connection drops in correspondence of the two big re-syncs;From the mid 6th day of week 11 onwards
The synchronisation period is set to 1 hour.
The System Time doesn’t significantly drift. We didn’t experience connection drops in this condition.
We guess that something happens about the CompactDAQ connection management when contiguous TCP/IP packets have their timestamps mixed up due to the sharp time reset.
Data: 27/01/2015
Oggetto: Finestra dell’orbita in OVERSAMPLING senza nessun dato e DEVIL366 fuori comunicazione
ID: 20150127.1
Autore: P.C., F.G., G.B.
Descrizione: Segue il post ID: 20150126.1
L’orbit monitor non visualizza nessun dato e risulta sempre in oversampling, mentre il DEVIL366 risulta di nuovo fuori comunicazione. Si effettua una rapida per accedere e si trova il DEVIL366 senza comunicazione di rete, mentre la porta 48 dello switch SWDAFNE2B risulta ok. Si stacca e si riattacca il cavo di rete, si riavvia il devil e riparte correttamente. Effettuato quindi il riavvio di secondo livello, la finestra dell’orbita resta in oversampling senza visualizzare alcun dato. Si prova a diagnosticare il DEVIL204 e si nota un errore del tipo “invalid0” nella finestra readOrbit1.5.vi (c’e’ una cin chiamata readOrbit1.5.c).
Alla fine risulta un problema di collegamento seriale del devil366 (il cavo era lento, spingendolo e riavviando il sistema dell’orbita tutto e’ tornato a funzionare).
Data: 26/01/2015
Oggetto: DEVIL366 fuori comunicazione
ID: 20150126.1
Autore: P.C., O.G.
Descrizione: Segue il post ID: 20150116.1
A seguito di un riavvio dell’orbita, ci si accorge che il DEVIL366 e’ fuori comunicazione. Dopo diagnosi con Spigone si trova la porta 48 dello switch SWDAFNE2B in error disabled con una failure di tipo “hardware” e non di protocollo. Di conseguenza si sostituisce l’allied telesis connesso al DEVIL366 con l’ex allied del DEVIL351 e riavviando l’orbita tutto sembra partire correttamente (finestre dell’orbita non aperte).
Il convertitore rimosso è stato etichettato e lasciato sul tavolo della SunRay in sala LAT.
Continua con il post ID: 20150127.1
Data: 18/01/2015
Oggetto: VNC del DEVIL603
ID: 20150118.1
Autore: A.S.
Descrizione:
A seguito del riavvio del DEVIL603 (vedi ticket precedente), sul suo VNC compare una dialog box che allego in figura:
Data: 16/01/2015
Oggetto:
ID: 20150116.2
Autore: A.S.
Descrizione:
In serata di venerdi, si notano numerosi problemi con i drivers seriali di molte macchine virtuali. Si nota un notevole incremento della frequenza di accesso ai Serial Servers MOXA e continui "hang" dei drivers che li effettuano. Questo potrebbe essere imputato alle mutate condizioni stabilitesi con il nuovo link a 10 Gbps. Seguendo questa ipotesi, si fanno le stesse modifiche fatte in precedenza sui CHN-COR Caenels, ovvero si introducono dei ritardi (1 ms) nei loops delle routines CTRL delle classi CHN e COR e si allunga l'idleTime (10 ms -> 100 ms) dei main loops dei DEVIL 641 e 619. Si riavviano le vldantedev008, 009, 012, 013.
AGGIORNAMENTO 18/01/2015
Stesso problema sui DEVILs 628 e 649
si allunga l'idleTime (10 ms -> 100 ms) dei DEVILs 628 e 649
e si riavvia la vldantedev022
Stesso problema sul DEVIL602
si allunga l'idleTime (10 ms -> 100 ms) dei DEVILs 602, 603,604, 605, 606, 607,608, 649
e si riavvia la vldantedev010
Data: 16/01/2015
Oggetto: DEVIL366 (orbita)
ID: 20150116.1
Autore: A.S., G.B.
Descrizione: Segue il post ID: 20141130.1
Essendosi ripetuto l'evento di perdita del collegamento Ethernet del DEVIL366 (vedi tickets precedenti), si procede al rimpiazzo del collegamento ETH (con lungo cavo 10-base2 dal DEVIL366 al cestello Allied posizionato sul rack 064) con un collegamento corto e un modulino Allied dedicato, collegandosi direttamente a swdafne2B (nel rack 069 adiacente al DEVIL366).
Continua con il post ID: 20150126.1
Data: 18/12/2014
Oggetto: DEVIL680 "error on sending command"
ID: 20141218.1
Autore: A.S.
Descrizione:
A seguire ticket precedente 20141212.2: si ripete il problema dell'andamento "a singhiozzo" e della saturazione della CPU. Inserisco delle wait da 1 ms nei FOR loops dei VIs:
- CORCtrl_CAEN.vi
- dbCoverter_CAEN.vi
- faulConverter(CHN)_CAEN.vi
- faulConverter(COR)_CAEN.vi
Documentazione modifiche fatte su:
smb://nasda/control/docs/Classes/CHN-COR/Modifiche Ctrl CAEN_LV12_18-12-14
Il run è ovviamente più lento ma il carico della CPU è tornato normale (CPU<50% con picchi saltuari ed isolati).
CONCLUSIONI: Monitorare il comportamento del 680, controllando che il system load e la CPU si mantengano su valori regolari.
Data: 12/12/2014
Oggetto: DEVIL680 "error on sending command"
ID: 20141212.2
Autore: A.S.
Descrizione:
PREMESSA: ieri Catia aveva riportato un ripetuto problema di "Error on sending command" sui correttori Skew degli anelli (Caenels).
ANALISI: Il DEVIL è il 680, sulla vldantedev015 con LabVIEW 2012-sp1-f5. A seguito di un controllo fatto ieri si evidenziava:
- frequenza di run del DEVIL680 eccessiva (~100 Hz);
- loop di run "a singhiozzo" (100Hz, pausa con clessidra, 100Hz, pausa con clessidra, ...) con un periodo di circa 1 secondo. Dalle risorse di sistema si vedeva lo stesso andamento sul traffico di rete e sull'impiego della CPU (nei picchi arrivava al 100%). Il system load era ~ 1.6 !
In queste condizioni è presumibile che l'invio di un comando in concomitanta di una fase "clessidra" & CPU al 100% & picco di rete potesse tradursi in un errore di invio del comando.
INTERVENTO: dopo il problema di rete, sfrutto l'occasione per analizzare il problema ma il DEVIL680 si comporta diversamente da ieri: la frequenza è sempre eccessiva (~100Hz) ma il loop non è più "a singhiozzo". Cambio "idleTime" nel file DEVIL680.pref, portandolo da 10 a 100 ms. Lancio il DEVIL e verifico: loop costante, freq. ~ 10 Hz, carico della CPU stabile al 50%, system load è ~ 0.2.
Faccio (per allineamento) lo stesso cambiamento anche sul file DEVIL680.pref dell'area di LabVIEW 2010.
Controllo la reattività da MagTerminal in questa nuova configurazione: è ok.
CONCLUSIONI: vedi ticket successivo 20141218.1
Data: 12/12/2014
Oggetto: problema generale di rete ethernet dei LNF
ID: 20141212.1
Autore: A.S., R.G.
Descrizione:
Nuovamente problema su uno di 2 core switches del Centro di Calcolo (CPU ~100%, anche il secondo core switch "si incasina" come l'altra volta).
Il problema si riperquote anche sulla nostra rete, con le seguenti conseguenze:
- DEVIL601 della RF perde la comunicazione con i CompactDAQ: ripristinata tramite Max.
- trovato sullo storage un errore di "connessione con il cluster persa": fatto acknowledge. Non risultano errori attivi via web. Il led ambra di errore sul pannello frontale è spento.
- tutti i DEVILs Apple avevano perso la comunicazione con Bible: riavviati.
- Force dante005 trovata a "prompt ok": mi collego tramite switch seriale e faccio "boot".
- file di preferences di LabVIEW 2010 (nelle home condivisa di dante delle vldantedevxxx) trovato resettato al default: ripristinato. Per il futuro, faccio due copie (LV10 e LV12) dei file di preferences.
Data: 04/12/2014
Oggetto: modifica serialWrite
ID: 20141204.1
Autore: A.S.
Descrizione:
Modificato e salvato il VI serialWrite, cambiando la modalità del driver VISA all'interno da asynchronous a synchronous. Fatta la stessa modifica su LV12 e LV12-sp1-f5.
Data: 30/11/2014
Oggetto: DEVIL631, modifica DBFiles
ID: 20141130.2
Autore: A.S.
Descrizione:
Sostituito su DBSta e DBDyn del DEVIL631 il canale correttore CHHTB004 con l'originale CHHTM004.
Modificati coerentemente i files di configurazione delle:
- elementaryAreas/TB
- functionalAreas/TB
RIMANE da rimettere l'elemento anche in tutti gli altri files di configurazione dei MagTerminal. Non l'ho fatto per paura di invalidare il salvataggio e la riapplicazione dei datasets di lavoro. CONTROLLARE...
Data: 30/11/2014
Oggetto: DEVIL366 (orbita)
ID: 20141130.1
Autore: A.S.
Descrizione: Segue il post ID: 20141122.1
Si manifesta nuovamente il problema del ticket sul DEVIL366.
Interviene Giampiero Di Pirro: spegne e riaccende il crate dei 4 Allied in sala DAFNE.
A questo punto sembra evidente che il problema sia dovuto o all'interfaccia di rete Ethernet del DEVIL o al cavo coassiale RG223 che collega il DEVIL all'Allied.
Rimane quindi da sostituire il DEVIL e spostare l'Allied
INOLTRE: controllare che il cavo ETH non sia in catenella con altri devils oramai dismessi (eventualmente controllare se ci sono T intermedie e/o tappi.
DA FARE APPENA POSSIBILE: configurare una porta dello switch vicino al 366 come statica sulla 196 e collegarci direttamente il DEVIL con un Allied.
Continua con il post ID: 20150116.1
Data: 28/11/2014
Oggetto: “Error sending command [...] a primo livello”
ID: 20141128.1
Autore: F.G., A.S.
Descrizione:
L’errore si presenta quando si tenta di inviare comandi ad elementi controllati da devil i cui servlet sono cresciuti a dismisura. Questo dovrebbe essere causato da un programma di primo livello che va individuato (probabile e’ il nuovo programma di correzione dell’orbita, visto che i devil coinvolti comandano solo correttori - da controllare).
I devil che hanno evidenziato il problema in oggetto sono:
636, 637, 643
NOTA: aggiornare il presente ticket dopo l’individuazione esatta del problema!
UPDATE 01/12/2014 by A.S.
Problema individuato.
PREMESSA: le connessioni TCP-DCS si chiudono quando si chiude il VI che le ha aperte. Se però un VI che apre una connessione TCP-DCS viene usato come Sub-VI, allora la connessione viene tenuta aperta dal main, anche quando il Sub-VI termina la sua esecuzione. Questo era un fatto noto e la chiusura esplicita veniva fatta chiamando il ConnectionManager con un empty array (di nomi di elementi) in ingresso.
BACO: la versione 2.1 del ConnectionManager ha un funzionamento diverso e la chiusura viene ottenuta mettento a TRUE il controllo "forceReopen". Per un errore, sia nel programma switchDHPTT001_combo_1.4 sia in quello che commuta la macchina (quadratini colorati), sia nel pretune, questo input non era cablato.
Testato prima della modifica: si conferma l'aumento del numero di servlet.
Testato dopo modifica: si verifica la soluzione del problema.
CONCLUSIONE: forse c'è ancora qualche Sub-VI che non chiude ma sicuramente, con questo intervento, si è risolto il 90% delle cause dell'aumento dei servlet. Sopratutto, questo dovrebbe aver risolto l'annoso problema del pulsato DHPTT001 che ogni tanto smetteva di commutare e guardacaso, bisognava chiudere e riaprire il VI di switch per farlo rifunzionare.
Allo shutdown di dicembre bisogna fare un controllo a tappeto.
Data: 22/11/2014
Oggetto: aggiornamento barra dante
ID: 20141122.2
Autore: A.S.
Descrizione:
Aggiornata la barra dante alla versione 6.0 che recupera da coda i comandi da loggare su MySQL. Il meccanismo precedente (che recupera tramite evento globale) è ancora in esercizio ma il suo impiego è deprecato.
Modificata la routine di switch (finestra con i quadratini colorati) in modo da utilizzare la coda dei comandi e non piu l'evento globale di log. Al momento, tutte le altre finestre utilizzano ancora l'evento di log.
Data: 22/11/2014
Oggetto: DEVIL366 (orbita)
ID: 20141122.1
Autore: A.S.
Descrizione:
sabato mattina: la sala controllo riporta stesso problema di qualche giorno fa sul DEVIL366: BusError, non esegue il bootstrap.
Da casa: faccio fare la manovra di distacco del cavo di rete fra il convertitore ETH Allied e lo switch. Non funziona.
Intervengo sul posto: boot da disco, controllo la rete e ho la conferma che il DEVIL non vede la rete.
Sostituisco il convertitore Allied con uno trovato in sala LAT. Tutto ok.
Il convertitore rimosso è stato etichettato e lasciato sul tavolo della SunRay in sala LAT.
Continua con il post ID: 20141130.1. Il convertitore rimosso non era la causa.
Data: 14/11/2014
Oggetto: istruzioni programma standalone dell’orbita Accumulatore
ID: 20141114.1
Autore: A.S.
Descrizione:
VMIC: dante067 (nella saletta a vetri in BTF)
VNC: 192.168.192.107:5967
Per collegarsi al display VNC dalle consoles in sala controllo, aprire un terminale e dare il comando:
vncviewer 192.168.192.107:5967 &
username (se richesto): dafne
password: dafnevnc
=========================================================
SOLO NEL CASO SUL DISPLAY VNC NON CI FOSSE LabVIEW APERTO
=========================================================
da un terminale qualsiasi:
> ssh dante@192.168.192.67
... fare la login come utente dante ...
> labview -display 192.168.192.107:67 &
> exit
... chiudere il terminale ...
... connettersi al display VNC come descritto sopra ...
=========================================================
Directory di salvataggio dei files dell'orbita: /u2/dcs/space/datafiles/ORA/
Formato file: 3 righe di floating (riga 1: ascisse, riga 2: proiezione X, riga 3: proiezione Y). Attenzione: le ascisse non sono in ordine crescente.
La versione utenti del programma è:
/u2/dcs/source_linux/0_classes/ORA/console/Accumulator_Orbit_Manual_Controller.vi
La corrispondente versione di sviluppo, è la più recente fra quelle con nome: Accumulator_Orbit_Manual_Controller_x.x.vi
Quando si aggiorna la versione di sviluppo, si DEVE procedere così:
- si ri-salva la versione di sviluppo come una versione successiva (p. es. Accumulator_Orbit_Manual_Controller_1.1.vi) e si aggiorna coerentemente la stringa in alto a destra sul pannello frontale (p.es. ver 1.1, build 20141114-1650)
- *
- si fanno le modifiche su questa nuova versione
- quando la release è pronta, si salva per gli utenti ANCHE con il nome "Accumulator_Orbit_Manual_Controller.vi" (sovrascrivendo il VI già esistente che — ovviamente — non deve essere aperto in quel momento).
Data: 04/11/2014
Oggetto: problematiche dopo blackout
ID: 20141104.1
Autore: A.S., F.G.
Descrizione:
GPIB/ENET, MOXA, CompactDAQ
Spegnere e riaccendere, reboot via WEB, riconfigurare con MAX
Le consoles Force non eseguono il boot:
i servizi sul cluster sono a posto ma le consoles non fanno il boot. Dopo vari tentativi, si riavvia lo switch Cisco Catalist al quale sono collegate (notare che lo switch è sotto UPS e in teoria non dovrebbe aver risentito del blackout). Le consoles partono immediatamente.
Lo switch delle seriali CMS-16 (192.168.192.210) non è raggiungibile:
In questo caso il problema era dovuto allo stesso motivo sopradescritto. Comunque, dopo uno spegnimento, il CMS-16 non è raggiungibile via rete. Bisogna collegare un terminale seriale alla System Setup Port nr. 1 e fare un “ping” su una qualsiasi macchina 192.168.192.xxx
Le riletture di posizione (dei counters) degli scrapers sono tutte incoerenti:
Si salvano le riletture degli encoders potenziometrici e poi si fa un homing su tutti gli assi.
L’ asse dello scraper SCHES101_INT (1 solo asse) non riesce ad andare in OPER:
Il cassetto in oggetto e’ situato nel rack 084 in sala dafne, ed è configurato con 1 solo asse.
Si risolve collegandosi localmente con il drive Technosoft (mediante porta seriale); in questo caso
- e’ stato necessario fare un “Reset to Drive/Motor” per ripristinare l’errore riportato dalla flag “Invalid setup data” e successivamente...
- impostando una movimentazione locale, si e’ ripristinata la modalita’ “Axis On”, che si traduce in “Oper” a primo livello, altrimenti non risolta dalla procedura descritta al punto (1).
Data: 18/08/2014
Oggetto: ticket riservato al report dei crash di LabVIEW, come da ticket ID: 20140808.1
ID: 20140818.1
Autore: F.G.
Descrizione: mettere tutti i reports sui crash/freeze delle sessioni LabVIEW sotto osservazione in questo ticket
UPDATE 18/08/2014 (F.G.)
Trovato Devil 680 DEAD; desktop VNC vuoto.
Devil non il lista test secondo ID: 20140808.1
Resettato.
UPDATE 25/08/2014 (A.S.)
Trovato Devil 641 DEAD; desktop VNC vuoto.
Devil non il lista test secondo ID: 20140808.1
Resettato.
UPDATE 01/09/2014 (A.S.)
Trovati Devil e 640 DEAD; desktop VNC vuoti.
Devil 640 non il lista test secondo ID: 20140808.1, Devil 623 in lista (prima occorrenza del test).
NOTA: il DEVIL 623 controlla i nuovi Kickers tramite gli ICP-DAS. Da un controllo effettuato più avanti (13/09), si trova la comunicazione TCP/IP costantemente in errore. Questo potrebbe essere il motivo dell'eccezione.
Resettati.
UPDATE 02/09/2014 (A.S.)
Trovato Devil 646 DEAD; desktop VNC vuoto.
Devil non il lista test secondo ID: 20140808.1
Resettato.
UPDATE 05/09/2014 (A.S.)
Trovato il display VNC del Devil 623 con le finestre LabVIEW bianche e congelate ma il devil e’ ancora ALIVE.
Devil 623 in lista (seconda occorrenza del test, sempre sullo stesso 623)
Resettato.
Da un controllo effettuato più avanti (13/09), si trova la comunicazione TCP/IP costantemente in errore. Questo potrebbe essere il motivo dell'eccezione.
UPDATE 10/09/2014 (A.S.)
Trovato del Devil 637 DEAD; desktop VNC vuoto.
Devil non il lista test secondo ID: 20140808.1
Resettato.
UPDATE 13/09/2014 (A.S.)
Trovato del Devil 635 DEAD; desktop VNC vuoto.
Devil non il lista test secondo ID: 20140808.1
Resettato.
UPDATE 16/09/2014 (F.G.)
Trovato Devil 680 DEAD; desktop VNC vuoto.
Devil non il lista test secondo ID: 20140808.1
Resettato (probabilmente da un operatore alle 9:00 c.a.).
UPDATE 16/09/2014 (F.G.)
Trovato Devil 623 DEAD; desktop VNC vuoto.
Devil 623 in lista test secondo ID: 20140808.1
Resettato.
(terza occorrenza del test, sempre sullo stesso 623 ????
La natura del crash e’ differente: solo 2 volte aveva il VNC vuoto, come pure il 680 ha avuto 2 occorenze di VNC vuoto!)
UPDATE 22/09/2014 (F.G.)
Trovato Devil 690 DEAD; desktop VNC vuoto.
Devil non il lista test secondo ID: 20140808.1
Resettato.
UPDATE 25/09/2014 (F.G.)
Trovato Devil 680 DEAD; desktop VNC vuoto.
Devil non il lista test secondo ID: 20140808.1
Resettato dal gruppo magneti ore 8:45 c.a., ma rimane il VNC vuoto ed il DEVIL e’ ALIVE.
UPDATE 30/09/2014 (F.G.)
Trovato Devil 623 DEAD; desktop VNC vuoto.
Devil 623 in lista test secondo ID: 20140808.1
Resettato 08/10/2014.
(quarta occorrenza del test)
UPDATE 08/10/2014 (A.S.)
Trovato Devil 680 DEAD; desktop VNC vuoto e DEVIL ALIVE!
Devil non il lista test secondo ID: 20140808.1
Resettato FAST: rimane il VNC vuoto ed il DEVIL ritorna ALIVE.
Resettato SLOW: tutto OK.
(terza occorrenza del test)
UPDATE 09/10/2014 (F.G.)
Trovato Devil 617 DEAD; desktop VNC vuoto.
Devil non il lista test secondo ID: 20140808.1
Resettato.
UPDATE 13/10/2014 (F.G. e P.C.)
Trovato Devil 657 DEAD; VNC frizzato. Labview OK devil ALIVE!!!!!
Devil non il lista test secondo ID: 20140808.1
Resettato.
UPDATE 17/10/2014 (P.C.)
Trovato Devil 680 DEAD; desktop VNC vuoto e DEVIL morto!
Devil non il lista test secondo ID: 20140808.1
Resettato SLOW.
UPDATE 17/10/2014 (A.S.)
Trovato Devil 615 DEAD; desktop VNC vuoto e DEVIL morto!
Devil non il lista test secondo ID: 20140808.1
Resettato SLOW.
UPDATE 28/10/2014 (P.C.)
Trovato Devil 629 DEAD; desktop VNC vuoto e DEVIL morto!
Devil non il lista test secondo ID: 20140808.1
Resettato SLOW.
UPDATE 10/11/2014 (P.C.)
Trovato Devil 621 DEAD; VMIC kickers elettroni bloccata!
Devil non il lista test secondo ID: 20140808.1
Resettata VMIC con BNC in sala strumentazione.
UPDATE 14/11/2014 (P.C.)
Trovato Devil 642 DEAD; desktop VNC vuoto e DEVIL morto!
Devil in lista test secondo ID: 20140808.1
Resettato SLOW.
UPDATE 21/11/2014 (P.C.)
Trovato Devil 642 DEAD; desktop VNC vuoto e DEVIL morto!
Devil in lista test secondo ID: 20140808.1
Resettato SLOW.
Data: 08/08/2014
Oggetto: test display VNC su danteweb
ID: 20140808.1
Autore: P.C., A.S.
Descrizione:
Per verificare se il problema dei crash saltuari dei DEVILs è dovuto al VNC server, sono stati riavviati a mano alcuni DEVILs che girano su macchine virtuali, indirizzando il display NON sul server della relativa macchina virtuale ma sul server VNC 192.168.192.107
La lista dei devils è:
603, 608, 610, 612, 623, 628, 631, 633, 636, 642, 654
I display VNC originali sono stati lasciati aperti per consentire il funzionamento dei bottoni “Reset Devil” sulla pagina WEB “Devil_Manager” che è temporaneamente stata rinominata come Devil_Manager_
Riportare ogni eventuale crash avvenuto su questi DEVILs nel prossimo ticket 20140818.1
Data: 26/03/2014
Oggetto: DEVIL 346 non carica DBFiles.
ID: 20140326.1
Autore: F.Galletti, P.Ciuffetti
Descrizione:
E’ la prima volta che si verifica un malfuzionamento relativo al caricamento dei DBFiles. Il sintomo che bisogna tenere in considerazione è che aprendo il Mag Terminal sul suddetto devil, si trovano tutti gli elementi controllati dal medesimo con tutte le flags contemporanemente accese (OFF-LINE, LOCAL, BAD COMUNICATION, ...)
Diagnosi: mettendo “Suspend when Called” sul VI che effettua il caricamento e il relativo riempimento delle globali del devil in oggetto, si è’ notato che la “loader346” veniva bypassata, e procedeva ad una inizializzazione di elementi il cui DB era vuoto.
Soluzione: la solita, reboot della CPU, ma direttamente da sistema operativo (NON dal tastino di riavvio)!!!!!
Data: 25/03/2014
Oggetto: Ritardi programmabili Stanford e tensioni kickers positroni fuori controllo
ID: 20140325.1
Autore: F.Galletti, G. Di Pirro
Descrizione:
Per il problema delle tensioni è bastato semplicemente resettare il DEVIL622 relativo al front-end kickers positroni sul cui bus è presente il DAC relativo che controlla le medesime.
Per i ritardi, dopo una serie di dignostiche riguardanti l’ENET National (convertitore ETH-GPIB) con l’aiuto di G. Di Pirro si è’ fatto girare il MAX National (su macchina windows del devil RF : DEVIL601). Attraverso questo software (che attualmente è disponibile per sola piattaforma windows) si è riusciti a comandare lo Stanford e quindi si è ritenuto opportuno riavviare la macchina virtuale (vldantedev003) che gestisce la risorsa VISA in questione, che - per ragioni non ancora ben chiare - ha perso il controllo della risorsa stessa.
Attenzione!!!! Il tool explorer, lanciato dalla vldantedev003, vedeva la risorsa VISA funzionare correttamente, mentre - utilizzando il devil - la command andava in errore!
Data: 23/08/2013
Oggetto: Test Lextel ex 48 (devil388) con sistema 3^livello emulato su tower
ID: 20130823.2
Autore: F.Galletti
Descrizione:
Questa lextel faceva ~20err su 10^6 accessi. Per mancanza di tempo non ho potuto completare il test di misura sul totale di accessi voluto (10^7), ma si ha una accettabile stima sul buon funzionamento della medesima che ha presentato 0 errori su 10^6 accessi.
Quindi, da quanto dedotto da ID: 20130823.1, sembra che la CES #2 induce mal funzionamenti sulle lextel LL48 e LL49. Ora bisognerebbe valutare quanto e’ accettabile la situzione fotografata al ID: 20130821.1.
Data: 23/08/2013
Oggetto: Test Lextel ex 49 (devil387) con sistema 3^livello emulato su tower
ID: 20130823.1
Autore: F.Galletti
Descrizione:
Questa lextel, montata a secondo livello faceva 132 errori con 10^6 accessi. Utilizzando il sistema di test su tower (in coppia con lextel ottica LL11 montata a secondo livello) sembra funzionare bene : 0 errori con 10^7 accessi.
Quindi il problema degli errori sul devil 387 sembrano essere dovuti o alla CES del cestello #2 (molto probabile) oppure a seguito di errori del 388 (poco probabile). Per escludere eventuali problemi della lextel ex LL48 (devil388) ed avere quindi la certezza di un mal funzionamento della CES sopracitata, si procede al test come per la ex LL49.
Data: 22/08/2013
Oggetto: Sostituzione LL48 (devil388) e LL49 (devil387)
ID: 20130821.1
Autore: A.Stecchi, F.Galletti
Descrizione:
A seguito dell’analisi fatta con il tool 3rd-SingleCPUHam_new.vi abbiamo individuato come critiche le lextel 49 e 48.
Dopo l’intervento di sostituzione abbiamo girato l’Hammer (3rd-LevelHamGraphnoTO#3vi) con il seguente risultato:
# Accessi Err. Err. Err.
totali 386 387 388
crate 6 2 2
--------------------------------------------------------
3*10^6 0 1 10
7*10^6 1 4 37
1*10^7 1 10 63
LL48 (devil388): situazione migliorata di un fattore 10
LL49 (devil387): situazione peggiorata di un fattore ~3
Necessita un test di qualita’ sulle lextel stoccate in magazzino per valutarne il loro effettivo impiego sul DCS.
Data: 20/08/2013
Oggetto: DEVIL385
ID: 20130820.2
Autore: F. Galletti
Descrizione:
Messa in linea del DEVIL in oggetto (rif.ID: 20130711.1). Sostituita batteria - (WorldmapMap.DBFile OK).
Data: 20/08/2013
Oggetto: DEVIL391
ID: 20130820.1
Autore: F. Galletti
Descrizione:
Spostato in prima posizione VME per funzionare da System Controller (con relativa riconfigurazione dei Jumper); aggiunta terminazione ethernet - Sostituita batteria - (WorldmapMap.DBFile OK).
Data: 19/8/2013
Oggetto: DEVIL312
ID: 20130819.1
Autore: F. Galletti
Descrizione:
Disinstallato e ridotta catenella ethernet. (WorldmapMap.DBFile OK).
Data: 11/07/2013
Oggetto: DEVIL 386 e 391 in Bus Error
ID: 20130711.1
Autore: P. Ciuffetti, O. Giacinti
Descrizione:
Questa mattina i devil 386 e 391 erano in bus error. Dopo riavvio dei devil e riavvio del secondo livello rimanevano in bus error. A secondo livello, i devil 386 e 391 afferiscono ad un unico cestello VME in cui ci sono le lextel LL32 (devil391 e devil312 stellato), LL46 (devil386) e LL31 (devil385 stellato). La LL31 aveva i monchini attaccati ma a terzo livello il cestello VME del devil385 e’ disalimentato (e l’alimentatore VME e’ in blocco). Abbiamo quindi provveduto a staccare i monchini a secondo livello della suddetta lextel ed eseguito un riavvio del secondo livello. I devil hanno ripreso a comunicare correttamente.
Ricordarsi che se il 385 deve essere rimesso on line, l’alimentatore va sostituito e la lextel va ricollegata.
Data: 10/07/2013
Oggetto: Sostituzione SFP su SWDAFNE1
ID: 20130710.1
Autore: P. Ciuffetti
Descrizione:
Schema connessioni SWDAFNE1:
SFP1 ←→ SWLAT SFP2 ←→ SWDAFNE2B SFP3 ←→ SWDAFNE3B SFP4 ←→ SWDAFNE4B
Nella notte tra il 03 ed il 04 luglio 2013 il canale di comunicazione in fibra tra SWDAFNE1 ed SWDAFNE3B ha smesso di funzionare. E’ stato sfilato e reinserito l’SFP relativo a quel canale sullo switch SWDAFNE1; cosi’ facendo il canale ha ripreso a funzionare correttamente.
Oggi, il canale ha di nuovo smesso di funzionare. E’ stata ripetuta la stessa procedura senza alcun successo. L’SFP sullo switch SWDAFNE3B emetteva luce, mentre quello su SWDAFNE1 no. E’ stato quindi sostituito l’SFP della porta 3 dello switch SWDAFNE1 e con quello nuovo il canale ha ripreso a funzionare correttamente. L’SFP che sembra rotto sara’ portato al centro di calcolo per una conferma del suo malfunzionamento.
Data: 16/04/2013
Oggetto: DEVIL612 e DEVIL610
ID: 20130416.2
Autore: A.S.
Descrizione:
Causa rottura disco nasda, i files:
- layoutETH_YYYYMMDD.xls
(con la configurazione degli switches ethernet e lista dei dispositivi connessi alle loro porte)
- Corrispondenze pannelli in fibra ottica YYYYMMDD.xls
(con le connessioni dei pannelli di distribuzione delle fibre ottiche)
Sono stati temporaneamente spostati su Alfresco
Data: 16/04/2013
Oggetto: DEVIL612 e DEVIL610
ID: 20130416.1
Autore: A.S.
Descrizione:
Configurato DEVIL612 su dante065 per controllo SIP DAFNE. Aggiunto MOXA 192.168.192.43.
Configurati conseguentemente: mxaddsrv, MOXA web, Excel file, visaconf, file di cablaggio seriali
ATTENZIONE: questa è una configurazione di prova per debugging del programma e delle finestre di primo livello: i DEVILs 610 e 612 andranno spostati dalla VMIC dante065 (in sala modulatori) su macchina virtuale.
Data: 01/04/2013
Oggetto: divisione linee seriali DEVIL634 (continuazione del ticket 20130301.1)
ID: 20130304.1
Autore: A.S.
Descrizione:
modificati DBFiles Sta & Dyn del DEVIL634 in modo da prevedere la divisione della linea seriale SER18112 (con 16 elementi) in SER18112 (6 elementi), SER18113 (5 elementi), SER18114 (5 elementi)
Configurati conseguentemente: mxaddsrv, MOXA web, Excel file, visaconf, file di cablaggio seriali
Data: 01/03/2013
Oggetto: divisione linee seriali DEVIL632 e DEVIL633
ID: 20130301.1
Autore: A.S., O.G.
Descrizione:
Modificati DBFiles Sta & Dyn del DEVIL632 in modo da prevedere la divisione della linea seriale SER15001 (con 15 elementi) in SER15001 (8 elementi) e SER15004 (7 elementi)
Configurati conseguentemente: mxaddsrv, MOXA web, Excel file, visaconf
Modificati DBFiles Sta & Dyn del DEVIL633 in modo da prevedere la divisione della linea seriale SER18003 (con 7 elementi) in SER18003 (4 elementi) e SER18004 (3 elementi)
Configurati conseguentemente: mxaddsrv, MOXA web, Excel file, visaconf
Data: 21/01/2013
Oggetto: Configurazione temporanea livello 2 per test Franco Iungo
ID: 20130121.2
Autore: Alessandro, Francesco
Descrizione:
Per consentire i lavori sugli alimentatori DANFYSIK, si è stellato tutto il WorldMap.DBFile tranne che per i DEVILs 342, 343, 345 (il 346 non funziona e manda in prot. il PS. È stato rimosso dal crate).
Si sono tolti i monchini twin-ax entranti sui connettori RX degli adattatori elettro-ottici a livello 2 di tutte le Lextel con led del carrier in ricezione spento.
Si sono etichettate tutte queste Lextel con nastro adesivo e numeri in rosso. Le altre Lextel con monchini staccati, devono restare così (erano già off-line per altri motivi).
Segue lista delle Lextel disconnesse per questa configurazione temporanea:
Rack 031
Crate 1: 04, 49, 48
Crate 2: 05, 14, 15
Crate 3: 28, 27, 29, 26
Rack 032
Crate 1: nessuna
Crate 2: 31
Crate 3: nessuna
Data: 21/01/2013
Oggetto: Rimozione DEVIL346
ID: 20130121.1
Autore: Francesco, Paolo
Descrizione:
Il DEVIL 346 (sala Macchine 8bis, Lextel 17) manda in protezione l'alimentatore del crate VME. Probabilmente è in corto. È stato rimosso e consegnato a Gianfranco per esame/sostituzione.
Data: 22/10/2012
Oggetto: Riavvio MOXA nport408 (192.168.192.27)
ID: 20121022.1
Autore: Paolo
Descrizione:
A seguito di problematiche non meglio specificate sulla linea di comunicazione inerenti l’elemento DHPTT001 controllato dal Devil644 (dante073), si e’ provveduto a stoppare il devil, riavviare il moxa in oggetto e riavviare il devil.
Con questa operazione, i problemi di comunicazione sono spariti.
Data: 21/09/2012
Oggetto: Acknowledge ticket vecchi
ID: 20120921.2
Autore: Paolo
Descrizione:
Dopo aver chiuso il ticket per questa notte (devil 690) ho provveduto a dare l’acknowledge a tutti i ticket vecchi rimasti aperti dal 2008 ad oggi.
Data: 21/09/2012
Oggetto: Riavvio devil 690 manualmente per 2 volte
ID: 20120921.1
Autore: Paolo
Descrizione:
Durante la notte del 20/09/2012 non e’ stato possibile utilizzare l’acceleratore (a parte fare conditioning) a causa del devil 690 (che gira sulla VMIC dante081 con disco) che era fermo. E’ stata riavviata la VMIC dagli operatori in turno ma - come purtroppo gia’ sappiamo - il devil su quella CPU non riparte in automatico. Questa mattina ho riavviato manualmente il devil ed e’ ripartito funzionando correttamente. Pianificare una risoluzione del problema del non riavvio automatico del devil al riavvio della CPU.
Data: 20/09/2012
Oggetto: Riavvio Moxa 4 porte (192.168.192.28) in saletta alimentatori accumulatore
ID: 20120920.1
Autore: Paolo, Olimpio
Descrizione:
Il Devil 639 (sulla VMIC dante051) si bloccava per piu’ minuti sull’elemento n. 3 della sua lista, facendosi vedere ‘morto’ dalle barre dante in sala controllo. Dopo vari tentativi di riavvio dello stesso senza risultati, si e’ provveduto a riavviare il moxa in oggetto da remoto. Appena ripartito il moxa, il devil ha ricominciato a funzionare correttamente. Pensare ad una soluzione alternativa per questo problema, anche perche’ non e’ la prima volta che quel moxa deve essere riavviato.
RICHIESTA DA FRANCO IUNGO: il devil 639 - tra le varie cose - controlla degli elementi SOL che andrebbero messi in BYPASS ogni volta che il devil viene riavviato. Ad oggi fa esattamente il contrario.
Data: 10/09/2012
Oggetto: configurazione nuova SunRay in Sala Controllo
ID: 20120910.1
Autore: Alessandro
Descrizione:
Su richiesta di Piermarini, ho configurato la SunRay usata sino ad oggi per visualizzare i segnali del LINAC, come effettiva console di lavoro (sulla dante003):
dante@dante100>>> more /u2/dcs/db/dante_controls/dante003_tasks ← FILE DI CONFIGURAZIONE
labview:/u2/dcs/source_solaris/1_paradise/mains/dante.vi:pseudo.0003ba2a4e70:dafne
labview:/u2/dcs/source_solaris/1_paradise/mains/dante.vi:pseudo.0003ba8ba219:dafne
labview:/u2/dcs/source_solaris/1_paradise/mains/dante.vi:pseudo.0003ba2a4e79:dafne ← NUOVO RIGO
La SunRay e’ quella con lo schermo sul ripiano in alto, sopra la console tipicamente utilizzata dagli operatori del LINAC.
Data: 01/08/2012
Oggetto: porting dei ritardi programmabili Sala Modulatori su DEVIL690
ID: 20120108.1
Autore: Alessandro/Paolo
Descrizione:
I tre ritardi programmabili Stanford DG535 presenti in Sala Modulatori sono stati trasferiti
dal DEVIL390 - LEXTEL 50 (Address FC)
al DEVIL690 - dante081 - GPIB-ENET/1000 IP 192.168.191.34
- il DEVIL Apple e' stato stellato sul WorlMap.DBFile (fatta copia di backup con data di oggi)
- i vecchi DBFiles e le mappe su Solaris, sono stati disarmati spostandoli nella cartella AAA_OLD_390
- i DBFiles del nuovo DEVIL690 sono stati aggiornati, aggiungendovi gli elementi che stavano sotto il 390
- la dante081 e' stata configurata con gpibexplorer e visaconf: GPIB3::13, GPIB3::14, GPIB3::15
ATTENZIONE: il DEVIL va in errore durante l'initHW sull'elemento con address 15. Da controllare.
Controllato: si tratta di una incongruenza dei settaggi contenuti nel file che si imposta con il controllo dettagliato DG535. Non e’ un errore HW ma una segnalazione dello stanford che dice di non poter eseguire il setup per incongruenza delle impostazioni.
Data: 09/07/2012
Oggetto: timeout su tutta la catenella seriale SER15001
ID: 20120709.1
Autore: Alessandro
Descrizione:
a seguito di errore di comunicazione su tutti gli elementi connessi alla catenella seriale MOXA 192.168.192.40 - porta 14 - SER15001 - devil 632 - dante075:
- si e’ verificato, guardando il driver della control, quali elementi erano in timeout
- si e’ consultato il file su TiCaCoDA (login: magneti, password: magneti) e si e’ visto che quegli elementi erano tutti e solo quelli sulla catenella SER15001.
Tentativi di soluzione:
- INIT della seriale: nessun effetto;
- reboot del MOXA: nessun effetto;
- “smanettati” i connettori del cavo seriale sulla basetta di Drago e sul primo quadrupolo QUATB102: OK RIPRENDE A FUNZIONARE.
Data: 20/06/2012
Oggetto: Console tutte nere in sala controllo
ID: 20120620.1
Autore: Paolo
Descrizione:
Il trouble ticket 3097 del 20/06/2012 alle ore 02:05 segnala lo spegnimento di tutte le console. Da un controllo del log file /var/adm/messages su dante100 si evidenzia il seguente errore:
Jun 20 02:03:59 dante100 SUNW,UltraSPARC-II: [ID 947839 kern.info] [AFT3] errID 0x0001f62e.a098c01b Above Error is due to Kernel access
Jun 20 02:03:59 dante100 to User space and is fatal: will reboot
Jun 20 02:03:59 dante100 unix: [ID 855177 kern.warning] WARNING: [AFT1] initiating reboot due to above error in pid 2419 (Xsun)
Questo problema si e' gia' verificato (vedi ID 20120504.1) ma — questa volta — non e' ripartito in automatico il servizio SunRay Server. Questo servizio e' stato riavviato manualmente la mattina del 20 (si rimanda alle istruzioni sul wiki).
Data: 16/06/2012
Oggetto: Modifiche finestre per messa in funzione nuovi Kickers e DG535
ID: 20120616.1
Autore: Alessandro
Descrizione:
ProtoDelay_b2.0_20120615.vi salvato come Delays.vi
Digital_Delay_DG535_combo_b1.1_20120615.vi salvato come Digital_Delay_DG535.vi
A_Kickers_KKR_b1.0_20120605.vi salvato come A_Kickers.vi
MR_Kickers_KKR_b1.0_20120601.vi salvato come MR_Kickers.vi
Aggiornato il file del menu itemsCtrl.tbl
WARNING: la fetch via VME del DDG funziona ma — se si tenta di salvare il VI che l'ha usata — LabVIEW va in crash Insane object at FPHP+E8 in "ProtoDelay_b2.0_20120615_muletto.vi": {dsitem } (0x400): Panel (FPSC)
Fatal Internal Error : "fpsane.cpp", line 319
Avviene solo se si fa una fetch da VME. Forse c'e' un disallineamento fra i typeDef su Bible e quelli su Solaris (i typeDef fra Solaris e Linux sono sicuramente allineati perche' sono stati ottenuti per copia diretta).
WARNING: rimosso temporaneamente il VI SaveDDGSettings.vi dal VI generateDatFile_combo_53.vi (chiamato da macroSave_combo.vi, chiamato da UNISaveDialog_Combo.vi).
- persa per errore copia originale del VI "saveDDGSettings.vi" (eventualmente recuperare da backup).
- iniziate le prime modifiche sul VI SaveDDGSettings_combo_in_progress.vi (ancora in progress...)
- fatte versione dummy (per evitare danni in eventuali chiamate ancora presenti) nella directory
0_classes/uni_mag/instrumentation/
dei VIs
saveDDGSettings.vi, saveKCKSettings.vi, restoreDDGSettings.vi, restoreKCKSettings.vi
Data: 11/06/2012
Oggetto: Migrazione classi KCK e DDG su VMIC
ID: 20120611
Autore: Alessandro
Descrizione:
Introdotto nuovo DEVIL690 per gestione ritardi Stanford DG535.
Rimossi DEVILs Apple 320, 321, 322 e sostituiti con VMICs. Controller GPIB da VME sostituiti con GPIB-ENET. Sostitutite scdede ADC TVM740 dei devil 320, 321, 322 con ADC OR VMIO22.
Per dettagli, consultare il file "Transizione nuovi KKR-DDG" al link:
https://docs.google.com/spreadsheet/ccc?key=0AgKEZj_sNtXOdEdNS1R2NmtOdEZWaUttTWwxOTRXVnc
Data: 22/05/2012
Oggetto: Riavvio di Bible
ID: 20120522.2
Autore: Francesco
Descrizione:
Riavvio di Bible con relativo riavvio dei devil mac (serie 3xx).
Data: 22/05/2012
Oggetto:
ID: 20120522.1
Autore: Francesco
Descrizione:
Disinstallata CES VIC8250 #8 (crate secondo livello). Terminazione (nuova!?!) inserita su CES #7. Jumper W01 tutti inseriti come da punto 6.2.2 dello User’s Manual, version 5.0 (G. Di Pirro).
(PS. nella #8 i suddetti jumper erano disinseriti).
Data: 17/05/2012
Oggetto: riletture da fetch che ballano da DEVIL322 (Kickers positroni) - SEGUE
ID: 20120517.1
Autore: Alessandro
Descrizione:
Sostituito DEVIL322 (si lascia in sala DAFNE, nel rack), girato diagnostico da livello 1: il problema persiste.
Si sposta la Lextel di livello 2 del DEVIL322 dal crate #8 al crate #5
!!! Cambio del file WorldMap.DBFile !!!
Girato diagnostico da livello 1: nessun errore su 105000 accessi.
Data: 16/05/2012
Oggetto: riletture da fetch che ballano da DEVIL322 (Kickers positroni)
ID: 20120516.1
Autore: Alessandro
Descrizione:
Si manifesta solo sul DEVIL322 la stessa problematica che aveva afflitto in passato il DEVIL321 (vedi ticket 20120420.2 e precedenti).
DEVIL322 - Lextel 8 - crate #8 (unica Lextel sul crate).
Da quanto scritto nei report precedenti, si deve dedurre che il problema riguarda il processore DEVIL322.
Data: 14/05/2012
Oggetto: DEVIL360 in bus-error e non inizializzabile da venerdi 11
ID: 20120514.1
Autore: Alessandro
Descrizione:
NOTA: il DEVIL360 risulta non funzionante da 3 giorni ma MANCA UN QUALSIASI REPORT SU QUESTO LOG!
Dopo alcuni tentativi di reset, e il cambio delle Lextel 22 di livello 1 e 3 e del trasduttore elettro-ottico di livello 3, si e’ messo un monitor (quello in loco va fuori sincronismo e non consente di vedere bene) sul DEVIL e si e’ visto che il programma si bloccava sulla fase di intHW.
Si e' verificato che la terza scheda V265 (ultima a DX sul crate), che gia' aveva dato segni di malfunzionamento (vedi ticket 20120227.1 e precedenti), se inserita sul crate, impedisce al DEVIL di effettuare l'inizializzazione dell'hardware e inoltre mette le altre due schede V265 in una condizione anomala (tutti i LED spenti).
Se disinserita, il DEVIL riesce ad avviare il programma ma — data la mancanza della scheda — incorre in bus-errors ogni volta che tenta di accedervi. Questa condizione di bus-error si riflette sull'accesso da livello 1.
Soluzione temporanea (in attesa del rimpiazzo della scheda da parte di Mazzitelli/Foggetta):
e' stato rimosso il rigo relativo alla componente del vettore di acquisizione, corrispondente alla scheda V265 con indirizzo E1400200 (A24-D16 0x4002XX) sia dal DB statico che da quello dinamico del DEVIL360. Si e' verificato che la finestra di primo livello non potesse andare in errore a seguito della riduzione delle dimensioni del vettore di acquisizione.
Modifche fatte:
- fatto un backup con data 20100514 dei DBFiles sul filesystem Apple in Bible HD:dante:3_hell:database:DBFiles_3:
DEVIL360.DBSta, DEVIL360.DBDyn, DEVIL360.DBSta.map, DEVIL360.DBDyn.map
- modificati (togliendo i dati relativi alla scheda in questione) i DBFiles
DEVIL360.DBSta, DEVIL360.DBDyn
- rigenerate le mappe
DEVIL360.DBSta.map, DEVIL360.DBDyn.map
- fatto un backup con data 20100514 dei DBFiles sul file system Solaris in /u2/dcs/db/DBFiles_3/
DEVIL360.DBSta, DEVIL360.DBDyn, DEVIL360.DBSta.map, DEVIL360.DBDyn.map
- copiati dal filesystem Apple sul file system Solaris in /u2/dcs/db/DBFiles_3/ i files modificati
DEVIL360.DBSta, DEVIL360.DBDyn, DEVIL360.DBSta.map, DEVIL360.DBDyn.map
- riavviato il DEVIL360
RIMOSSO monitor CRT guasto. ATT! ad oggi (15/05/2012) non c’e’ piu’ nessun monitor (funzionante!!!) in loco.
RIMOSSI mouse e tastiere guaste. ATT! ad oggi (15/05/2012) non ci sono piu’ tastiera e mouse (funzionananti!!!!!) in loco.
Data: 04/05/2012
Oggetto: Console tutte nere in sala controllo
ID: 20120504.1
Autore: Paolo
Descrizione:
A seguito del ticket 2998 del 03/05/2012 alle ore 05:34 che segnalava il diventare nero di tutte le console per ricomparire dopo 10 minuti, si è controllato il file /var/adm/messages su dante100 e si è scoperto che dante100 a seguito di un possibile errore di memoria (non certo) si è riavviato da solo (vedere allegato_console_nere per la parte di log interessante). A questo punto, si pensa che la stessa cosa sia avvenuta in data 05/03/2012 alle ore 19:18 (ticket 2864) ma non si è più in possesso del file di log di dante100 che nel frattempo è stato sovrascritto. Le varie console Force non si sono riavviate, bensì segnalano solo il problema di mancato collegamento con il server NFS per circa 5 minuti (tempo di riavvio del servizio NFS durante il riavvio di dante100) e poi si sono riconnesse da sole.
Allegati:
allegato_console_nere Allegato al ticket ID 20120504.1
Data: 26/04/2012
Oggetto: Reset remoto devil 320
ID: 20120426.1
Autore: Olimpio
Descrizione:
Tentativo di portare il reset del Devil320 in sala strumentazione (42).
Al momento:
Sala Strumentazione (42) Sala BTF (19)
Pannello S19-12 connettore 3 -------------- Pannello S19-12 connettore 3 ------Pannello S20-11/19 connettore 1
Quest’ultimo pannello dovrebbe avere il corrispondente dove e’ situato il 320.
Appena e’ possibile un accesso in sala alimentatori DR manca da collegare il corrispondente al reset del 320.
Data: 20/04/2012
Oggetto: sostituzione DEVIL321
ID: 20120420.2
Autore: Alessandro
Descrizione:
A seguito del ticket precedente 20120420.1, per la sostituzione del DEVIL321 si e’ utilizzato un devil disponibile fra quelli nel magazzino corridoio.
Sostituita batteria tampone, riconfigurato TDM server inserendo il nuovo MAC address (non era presente fra quelli esistenti).
Il devil rimosso e’ stato lasciato in sala DAFNE, sul banchetto a sinistra del rack. Deve essere portato alla radioprotezione.
Da questo momento il backup del server Bible non e’ piu’ allineato!
Data: 20/04/2012
Oggetto: problematica DEVIL321 e DEVIL322 - segue
ID: 20120420.1
Autore: Alessandro
Descrizione:
A seguito dei ticket 20120416.1, 20120417.1, 20120419.1, si manifestano ancora errori di rilettura da fetch che ballano da DEVIL321 e DEVIL322, sia per classe KCK che per classe DDG.
- nel tentativo di disaccoppiare il problema dei due devil, si sposta la Lextel 07 di livello 2 del DEVIL321 dal crate #8 al crate #5
!!! Cambio del file WorldMap.DBFile !!!
*321,C2900000,32A00000,3,8,D,7,F40000,E0000000,1,900000 ← VECCHIO RIGO (lasciato commentato)
321,C3200000,33600000,3,5,D,7,F40000,E0000000,1,900000 ← NUOVO RIGO
- dopo lo spostamento il problema del ballo di rilettura si manifesta SOLO sul DEVIL321
- il diagnostico locale sulla VMIC messa sul crate del DEVIL321 non evidenzia errori MENTRE invece il diagnostico che rilegge da console la statica e la dinamica evidenzia errori di uguaglianza (cioe’ ballano le riletture).
==== RIASSUNTO e ANALISI di tutti gli interventi precedenti ====
- sono stati cambiati i link ottici di entrambi i devil
- e’ stata cambiata la linea ottica del DEVIL321
- il ballo si manifesta su entrambi i devil se stanno sullo stesso crate di livello 2
- il ballo si manifesta solo sul DEVIL321 da quando la sua lextel di livello 2 e’ stata spostata su un’altro crate
- il ballo non si manifesta sul DEVIL322 da quando la sua lextel di livello 2 e’ rimasta l’unica sul crate di livello 2
- la rilettura da locale per il DEVIL321 non balla mentre la rilettura da console balla
- i punti 1 e 2 sembrano escludere un problema di trasporto del segnale
- il punto 3 indica che c’e’ un problema su un solo devil che si induce sull’altro
- i punti 4 e 5 indicano che il problema riguarda il DEVIL321
- il punto 4 sembra escludere che il problema sia sul bus CES
Mettendo tutto insieme e assumendo come certe le indicazioni induttive, dobbiamo dedurre che il trasporto e il bus CES funzionano ma l’accesso al DEVIL321 si comporta diversamente se fatto da locale o da remoto.
La cosa che differenzia questi due accessi e’ la durata/modalita’ del ciclo di accesso alla memoria del devil, il che implica le funzionalita di “System Controller” e di “Slave” implementate sul cip VIC Cypress della scheda devil.
Decidiamo quindi di sostituire il DEVIL321:
Dopo la sostituzione, il diagnostico che rilegge da console (la statica e la dinamica) non riporta piu’ errori di uguaglianza (cioe’ non ballano piu’ le riletture).
Si riavvia il sistema e si testa la funzionalita’ dei Kickers e dei Delay: ok.
Data: 19/04/2012
Oggetto: problematica DEVIL321 e DEVIL322
ID: 20120419.1
Autore: Alessandro
Descrizione:
A seguito dei ticket 20120416.1, 20120417.1, si manifestano ancora errori di riletture da fetch che ballano da DEVIL321 e DEVIL322, sia per classe KCK che per classe DDG.
- si installa la VMIC dante069 sul crate del DEVIL321 (per girare diagnostico locale e preparasi al porting della classe KCK)
- si installa la VMIC dante059 sul crate del DEVIL322 (per girare diagnostico locale e preparasi al porting della classe KCK)
- si sostituisce coppia di Lextel 07 del DEVIL321: problema persiste
- si sostituisce linea ottica, utilizzando i patch panels del nuovo cablaggio (rack del DEVIL321 -> rack su piattaforma DAFNE -> rack in sala strumentazione): problema persiste
Data: 17/04/2012
Oggetto: Passaggio linee ethernet per servire DEVIL321 e DEVIL322 e WARNING ALLIED TELESYN
ID: 20120417.1
Autore: Olimpio, Francesco, Paolo
Descrizione: Come deciso, sono state cablate le due linee ethernet dallo switch SWDAFNE1 al DEVIL321 e dallo switch SWDAFNE2 al DEVIL322. Sono stati inoltre attestati i connettori AMP da 2 porte 10Mbps per ogni linea. In fase di collegamento degli allied telesyn alle porte eth degli switch, si è evidenziato il seguente evento: le porte eth degli switch vanno in HARD protection e si disabilitano se si stacca il cavo BNC dall’allied mentre lo stesso è già collegato allo switch. Di conseguenza:
Quando si collega o si scollega un allied, si deve seguire questa sequenza:
COLLEGAMENTO:
- collegare l’allied al DEVIL tramite cavo BNC;
- collegare l’allied allo switch ethernet;
RIMOZIONE:
- scollegare l’allied dallo switch ethernet;
- scollegare l’allied dal DEVIL tramite cavo BNC;
In fine, è stato aperto un ticket al calcolo per far risistemare le porte bloccate sugli switch swdafne1 ed swdafne2.
Data: 16/04/2012
Oggetto: sostituzione Lextel 08 DEVIL322
ID: 20120416.1
Autore: Alessandro, Paolo, Francesco
Descrizione: Problema: riletture da fetch che ballano da DEVIL321 e DEVIL322, sia per classe KCK che per classe DDG.
Le Lextel dei due DEVILs (Lextel 07 per 321 e Lextel 08 per 322) sono sullo stesso bus (crate #8) di livello 2.
Si stoppano i DEVILs e si mettono i Kickers in HV OFF.
Con Hammer si evidenziamo molti errori sul DEVIL322, quindi si decide di cambiare la coppia di Lextel del DEVIL322.
Riavviato sistema: le riletture non ballano piu’. Controllare errori a lungo termine.
Ultimo errore giustificato prima del cambio di Lextel (giustificato perche' si e' fatto un riavvio del 322 a Caronte in run e quindi si e' generato un bus error):
20120416 15:55:38 > ERRO 101 MBReadBusError CARONreadDEVILMB {F2C10000}
Monitorare i log files da qui' in poi.
Data: 10/04/2012
Oggetto: Devil321 Dead - problema kck 3/3
ID: 20120410.2
Autore:
Descrizione: A seguito di un problema di comunicazione con i KCK degli elettroni si procede ad un ispezione dello stato del relativo devil con l’ausilio di TIMBUKTU! Si riscontra un problema di perdita di link ethernet con conseguente disconnessione dal server Bible.
P.S.
1/3 Sconfigurazione I/O (la conseguenza e’ che al riavvio del devil si resetta il front-end dei kck - 15min attesa)
2/3 Sconfigurazione scheda GPIB (non si comandano piu’ i ritardi programmabili)
Data: 10/04/2012
Oggetto: Ripristino DEVIL689 a seguito di un errore di MEMCached
ID: 20120410.1
Autore: Francesco
Descrizione: Si nota il DEVIL689 DEAD! Collegandosi con VNC si riscontra una dialog (bloccante) che informa dell’avvenuto errore di connessione con MemCached. E’ bastato fare “OK” sulla dialog per rispristinare il collegamento e riportare, in automatico, il DEVIL suddetto nello stato di ALIVE.
Attenzione! ...l’errore e’ la terza volta che si presenta!
Data: 28/03/2012
Oggetto: Sostituzione batterie VMIC
ID: 20120328.3
Autore: Paolo
Descrizione:
In occasione dello stop macchina sono state sostituite le batterie e riconfigurati i BIOS delle seguenti VMIC:
dante056 (solo sostituzione batteria e controllo JMP, bios da riconfigurare con tastiera e mouse PS2 + trifido)
dante063, dante066 e dante072 (sostituzione batteria e riconfigurazione BIOS e JMP)
dante060 -> resta da sostituire la batteria e da riconfigurare il BIOS
Data: 28/03/2012
Oggetto: Problemi di riavvio livello 2 - Aggiornamento tickets precedenti
ID: 20120328.2
Autore: Olimpio
Descrizione:
Sulla base dei tickets precedenti e in occasione dello stop per riparare la perdita d’acqua nei Wiggler, viene sostituita, in sala alimentatori DR, la LL13 remota del DEVIL330, il link ottico e i cavetti di collegamento tra le due schede.
Data: 28/03/2012
Oggetto: Problemi di riavvio livello 2 - Aggiornamento tickets precedenti
ID: 20120328.1
Autore: Alessandro
Descrizione:
Trovato Caronte chiuso. Si analizza il log file /u2/dcs/logs/errors/20120328_err.log
Dalle 01:46:42 alle 06:06:44 viene riportano costantemente (1 al secondo) l’errore:
ERRO 101 MBReadBadMsgLen CARONreadDEVILMB {F3610000}
L’indirizzo corrisponde al DEVIL330 - LL13. Si avvalora quindi il sospetto sulla LL13 remota.
Data: 27/03/2012
Oggetto: problema riavvio livello 2 - Aggiornamento tickets precedenti
ID: 20120327.2
Autore: Alessandro
Descrizione:
Si ripete (per prova e non per necessita’) la procedura: di nuovo errori sul crate #6, pero’ i led VME MASTER delle CES sui crate #5, #6 NON rimangono piu’ accesi.
- si spegne tutto il rack di livello 2 #032;
- si rimuove la LL02 da crate #5 (in quanto inutilizzata);
- si rimuove la LL24 da crate #7 (in quanto inutilizzata);
Al momento della riaccenzione, la LL46 (DEVIL386) rimane DI NUOVO con il led di errore acceso fisso.
- si spegne tutto il rack di livello 2 #032;
- si sostituisce la LL46 + trasduttore con la LL25 + trasduttore che stava sul crate #8 come “disponibile”;
Al momento della riaccenzione, la nuova LL46 (DEVIL386) NON ha piu’ il led di errore acceso.
Si fa la procedura:
- errore sulla LL13 - DEVIL330 di remoteMapError. Si va sul 330 e si trova il led di errore della LL13 remota acceso;
- reset del DEVIL330, il led di errore si spegne;
- si ripere la procedura: ok.
Rimane un sospetto sulla LL13 remota del DEVIL330.
Data: 27/03/2012
Oggetto: sostituzione batteria dante059
ID: 20120327.1
Autore: Paolo
Descrizione:
Sostituita batteria della dante059 che aveva problemi di avvio senza monitor. Con il monitor segnalava problemi di CMOS. Dopo la sostituzione e la riconfigurazione del BIOS la VMIC sembra comportarsi correttamente, anche con spegnimento del crate VME per un minuto.
Data: 26/03/2012
Oggetto: installazione VMIC dante055 in sala strumentazione
ID: 20120326.3
Autore: Paolo
Descrizione:
Visti i ticket 20120324.1 e 20120326.1 , si è installata la dante055 in sala strumentazione per prepararla a sostituire il devil 330 che ha creato problemi.
Data: 26/03/2012
Oggetto: problema riavvio livello 2 - AGGIORNAMENTO
ID: 20120326.2
Autore: Alessandro
Descrizione:
Dopo la sostituzione del DEVIL330 (ticket 20120326.1), la procedura riporta di nuovo errori sul crate #6. Rimangono accesi i led VME MASTER delle CES sui crate #5, #6. Si spegne tutto il rack di livello 2 #032. Al momento della riaccenzione, la LL46 (DEVIL386) rimane con il led di errore acceso fisso. Si ripete la procedura e va a buon fine.
Data: 26/03/2012
Oggetto: sostituzione DEVIL330 e problema riavvio livello 2
ID: 20120326.1
Autore: Alessandro
Descrizione:
A seguito anomalia nel boot riportata nel ticket 20120324.1, si sostituisce DEVIL330 (con ex DEVIL333).
Ulteriore indicazione che ci sia qualcosa di strano riguardo questo devil e’ che nel log di errori si trova il messaggio:
20120323 23:03:20 > ERRO 330 10 elementNotFound DEVILdecodeCmd {10 SEET CHHH3001 0-1.500000}
Il comando e’ stato certamente inoltrato bene da Caron (che ha trovato l’elemento CHHA3001 nella GElementList1) ma scritto/riletto male nella/dalla memoria del DEVIL. Questo, unitamente all’anomalia del boot (schermo nero), suggerisce di sostituirlo.
Riconfigurato TDM Server
- rinominata la entry del DEVIL330 presente (come DEVIL330_rimosso);
- rinominato, nella entry del DEVIL333 (ancora presente nella lista), il file TDM associato (da 333 a 330).
Da questo momento il backup del server Bible non e’ piu’ allineato!
Dopo la sostituzione del DEVIL330, la procedura riporta di nuovo errore sul crate #6. Si spegne tutto il rack di livello 2 #032; al momento della riaccenzione, la LL46 (DEVIL386) rimane con il led di errore acceso fisso.
Data: 25/03/2012
Oggetto: problema riavvio livello 2 - AGGIORNAMENTO ticket precedente 20120324.1
ID: 20120325.1
Autore: Alessandro
Descrizione:
Gianfranco ripete la procedura di secondo livello — senza aver fatto alcun intervento hardware — e funziona!
Giriamo il diagnostico Hammer e otteniamo solo 2 errori su 5 min di test su crate remoti non riconducibili al crate 6.
Si riparte con DAFNE.
Data: 24/03/2012
Oggetto: problema riavvio livello 2
ID: 20120324.1
Autore: Alessandro
Descrizione:
Si ripete il problema dei giorni scorsi: durante la procedura di riavvio, escono errori sulla finestra rossa per tutti i DEVILs del crate #6 (302, 312, 391, 385, 386).
A differenza delle ultime volte, dopo averli resettati tutti, fatto reset su tutti i bus di livello 2 e riprovato a fare la procedura, gli errori perdurano.
Dato che in mattinata avevo rilevato da remoto numerosi bus error dal 361 e 330 (che causavano frequenti crash di Caronte), li riavvio, faccio initDEVIL e li lascio fermi per non avere problemi durante la procedura.
Inoltre, il DEVIL330 connesso al monitor in loco, dopo il reset sembra non partire (schermo nero e non compare sull’Apple Share File Server). Ripeto il reset (trascorrono circa 30 minuti per cambio monitor) e parte.
Messo monitor nuovo + adattatore video commerciale du devil 330
Messo monitor nuovo + adattatore video di Olimpio sul devil 361
Lascio il sistema fermo alle 17:37
Data: 23/03/2012
Oggetto:
ID: 20120323.1
Autore: Alessandro
Descrizione:
Il 20/03/2012 e’ stato riavviato parte del terzo livello per apparente "down di rete".
Al Calcolo non risultava nulla, pero' Dario ha visto che swstrum1 aveva fatto un reboot proprio in quel momento.
Ho quindi chiesto a Ruggero se poteva esserci stato un buco di alimentazione sull'alimentazione del rack e mi ha risposto di no.
Quindi lo switch ha fatto un reboot da solo e senza apparente causa.
Forse swstrum1 e' malfunzionante e questo spiegherebbe i problemi che subiamo periodicamente.
Data: 19/03/2012
Oggetto: intervento su dante074 e dante075 per problemi PXE
ID: 20120319.2
Autore: Paolo
Descrizione:
Come conseguenza da ticket 20120319.1 è stata messa in produzione la dante075 e la dante074 è stata montata nel rack in laboratorio. All’avvio segnala un PXE error e chiede di premere un tasto senza partire. Questo era il motivo per cui non si riavviava. Dopo breve analisi, si è impostato nel BIOS della scheda ethernet la funzionalità che ignora questo tipo di warning e continua dopo 6 secondi. Con questa impostazione, la dante074 segnala comunque l’errore, ma prosegue e parte correttamente in diskless.
Data: 19/03/2012
Oggetto: intervento su dante074 e dante075 per problemi PXE
ID: 20120319.1
Autore: Paolo
Descrizione:
Visto ticket 20120318.2 ho commentato la riga di avvio del devil sulla dante074 ed impostato nell’rc.local della dante075. Appena possibile si provvederà alla sostituzione della dante074 con la dante075 e si installerà la dante074 in laboratorio così da testarne il corretto funzionamento (probabile rottura eth).
Data: 18/03/2012
Oggetto: DEVIL322 riporta moltissimi di BusError locale via PPC
ID: 20120318.3
Autore: Alessandro
Descrizione:
come da oggetto: si riavvia e data l’ora non si eseguono ulteriori interventi. Gli operatori riportano che la finestra dei delay mostrava i numeri cambiare a caso (tipico di una fetch su area di memoria sporca).
Data: 18/03/2012
Oggetto: dante074 non raggiungibile
ID: 20120318.2
Autore: Alessandro
Descrizione:
risulta impossibile loggarsi sulla VMIC dante074 (vedi ticket subito prima 20120318.1). Scambiata porta e dato un reset: ancora non raggiungibile. Messo un monitor, compare il messaggio “PXE media error. Check cable.”
Nell’urgenza di operare, si sposta il DEVIL 632 sulla VMIC dante075, installata sul Tower in Laboratorio.
- riconfigurato server Moxa sulla dante075 (porte 5, 13, 14);
- aggiornato il file networkDafne.xls;
- modificati i files IPTables.DBFile, devilRestart.csh e rc.local;
- chiuso il display VNC 74 ed aperto il 75
- avviato DEVIL632: OK
- ATTENZIONE: il DEVIL632 e’ stato lanciato a mano e quindi non si e’ testato l’avvio automatico sulla dante075
- ATTENZIONE: sulla dante074, il server Moxa ed il file rc.local, sono rimasti configurati (causa impossibilita’ di loggarsi).
Data: 18/03/2012
Oggetto: DEVIL202 (Dumper) ripetutamente in “Fatal Error”
ID: 20120318.1
Autore: Alessandro
Descrizione:
dopo un riavvio di livello 2, appena dopo essere messo in run, il DEVIL202 riporta una dialog-box con “Fatal Error”.
Come da precedente ticket 201202227.3 , si controllano i DEVIL ETH e si scopre che il DEVL632 sulla dante074 e’ in DEAD. Si interviene come da ticket immediatamente successivo 20120318.2
Data: 13/03/2012
Oggetto: “Error on data set generation” durante salvataggio files di DAFNE
ID: 20120313.1
Autore: Alessandro
Descrizione:
E’ stato aperto questo ticket: il problema ha causato l’impossibilita’ di salvare datasets per tutta la notte.
Ticket ID: 2873 | Operator in charge: Gianfranco Baldini |
Open Time: 2012-03-12 21:18:27 | Estimated repair time: 15 [min] |
Description: FAULT CONTROL SYSTEM OTHER |
|
Opening Comment: Quando si tenta di salvare su MRp appare la finestra di dialog: "Error on data set generation" e non salva il set. Per tutte le altre zone il salvataggio avviene correttamente. |
|
Riporto la tipica causa di questo problema e la relativa soluzione:
La finestra che salva lo stato di macchina per le diverse aree operative, come prima cosa esegue una fetch su tutti i DEVILs che gestiscono gli elementi da salvare. Se per qualche motivo, una o piu’ fetch (sia via VME sia via TCP_DCS, sia via Memcached) restituiscono un errore, la routine desume di non avere i dati necessari per produrre il file da salvare e riporta una Dialog-Box con l’errore: “Error on data set generation”.
In questo caso, per trovare su quale DEVIL si genera l’errore, la cosa migliore e’ fare un debug del VI interno che esegue ciclicamente tutte le fetch.
In alternativa, si puo’ cercare di individuare il DEVIL:
- controllando gli alive (questo metodo pero’ da una garanzia solo per i DEVIL VME)
- salvando i singoli gruppi di elementi dalle finestre e vedendo per quali si genera l’errore.
Nel caso del ticket riportato sopra, c’era una connessione TCP/IP in errore sul DEVIL639 (segnalata sin dalla sera prima da Paolo).
E' stato quindi sufficiente fare:
- STOP del DEVIL639;
- ATTESA di 60" per far decadere la connessione TCP/IP pendente;
- RUN del DEVIL 639;
- testato salvataggio dell'anello di positroni: OK .
Si dovrebbe migliorare la segnalazione d’errore sulla console, evidenziando su quali DEVIL si manifesta l’errore di fetch, pertanto aggiungo questo task in DCS_ToDoList_Dafne.
Data: 08/03/2012
Oggetto: Aggiornamento seriali ethernet tappi + sostituzione tappi a 50 Ohm e derivatori a T dei devil Apple in sala strumentazione
ID: 20120308.1
Autore: Olimpio
Descrizione:
Le catenelle ethernet dei devil Apple collegate allo switch SWSTRUM2:
391, 350, 312, 386 -> porta 35
388, 387, 301, 302 -> porta 38
sono ora collegate:
301, 302 -> porta 33
386, 350 -> porta 34
312, 391 -> porta 35
387, 388 -> porta 38
Continuata la sostituzione dei tappi a 50 Ohm e derivatori a T (vedi precedente ticket 20120213.3) ai devil 301, 386, 350, 312, 391, 387, 388.
Data: 28/02/2012
Oggetto: ATT! Aggiornamento IPTable
ID: 20120228.1
Autore: Francesco
Descrizione:
DEVIL613 Decommentato. Potrebbe causare problemi con il Dumper vedi ID: 20120227.3
Data: 27/02/2012
Oggetto: IPTable, DEVIL613 & Dumper
ID: 20120227.3
Autore: Alessandro
Descrizione:
Commentato il DEVIL613 sul IPTable.DBFile poiche’ — se fermo — il Dumper riceve errori di connessione TCP_DCS e va in “Fatal Error”. Da controllare (Alessandro)
Data: 27/02/2012
Oggetto: modifica configurazione TDM Server su Bible
ID: 20120227.2
Autore: Alessandro
Descrizione:
A seguito del problema riportato nel ticket 20120227.1, si riconfigura il server TDM per rimpiazzo del DEVIL360 col l’ex DEVIL332:
- rimossa la entry del DEVIL360 presente (MAC address FC19);
- rinominato, nella entry del DEVIL332 (ancora presente nella lista, con MAC address 00401000FC1E), il file TDM associato (da 332 a 360).
Da questo momento il backup del server Bible non e’ piu’ allineato!
Data: 27/02/2012
Oggetto: sostituzione DEVIL360 non riesce a fare il boot (schermo nero)
ID: 20120227.1
Autore: Alessandro, Francesco, Paolo
Descrizione:
Il DEVIL360, dopo l’intervento descritto al ticket 20120226.1 funziona per circa 6 ore e poi ricade nella condizione di shermo nero.
Si sotituisce il DEVIL360 presente (MAC address FC19) con l’ex DEVIL332 (MAC address 00401000FC1E) e si riconfigura il TDM Server.
All’init VME, viene Lextel Remote BusError. Si sostituisce la Lextel: ancora errore. Si sostituisce il trasduttore elettro-ottico: ancora errore.
Si mette il DEVIL e la lextel su un tower (stando nel linac): ancora errore ma il tower e’ di quelli con i connettori del back-plane per 64-bit e inserendo piu’ a fondo il devil, tutto ok.
Si constata che il backplane del crate dell’odoscopio e’ mobile. Non era presente vite in basso a SX che serra il crate. Si reinseriscono a fondo devil e lextel: OK.
Si aggiunge una ventola di raffreddamento (non c’era!) sotto il crate.
IN CONCLUSIONE: si e’ ritestato il vecchio devil appena rimosso sul tower e funziona. E’ stato lasciato in loco dietro il muretto di piombo. Si sono lasciati sul crate la nuova lextel ed il nuovo trasduttore elettro-ottico. Si sono portati via la vecchia lextel ed il vecchio trasduttore elettro-ottico.
RIMOSSO monitor CRT guasto. ATT! ad oggi (27/01/2012) non c’e’ piu’ nessun monitor in loco.
RIMOSSI mouse e tastiere guaste. ATT! ad oggi (27/01/2012) non c’e’ piu’ nessuna tastiera e mouse in loco.
Data: 26/02/2012
Oggetto: DEVIL360 non riesce a fare il boot (schermo nero)
ID: 20120226.1
Autore: Olimpio
Descrizione:
Il DEVIL360 non funziona piu’. Da sopralluogo, si trova il DEVIL360 con lo schermo nero nonostante il reset. Su consiglio di Alessandro si estrae il devil dal bus e si reinserisce a bus VME alimentato. Probabilmente le tensioni dell’alimentatore non salgono insieme perche’ lo spegnimento e la relativa riaccensione dell’alimentatore dopo alcuni minuti non ha avuto lo stesso effetto (stesso problema che si manifestava sui DEVIL301 e 302 della radiofrequenza, prima del rimpiazzo dell’alimentatore).
Data: 22/02/2012
Oggetto: monitoraggio nuova porta Ethernet DEVIL361 (SWBTF - 47)
ID: 20120222.1
Autore: Alessandro
Descrizione:
Eseguito un controllo con Dario Spigone sullo stato della nuova porta Ehernet alla quale e’ stato riconnesso il DEVIL361 (vedi precedete ticket 20120213.1). Il check rivela numerosi errori ma NON piu’ numerosi o gravi di quelli che si possono vedere su altre porte della vlan Apple 196. Questo suggerisce che:
- l’Allied sostituito NON era probabilmente causa dei problemi;
- e’ opportuno cambiare la scheda Ethernet del DEVIL361 e vedere se la situazione cambia;
- se la situazione non cambia, procedere al rimpiazzo di tutto il devil.
Data: 17/02/2010
Oggetto: errore di connessione Memcached su DEVIL689
ID: 20100217.1
Autore: Alessandro
Descrizione:
Il DEVIL689, VMIC dante063, classe MOV (nuovi scrapers), risultava in condizione DEAD sul CPUBrowser.
Si e' guidato telefonicamente l'operatore a stabilile una connessione diretta in VNC sul display del DEVIL e si e' potuto constatare che c'era una dialog-box che riportava "Memcached connection error".
Fatto fare stop/run del devil: OK.
Alla data attuale, questo e' il secondo caso in assoluto di errore su Memcached verificatosi da sempre e il primo era chiaramente imputabile ad un "down" della rete dei LNF.
Quindi in effetti questo e' il primo caso in assoluto e le sue cause non sono chiare.
NOTA: problema riportato anche su TT #2833
Data: 13/02/2012
Oggetto: Sostituzione tappi a 50 Ohm e derivatori a T
ID: 20120213.3
Autore: Paolo
Descrizione:
Come misura preventiva sono stati sostituiti i tappi a 50 Ohm e derivatori a T dei seguenti devil:
342, 343, 345, 346 (sala macchine 8bis)
361 (BTF)
390, 331, 310, 311 (sala modulatori)
Data: 13/02/2012
Oggetto: Chooser DEVIL361 non disponibile sotto il menu mela.
ID: 20120213.2
Autore: Alessandro
Descrizione:
Il Chooser del DEVIL361 non compare sotto il menu mela. Si deve aprire il disco TDM e lanciarlo da li.
Dato che questo DEVIL e’ correlato a problemi di rete (vedi ticket 20120213.1) e’ bene investigare.
Data: 13/02/2012
Oggetto: porta Ethernet DEVIL361 (SWBTF2 - 9) in ERROR DISABLE (grave)
ID: 20120213.1
Autore: Alessandro
Descrizione:
Troviamo la porta SWBTF2 - 9, dove era connesso il DEVIL361, con il LED spento. Spostiamo il DEVIL361 sulla porta SWBTF - 47 che e’ statica sulla 196.
Da un controllo con D. Spigone, risulta che la porta SWBTF2 - 9 era caduta in ERROR DISABLE “grave”, ovvero in una condizione che non si evita impostando la porta in modo da tollerare un numero infinito di ERROR DISABLE.
Dopo lo spostamento, facciamo controllare la nuova porta (SWBTF - 47) da Dario e viene fuori che aveva gia’ subíto un PORT RESET, ovvero di nuovo una anomalia.
Come tentativo di soluzione, si cambia l’ALLIED TELESYS del 361 con un’altro non piu’ utilizzato.
Monitorare di nuovo.
Data: 09/02/2012
Oggetto: Linea Seriale non funzionante - MOXA
ID: 20120209.1
Autore: Alessandro
Descrizione:
A seguito dell’indicazione sul Mag_Terminal di “BadStatus” per le due interfacce seriali dell’alimentatore pulsato dei magneti DHPTT001, DHPTT011, ho resettato il MOXA (fisicamente montato dentro la sala Accumulatore) collegato a quell’alimentatore.
VMIC dante073
DEVIL 644
linea seriale SER23001
elementi sulla linea seriale DHPTT001, DHPTT011
Procedura di reset del MOXA
- Stop via VNC del DEVIL644
- collegamento con browser a http://192.168.192.27 (password di dante)
- colonna di sinistra -> “Save/Restart” e poi dare l’ok a procedere
- Run via VNC del DEVIL644
- Su Mag_Terminal, premere il bottone “Refresh Connection” oppure cambiare area operativa e poi ritornare a quella d’interesse oppure chiudere e riaprire il Mag_Terminal
- Ok, sparisce il “bad Status”
NOTA: per sapere quale e’ il MOXA connesso ad una VMIC, leggere info su:
http://wiki.infn.it/strutture/lnf/da/dafne/sistema_di_controllo/sviluppatori/configurazione_moxa
oppure consultare il file su TiCaCoDA:
/control/control_group/networking_n_system/networkDafne.xls
Data: 02/02/2012
Oggetto: disabilitazione temporanea programma Hunter_Dog.vi
ID: 20120202.1
Autore: Alessandro
Descrizione:
Dopo le modifiche fatte al Dumper (DEVIL202 che gira sulla dante004), il programma Hunter_Dog.vi - che si lanciava dal menu “HW” - va in crash. E’ stato quindi temporaneamente disabilitato, commentando il rigo con il suo path nel file
/u2/dcs/prefs/menu/menu.tbl
La cosa deve essere investigata e quindi il programma rimesso in linea. Fatto da Giovanni: ok.
Data: 24/01/2012
Oggetto: esempio di uso del Link ad un segnalibro
ID: 20120124.2
Autore: Alessandro
Descrizione:
Questo qui’ ---> 20120124.1 e’ un link ad un segnalibro messo in un’altro post.
Data: 24/01/2012
Oggetto: creazione di questo log file.
ID: 20120124.1
Autore: Francesco
Descrizione:
L’ID di un post si compone con la data rovesciata (AAAAMMGG), seguita da un punto e da un numero progressivo che differenzia i post creati lo stesso giorno.