Discussion:
Detectar crashes/freezes en FreeBSD (o similates)
Lucas Nogueron
2012-04-20 13:10:52 UTC
Permalink
Hola lista:


Ando con un problemita con un server FreeBSD. De tanto en tanto se
pianta y no responde, lo unico que funciona es resetear la maquina
manualmente para que funcione todo bien por otra temporada ( que consta de
un par de semanas). Luego vuelvo a lo mismo, otra temporada y crash. La
cuestion es que me puse a ver los logs, en /var/logs y no encuentro nada
interesante, la salida:

-rw------- 1 root wheel - 83628 Apr 20 13:15 auth.log
-rw------- 1 root wheel - 48972 Apr 20 13:15 cron
-rw------- 1 root wheel - 5275 Apr 19 02:00 cron.0.bz2
-rw------- 1 root wheel - 4977 Apr 12 13:00 cron.1.bz2
-rw------- 1 root wheel - 4943 Apr 9 21:00 cron.2.bz2
-rw------- 1 root wheel - 5036 Apr 7 05:00 cron.3.bz2
-rw------- 1 root wheel - 62 Mar 13 15:49 debug.log
-rw------- 1 root wheel - 4845 Apr 20 03:03 dmesg.today
-rw------- 1 root wheel - 4732 Apr 19 03:03 dmesg.yesterday
-rw-r--r-- 1 root wheel - 28056 Apr 20 13:15 lastlog
-rw-r--r-- 1 root wheel - 62 Mar 13 15:49 lpd-errs
-rw-r----- 1 root wheel - 3099 Apr 20 13:03 maillog
-rw-r----- 1 root wheel - 579 Apr 20 00:00 maillog.0.bz2
-rw-r----- 1 root wheel - 566 Apr 19 00:00 maillog.1.bz2
-rw-r----- 1 root wheel - 947 Apr 18 00:00 maillog.2.bz2
-rw-r----- 1 root wheel - 581 Apr 13 00:00 maillog.3.bz2
-rw-r----- 1 root wheel - 572 Apr 12 00:00 maillog.4.bz2
-rw-r----- 1 root wheel - 572 Apr 11 00:00 maillog.5.bz2
-rw-r----- 1 root wheel - 1517 Apr 10 00:00 maillog.6.bz2
-rw-r----- 1 root wheel - 567 Apr 9 00:00 maillog.7.bz2
-rw-r--r-- 1 root wheel - 29084 Apr 20 13:05 messages
-rw-r--r-- 1 root wheel - 9796 Apr 9 20:00 messages.0.bz2
-rw-r--r-- 1 root wheel - 8413 Mar 29 18:00 messages.1.bz2
-rw-r--r-- 1 root wheel - 11456 Mar 27 17:00 messages.2.bz2
-rw-r--r-- 1 root wheel - 7760 Mar 26 16:00 messages.3.bz2
-rw------- 1 root wheel - 208 Apr 10 03:03 mount.today
-rw------- 1 root wheel - 165 Mar 28 03:03 mount.yesterday
-rw------- 1 root wheel - 0 Mar 28 03:03 pf.today
-rw-r----- 1 root network - 62 Mar 13 15:49 ppp.log
-rw------- 1 root wheel - 62 Mar 13 15:49 security
-rw-r----- 1 root wheel - 728 Apr 20 13:02 sendmail.st
-rw-r----- 1 root wheel - 728 Apr 17 18:08 sendmail.st.0
-rw-r----- 1 root wheel - 728 Apr 8 03:03 sendmail.st.1
-rw-r----- 1 root wheel - 728 Apr 2 03:03 sendmail.st.2
-rw-r----- 1 root wheel - 0 Mar 26 14:00 sendmail.st.3
-rw-r----- 1 root wheel - 0 Mar 13 17:00 sendmail.st.4
-rw-r----- 1 root wheel - 0 Mar 13 16:00 sendmail.st.5
-rw-r----- 1 root wheel - 0 Feb 17 2011 sendmail.st.6
-rw------- 1 root wheel - 3534 Apr 18 03:03 setuid.today
-rw------- 1 root wheel - 3446 Mar 30 03:03 setuid.yesterday
-rw------- 1 root wheel - 1032 Mar 30 12:42 userlog
-rw-r--r-- 1 root wheel - 4972 Apr 20 13:15 wtmp
-rw-r--r-- 1 root wheel - 17232 Mar 31 17:09 wtmp.0
-rw------- 1 root wheel - 62 Mar 13 15:49 xferlog

Aqui viene la pregunta, ¿que recomiendan para detectar el error? estuve
viendo a un tal comando "crash", pero no me convence. Alguna idea?


Saludos
--
"Si no fuera por C, estaríamos escribiendo programas en BASI, PASAL, y
OBOL."

Luxas
maxi gadea
2012-04-20 13:36:56 UTC
Permalink
Post by Lucas Nogueron
Ando con un problemita con un server FreeBSD. De tanto en tanto se
pianta y no responde, lo unico que funciona es resetear la maquina
manualmente para que funcione todo bien por otra temporada ( que consta de
un par de semanas). Luego vuelvo a lo mismo, otra temporada y crash. La
cuestion es que me puse a ver los logs, en /var/logs y no encuentro nada
-rw------- 1 root wheel - 83628 Apr 20 13:15 auth.log
-rw------- 1 root wheel - 48972 Apr 20 13:15 cron
-rw------- 1 root wheel - 5275 Apr 19 02:00 cron.0.bz2
-rw------- 1 root wheel - 4977 Apr 12 13:00 cron.1.bz2
-rw------- 1 root wheel - 4943 Apr 9 21:00 cron.2.bz2
-rw------- 1 root wheel - 5036 Apr 7 05:00 cron.3.bz2
-rw------- 1 root wheel - 62 Mar 13 15:49 debug.log
-rw------- 1 root wheel - 4845 Apr 20 03:03 dmesg.today
-rw------- 1 root wheel - 4732 Apr 19 03:03 dmesg.yesterday
-rw-r--r-- 1 root wheel - 28056 Apr 20 13:15 lastlog
-rw-r--r-- 1 root wheel - 62 Mar 13 15:49 lpd-errs
-rw-r----- 1 root wheel - 3099 Apr 20 13:03 maillog
-rw-r----- 1 root wheel - 579 Apr 20 00:00 maillog.0.bz2
-rw-r----- 1 root wheel - 566 Apr 19 00:00 maillog.1.bz2
-rw-r----- 1 root wheel - 947 Apr 18 00:00 maillog.2.bz2
-rw-r----- 1 root wheel - 581 Apr 13 00:00 maillog.3.bz2
-rw-r----- 1 root wheel - 572 Apr 12 00:00 maillog.4.bz2
-rw-r----- 1 root wheel - 572 Apr 11 00:00 maillog.5.bz2
-rw-r----- 1 root wheel - 1517 Apr 10 00:00 maillog.6.bz2
-rw-r----- 1 root wheel - 567 Apr 9 00:00 maillog.7.bz2
-rw-r--r-- 1 root wheel - 29084 Apr 20 13:05 messages
-rw-r--r-- 1 root wheel - 9796 Apr 9 20:00 messages.0.bz2
-rw-r--r-- 1 root wheel - 8413 Mar 29 18:00 messages.1.bz2
-rw-r--r-- 1 root wheel - 11456 Mar 27 17:00 messages.2.bz2
-rw-r--r-- 1 root wheel - 7760 Mar 26 16:00 messages.3.bz2
-rw------- 1 root wheel - 208 Apr 10 03:03 mount.today
-rw------- 1 root wheel - 165 Mar 28 03:03 mount.yesterday
-rw------- 1 root wheel - 0 Mar 28 03:03 pf.today
-rw-r----- 1 root network - 62 Mar 13 15:49 ppp.log
-rw------- 1 root wheel - 62 Mar 13 15:49 security
-rw-r----- 1 root wheel - 728 Apr 20 13:02 sendmail.st
-rw-r----- 1 root wheel - 728 Apr 17 18:08 sendmail.st.0
-rw-r----- 1 root wheel - 728 Apr 8 03:03 sendmail.st.1
-rw-r----- 1 root wheel - 728 Apr 2 03:03 sendmail.st.2
-rw-r----- 1 root wheel - 0 Mar 26 14:00 sendmail.st.3
-rw-r----- 1 root wheel - 0 Mar 13 17:00 sendmail.st.4
-rw-r----- 1 root wheel - 0 Mar 13 16:00 sendmail.st.5
-rw-r----- 1 root wheel - 0 Feb 17 2011 sendmail.st.6
-rw------- 1 root wheel - 3534 Apr 18 03:03 setuid.today
-rw------- 1 root wheel - 3446 Mar 30 03:03 setuid.yesterday
-rw------- 1 root wheel - 1032 Mar 30 12:42 userlog
-rw-r--r-- 1 root wheel - 4972 Apr 20 13:15 wtmp
-rw-r--r-- 1 root wheel - 17232 Mar 31 17:09 wtmp.0
-rw------- 1 root wheel - 62 Mar 13 15:49 xferlog
Aqui viene la pregunta, ¿que recomiendan para detectar el error? estuve
viendo a un tal comando "crash", pero no me convence. Alguna idea?
Saludos
--
"Si no fuera por C, estaríamos escribiendo programas en BASI, PASAL, y
OBOL."
Luxas
Has medido temperatura (lm-sensors, o "hddtemp" para los discos hay que ver
si estan para FreeBSD)

test de memorias (live CD)

Chequeaste el disco ( http://www.daemonforums.org/showthread.php?t=2184 )

Cuando se cuelga siempre es un mismo dia y hora o es aleatorio?, vos decis
que es cada dos semanas aproximadamente, al final de esa dos semanas hay
alguna aplicacion que pueda generar mas carga.

Se puede saber que aplicaciones corres?

Saludos
--
Maximiliano Gadea
Alejandro Vargas
2012-04-20 14:56:27 UTC
Permalink
Post by Lucas Nogueron
Ando con un problemita con un server FreeBSD. De tanto en tanto se
pianta y no responde, lo unico que funciona es resetear la maquina
manualmente para que funcione todo bien por otra temporada ( que consta de
un par de semanas). Luego vuelvo a lo mismo, otra temporada y crash. La
cuestion es que me puse a ver los logs, en /var/logs y no encuentro nada
-rw------- 1 root wheel - 83628 Apr 20 13:15 auth.log
-rw------- 1 root wheel - 48972 Apr 20 13:15 cron
-rw------- 1 root wheel - 5275 Apr 19 02:00 cron.0.bz2
-rw------- 1 root wheel - 4977 Apr 12 13:00 cron.1.bz2
-rw------- 1 root wheel - 4943 Apr 9 21:00 cron.2.bz2
-rw------- 1 root wheel - 5036 Apr 7 05:00 cron.3.bz2
-rw------- 1 root wheel - 62 Mar 13 15:49 debug.log
-rw------- 1 root wheel - 4845 Apr 20 03:03 dmesg.today
-rw------- 1 root wheel - 4732 Apr 19 03:03 dmesg.yesterday
-rw-r--r-- 1 root wheel - 28056 Apr 20 13:15 lastlog
-rw-r--r-- 1 root wheel - 62 Mar 13 15:49 lpd-errs
-rw-r----- 1 root wheel - 3099 Apr 20 13:03 maillog
-rw-r----- 1 root wheel - 579 Apr 20 00:00 maillog.0.bz2
-rw-r----- 1 root wheel - 566 Apr 19 00:00 maillog.1.bz2
-rw-r----- 1 root wheel - 947 Apr 18 00:00 maillog.2.bz2
-rw-r----- 1 root wheel - 581 Apr 13 00:00 maillog.3.bz2
-rw-r----- 1 root wheel - 572 Apr 12 00:00 maillog.4.bz2
-rw-r----- 1 root wheel - 572 Apr 11 00:00 maillog.5.bz2
-rw-r----- 1 root wheel - 1517 Apr 10 00:00 maillog.6.bz2
-rw-r----- 1 root wheel - 567 Apr 9 00:00 maillog.7.bz2
-rw-r--r-- 1 root wheel - 29084 Apr 20 13:05 messages
-rw-r--r-- 1 root wheel - 9796 Apr 9 20:00 messages.0.bz2
-rw-r--r-- 1 root wheel - 8413 Mar 29 18:00 messages.1.bz2
-rw-r--r-- 1 root wheel - 11456 Mar 27 17:00 messages.2.bz2
-rw-r--r-- 1 root wheel - 7760 Mar 26 16:00 messages.3.bz2
-rw------- 1 root wheel - 208 Apr 10 03:03 mount.today
-rw------- 1 root wheel - 165 Mar 28 03:03 mount.yesterday
-rw------- 1 root wheel - 0 Mar 28 03:03 pf.today
-rw-r----- 1 root network - 62 Mar 13 15:49 ppp.log
-rw------- 1 root wheel - 62 Mar 13 15:49 security
-rw-r----- 1 root wheel - 728 Apr 20 13:02 sendmail.st
-rw-r----- 1 root wheel - 728 Apr 17 18:08 sendmail.st.0
-rw-r----- 1 root wheel - 728 Apr 8 03:03 sendmail.st.1
-rw-r----- 1 root wheel - 728 Apr 2 03:03 sendmail.st.2
-rw-r----- 1 root wheel - 0 Mar 26 14:00 sendmail.st.3
-rw-r----- 1 root wheel - 0 Mar 13 17:00 sendmail.st.4
-rw-r----- 1 root wheel - 0 Mar 13 16:00 sendmail.st.5
-rw-r----- 1 root wheel - 0 Feb 17 2011 sendmail.st.6
-rw------- 1 root wheel - 3534 Apr 18 03:03 setuid.today
-rw------- 1 root wheel - 3446 Mar 30 03:03 setuid.yesterday
-rw------- 1 root wheel - 1032 Mar 30 12:42 userlog
-rw-r--r-- 1 root wheel - 4972 Apr 20 13:15 wtmp
-rw-r--r-- 1 root wheel - 17232 Mar 31 17:09 wtmp.0
-rw------- 1 root wheel - 62 Mar 13 15:49 xferlog
Aqui viene la pregunta, ¿que recomiendan para detectar el error? estuve
viendo a un tal comando "crash", pero no me convence. Alguna idea?
Saludos
--
"Si no fuera por C, estaríamos escribiendo programas en BASI, PASAL, y
OBOL."
Luxas
Muchas veces en los logs no queda nada porque l máquina se colgó. Deberias
mirara la consoa, aunque me imagino que veras un kernel panic con datos
difíciles de entender.
Lucas Nogueron
2012-04-20 15:45:39 UTC
Permalink
El 20 de abril de 2012 11:56, Alejandro Vargas
Post by Alejandro Vargas
Post by Lucas Nogueron
Ando con un problemita con un server FreeBSD. De tanto en tanto se
pianta y no responde, lo unico que funciona es resetear la maquina
manualmente para que funcione todo bien por otra temporada ( que consta
de
Post by Lucas Nogueron
un par de semanas). Luego vuelvo a lo mismo, otra temporada y crash. La
cuestion es que me puse a ver los logs, en /var/logs y no encuentro nada
-rw------- 1 root wheel - 83628 Apr 20 13:15 auth.log
-rw------- 1 root wheel - 48972 Apr 20 13:15 cron
-rw------- 1 root wheel - 5275 Apr 19 02:00 cron.0.bz2
-rw------- 1 root wheel - 4977 Apr 12 13:00 cron.1.bz2
-rw------- 1 root wheel - 4943 Apr 9 21:00 cron.2.bz2
-rw------- 1 root wheel - 5036 Apr 7 05:00 cron.3.bz2
-rw------- 1 root wheel - 62 Mar 13 15:49 debug.log
-rw------- 1 root wheel - 4845 Apr 20 03:03 dmesg.today
-rw------- 1 root wheel - 4732 Apr 19 03:03 dmesg.yesterday
-rw-r--r-- 1 root wheel - 28056 Apr 20 13:15 lastlog
-rw-r--r-- 1 root wheel - 62 Mar 13 15:49 lpd-errs
-rw-r----- 1 root wheel - 3099 Apr 20 13:03 maillog
-rw-r----- 1 root wheel - 579 Apr 20 00:00 maillog.0.bz2
-rw-r----- 1 root wheel - 566 Apr 19 00:00 maillog.1.bz2
-rw-r----- 1 root wheel - 947 Apr 18 00:00 maillog.2.bz2
-rw-r----- 1 root wheel - 581 Apr 13 00:00 maillog.3.bz2
-rw-r----- 1 root wheel - 572 Apr 12 00:00 maillog.4.bz2
-rw-r----- 1 root wheel - 572 Apr 11 00:00 maillog.5.bz2
-rw-r----- 1 root wheel - 1517 Apr 10 00:00 maillog.6.bz2
-rw-r----- 1 root wheel - 567 Apr 9 00:00 maillog.7.bz2
-rw-r--r-- 1 root wheel - 29084 Apr 20 13:05 messages
-rw-r--r-- 1 root wheel - 9796 Apr 9 20:00 messages.0.bz2
-rw-r--r-- 1 root wheel - 8413 Mar 29 18:00 messages.1.bz2
-rw-r--r-- 1 root wheel - 11456 Mar 27 17:00 messages.2.bz2
-rw-r--r-- 1 root wheel - 7760 Mar 26 16:00 messages.3.bz2
-rw------- 1 root wheel - 208 Apr 10 03:03 mount.today
-rw------- 1 root wheel - 165 Mar 28 03:03 mount.yesterday
-rw------- 1 root wheel - 0 Mar 28 03:03 pf.today
-rw-r----- 1 root network - 62 Mar 13 15:49 ppp.log
-rw------- 1 root wheel - 62 Mar 13 15:49 security
-rw-r----- 1 root wheel - 728 Apr 20 13:02 sendmail.st
-rw-r----- 1 root wheel - 728 Apr 17 18:08 sendmail.st.0
-rw-r----- 1 root wheel - 728 Apr 8 03:03 sendmail.st.1
-rw-r----- 1 root wheel - 728 Apr 2 03:03 sendmail.st.2
-rw-r----- 1 root wheel - 0 Mar 26 14:00 sendmail.st.3
-rw-r----- 1 root wheel - 0 Mar 13 17:00 sendmail.st.4
-rw-r----- 1 root wheel - 0 Mar 13 16:00 sendmail.st.5
-rw-r----- 1 root wheel - 0 Feb 17 2011 sendmail.st.6
-rw------- 1 root wheel - 3534 Apr 18 03:03 setuid.today
-rw------- 1 root wheel - 3446 Mar 30 03:03 setuid.yesterday
-rw------- 1 root wheel - 1032 Mar 30 12:42 userlog
-rw-r--r-- 1 root wheel - 4972 Apr 20 13:15 wtmp
-rw-r--r-- 1 root wheel - 17232 Mar 31 17:09 wtmp.0
-rw------- 1 root wheel - 62 Mar 13 15:49 xferlog
Aqui viene la pregunta, ¿que recomiendan para detectar el error? estuve
viendo a un tal comando "crash", pero no me convence. Alguna idea?
Saludos
--
"Si no fuera por C, estaríamos escribiendo programas en BASI, PASAL, y
OBOL."
Luxas
Muchas veces en los logs no queda nada porque l máquina se colgó. Deberias
mirara la consoa, aunque me imagino que veras un kernel panic con datos
difíciles de entender.
Justamente eso, miré la consola, y nada. Voy a mirar los sensores como me
sugirieron y ver que pasa.

Saludos.
--
"Si no fuera por C, estaríamos escribiendo programas en BASI, PASAL, y
OBOL."

Luxas
maxi gadea
2012-04-20 16:07:08 UTC
Permalink
Post by Lucas Nogueron
El 20 de abril de 2012 11:56, Alejandro Vargas
Post by Alejandro Vargas
Post by Lucas Nogueron
Ando con un problemita con un server FreeBSD. De tanto en tanto se
pianta y no responde, lo unico que funciona es resetear la maquina
manualmente para que funcione todo bien por otra temporada ( que consta
de
Post by Lucas Nogueron
un par de semanas). Luego vuelvo a lo mismo, otra temporada y crash. La
cuestion es que me puse a ver los logs, en /var/logs y no encuentro
nada
Post by Alejandro Vargas
Post by Lucas Nogueron
-rw------- 1 root wheel - 83628 Apr 20 13:15 auth.log
-rw------- 1 root wheel - 48972 Apr 20 13:15 cron
-rw------- 1 root wheel - 5275 Apr 19 02:00 cron.0.bz2
-rw------- 1 root wheel - 4977 Apr 12 13:00 cron.1.bz2
-rw------- 1 root wheel - 4943 Apr 9 21:00 cron.2.bz2
-rw------- 1 root wheel - 5036 Apr 7 05:00 cron.3.bz2
-rw------- 1 root wheel - 62 Mar 13 15:49 debug.log
-rw------- 1 root wheel - 4845 Apr 20 03:03 dmesg.today
-rw------- 1 root wheel - 4732 Apr 19 03:03 dmesg.yesterday
-rw-r--r-- 1 root wheel - 28056 Apr 20 13:15 lastlog
-rw-r--r-- 1 root wheel - 62 Mar 13 15:49 lpd-errs
-rw-r----- 1 root wheel - 3099 Apr 20 13:03 maillog
-rw-r----- 1 root wheel - 579 Apr 20 00:00 maillog.0.bz2
-rw-r----- 1 root wheel - 566 Apr 19 00:00 maillog.1.bz2
-rw-r----- 1 root wheel - 947 Apr 18 00:00 maillog.2.bz2
-rw-r----- 1 root wheel - 581 Apr 13 00:00 maillog.3.bz2
-rw-r----- 1 root wheel - 572 Apr 12 00:00 maillog.4.bz2
-rw-r----- 1 root wheel - 572 Apr 11 00:00 maillog.5.bz2
-rw-r----- 1 root wheel - 1517 Apr 10 00:00 maillog.6.bz2
-rw-r----- 1 root wheel - 567 Apr 9 00:00 maillog.7.bz2
-rw-r--r-- 1 root wheel - 29084 Apr 20 13:05 messages
-rw-r--r-- 1 root wheel - 9796 Apr 9 20:00 messages.0.bz2
-rw-r--r-- 1 root wheel - 8413 Mar 29 18:00 messages.1.bz2
-rw-r--r-- 1 root wheel - 11456 Mar 27 17:00 messages.2.bz2
-rw-r--r-- 1 root wheel - 7760 Mar 26 16:00 messages.3.bz2
-rw------- 1 root wheel - 208 Apr 10 03:03 mount.today
-rw------- 1 root wheel - 165 Mar 28 03:03 mount.yesterday
-rw------- 1 root wheel - 0 Mar 28 03:03 pf.today
-rw-r----- 1 root network - 62 Mar 13 15:49 ppp.log
-rw------- 1 root wheel - 62 Mar 13 15:49 security
-rw-r----- 1 root wheel - 728 Apr 20 13:02 sendmail.st
-rw-r----- 1 root wheel - 728 Apr 17 18:08 sendmail.st.0
-rw-r----- 1 root wheel - 728 Apr 8 03:03 sendmail.st.1
-rw-r----- 1 root wheel - 728 Apr 2 03:03 sendmail.st.2
-rw-r----- 1 root wheel - 0 Mar 26 14:00 sendmail.st.3
-rw-r----- 1 root wheel - 0 Mar 13 17:00 sendmail.st.4
-rw-r----- 1 root wheel - 0 Mar 13 16:00 sendmail.st.5
-rw-r----- 1 root wheel - 0 Feb 17 2011 sendmail.st.6
-rw------- 1 root wheel - 3534 Apr 18 03:03 setuid.today
-rw------- 1 root wheel - 3446 Mar 30 03:03 setuid.yesterday
-rw------- 1 root wheel - 1032 Mar 30 12:42 userlog
-rw-r--r-- 1 root wheel - 4972 Apr 20 13:15 wtmp
-rw-r--r-- 1 root wheel - 17232 Mar 31 17:09 wtmp.0
-rw------- 1 root wheel - 62 Mar 13 15:49 xferlog
Aqui viene la pregunta, ¿que recomiendan para detectar el error? estuve
viendo a un tal comando "crash", pero no me convence. Alguna idea?
Saludos
--
"Si no fuera por C, estaríamos escribiendo programas en BASI, PASAL, y
OBOL."
Luxas
Muchas veces en los logs no queda nada porque l máquina se colgó.
Deberias
Post by Alejandro Vargas
mirara la consoa, aunque me imagino que veras un kernel panic con datos
difíciles de entender.
Justamente eso, miré la consola, y nada. Voy a mirar los sensores como me
sugirieron y ver que pasa.
Saludos.
--
"Si no fuera por C, estaríamos escribiendo programas en BASI, PASAL, y
OBOL."
Luxas
A mi me paso algo parecido nada mas que se reiniciaba. Una distro de Gentoo
y no logeaba nada, ni en consola, nada de nada. Por suerte no se ha vuelto
apagar (toco madera), todo parece que era temperatura ya que lleva 29 dias
sin reiniciarse y justo coincide que bajo mucho la temperatura ambiente.

Exitos con el Unix

Saludos
--
Maximiliano Gadea
Alejandro Vargas
2012-04-20 19:23:09 UTC
Permalink
Post by maxi gadea
A mi me paso algo parecido nada mas que se reiniciaba. Una distro de Gentoo
y no logeaba nada, ni en consola, nada de nada. Por suerte no se ha vuelto
apagar (toco madera), todo parece que era temperatura ya que lleva 29 dias
sin reiniciarse y justo coincide que bajo mucho la temperatura ambiente.
Yo también tuve problemas de reseteos una vez. Se reseteaba aleatoriamente
varias veces por semana o pasaban varias semanas sin que fallara. ¿Sabés
como se solucionó? Cambiando la fuente.
maxi gadea
2012-04-20 20:07:43 UTC
Permalink
El 20 de abril de 2012 16:23, Alejandro Vargas
Post by maxi gadea
Post by maxi gadea
A mi me paso algo parecido nada mas que se reiniciaba. Una distro de
Gentoo
Post by maxi gadea
y no logeaba nada, ni en consola, nada de nada. Por suerte no se ha
vuelto
Post by maxi gadea
apagar (toco madera), todo parece que era temperatura ya que lleva 29
dias
Post by maxi gadea
sin reiniciarse y justo coincide que bajo mucho la temperatura ambiente.
Yo también tuve problemas de reseteos una vez. Se reseteaba aleatoriamente
varias veces por semana o pasaban varias semanas sin que fallara. ¿Sabés
como se solucionó? Cambiando la fuente.
Lo mio era asi, pasaban dos dias o tres y seguro se reiniciaba. El lunes
era fijo que se habia reiniciado o tambien dos reinicios en menos de 20
min. Cambie la fuente (puse una mas grande) , siguio sin problemas un
tiempo y despues pasaron dos o tres cortes en 2 meses. Me quedaron muchas
cosas por probar, cambiar el fuente de toma en la UPS, mejorar notablemente
la refrigeracion con cooler de 220V pero por ahora va todo bien por suerte.

Saludos
--
Maximiliano Gadea
Alejandro Vargas
2012-04-21 09:33:09 UTC
Permalink
Post by maxi gadea
El 20 de abril de 2012 16:23, Alejandro Vargas
Post by maxi gadea
Post by maxi gadea
A mi me paso algo parecido nada mas que se reiniciaba. Una distro de
Gentoo
Post by maxi gadea
y no logeaba nada, ni en consola, nada de nada. Por suerte no se ha
vuelto
Post by maxi gadea
apagar (toco madera), todo parece que era temperatura ya que lleva 29
dias
Post by maxi gadea
sin reiniciarse y justo coincide que bajo mucho la temperatura ambiente.
Yo también tuve problemas de reseteos una vez. Se reseteaba
aleatoriamente
Post by maxi gadea
Post by maxi gadea
varias veces por semana o pasaban varias semanas sin que fallara. ¿Sabés
como se solucionó? Cambiando la fuente.
Lo mio era asi, pasaban dos dias o tres y seguro se reiniciaba. El lunes
era fijo que se habia reiniciado o tambien dos reinicios en menos de 20
min. Cambie la fuente (puse una mas grande) , siguio sin problemas un
tiempo y despues pasaron dos o tres cortes en 2 meses. Me quedaron muchas
cosas por probar, cambiar el fuente de toma en la UPS, mejorar
notablemente
Post by maxi gadea
la refrigeracion con cooler de 220V pero por ahora va todo bien por suerte.
En mi caso no fue por poner una fuente mas grande. La fuente había estado
funcionando buen mucho tiempo. Sencillamente parece que empezó a fallar
"porque sí". Puse otra y listo.
Rodrigo Campos
2012-04-20 17:16:03 UTC
Permalink
Post by Lucas Nogueron
Ando con un problemita con un server FreeBSD. De tanto en tanto se
pianta y no responde, lo unico que funciona es resetear la maquina
manualmente para que funcione todo bien por otra temporada ( que consta de
un par de semanas). Luego vuelvo a lo mismo, otra temporada y crash. La
cuestion es que me puse a ver los logs, en /var/logs y no encuentro nada
-rw------- 1 root wheel - 83628 Apr 20 13:15 auth.log
-rw------- 1 root wheel - 48972 Apr 20 13:15 cron
-rw------- 1 root wheel - 5275 Apr 19 02:00 cron.0.bz2
-rw------- 1 root wheel - 4977 Apr 12 13:00 cron.1.bz2
-rw------- 1 root wheel - 4943 Apr 9 21:00 cron.2.bz2
-rw------- 1 root wheel - 5036 Apr 7 05:00 cron.3.bz2
-rw------- 1 root wheel - 62 Mar 13 15:49 debug.log
-rw------- 1 root wheel - 4845 Apr 20 03:03 dmesg.today
-rw------- 1 root wheel - 4732 Apr 19 03:03 dmesg.yesterday
-rw-r--r-- 1 root wheel - 28056 Apr 20 13:15 lastlog
-rw-r--r-- 1 root wheel - 62 Mar 13 15:49 lpd-errs
-rw-r----- 1 root wheel - 3099 Apr 20 13:03 maillog
-rw-r----- 1 root wheel - 579 Apr 20 00:00 maillog.0.bz2
-rw-r----- 1 root wheel - 566 Apr 19 00:00 maillog.1.bz2
-rw-r----- 1 root wheel - 947 Apr 18 00:00 maillog.2.bz2
-rw-r----- 1 root wheel - 581 Apr 13 00:00 maillog.3.bz2
-rw-r----- 1 root wheel - 572 Apr 12 00:00 maillog.4.bz2
-rw-r----- 1 root wheel - 572 Apr 11 00:00 maillog.5.bz2
-rw-r----- 1 root wheel - 1517 Apr 10 00:00 maillog.6.bz2
-rw-r----- 1 root wheel - 567 Apr 9 00:00 maillog.7.bz2
-rw-r--r-- 1 root wheel - 29084 Apr 20 13:05 messages
-rw-r--r-- 1 root wheel - 9796 Apr 9 20:00 messages.0.bz2
-rw-r--r-- 1 root wheel - 8413 Mar 29 18:00 messages.1.bz2
-rw-r--r-- 1 root wheel - 11456 Mar 27 17:00 messages.2.bz2
-rw-r--r-- 1 root wheel - 7760 Mar 26 16:00 messages.3.bz2
-rw------- 1 root wheel - 208 Apr 10 03:03 mount.today
-rw------- 1 root wheel - 165 Mar 28 03:03 mount.yesterday
-rw------- 1 root wheel - 0 Mar 28 03:03 pf.today
-rw-r----- 1 root network - 62 Mar 13 15:49 ppp.log
-rw------- 1 root wheel - 62 Mar 13 15:49 security
-rw-r----- 1 root wheel - 728 Apr 20 13:02 sendmail.st
-rw-r----- 1 root wheel - 728 Apr 17 18:08 sendmail.st.0
-rw-r----- 1 root wheel - 728 Apr 8 03:03 sendmail.st.1
-rw-r----- 1 root wheel - 728 Apr 2 03:03 sendmail.st.2
-rw-r----- 1 root wheel - 0 Mar 26 14:00 sendmail.st.3
-rw-r----- 1 root wheel - 0 Mar 13 17:00 sendmail.st.4
-rw-r----- 1 root wheel - 0 Mar 13 16:00 sendmail.st.5
-rw-r----- 1 root wheel - 0 Feb 17 2011 sendmail.st.6
-rw------- 1 root wheel - 3534 Apr 18 03:03 setuid.today
-rw------- 1 root wheel - 3446 Mar 30 03:03 setuid.yesterday
-rw------- 1 root wheel - 1032 Mar 30 12:42 userlog
-rw-r--r-- 1 root wheel - 4972 Apr 20 13:15 wtmp
-rw-r--r-- 1 root wheel - 17232 Mar 31 17:09 wtmp.0
-rw------- 1 root wheel - 62 Mar 13 15:49 xferlog
Aqui viene la pregunta, ¿que recomiendan para detectar el error? estuve
viendo a un tal comando "crash", pero no me convence. Alguna idea?
No notas ningun patron con algun cron o cuando se ejecuta algo en particular ?
Ni la menor de como reproducirlo mas que dejarlo días, no ?

No hay un kern.log o syslog ? Está toda esa info en messages ? No será que no
tenes esos logs porque te falta correr algun daemon ?

Yo checkearia el disco (con smartmontools), memoria (con memtest) y le pondría
para monitorear un collectd o munin (collectd a mi me gusta más), así tenés info
histórica y ver qué va variando y cómo antes de que se cuelgue.

Tambien, cuando "se cuelga" que significa exactamente ? El numlock de un teclado
que ya estaba conectado no anda ? responde pings ? ssh ? sys-rq ? Si cuando se
cuelga se reinicia, probablemente al iniciar en el BIOS podés ver la
temperatura, sin tener nada instalado (aunque obvio, instalate todo)





Saludos,
Rodrigo
Lucas Nogueron
2012-04-20 17:46:14 UTC
Permalink
Post by Rodrigo Campos
No notas ningun patron con algun cron o cuando se ejecuta algo en particular ?
Ni la menor de como reproducirlo mas que dejarlo días, no ?
No che, es aleatorio. Por ahora tiene corriendo sshd en el puerto 443
, lo uso como tunel para saltear restricciones de firewall entre otras
cosas... y el 8080 para bajar torrents (transmission-daemon) a manera
de stress(ponele). No tengo manera de reproducirlo. Solo se que no es
temperatura, tension, etc puesto que esos parametros externos estan
bajo control . Si no me aseguro que la maquina anda bien (es usada y
vieja) , no le voy a poner mas servicios.
Post by Rodrigo Campos
No hay un kern.log o syslog ? Está toda esa info en messages ? No será que no
tenes esos logs porque te falta correr algun daemon ?
No hay eso, usa messages , que es dmesg. Puede que falten correr
daemons , como sugirieron antes, por ejemplo lmtools y esas cosas para
recabar info.
Post by Rodrigo Campos
Yo checkearia el disco (con smartmontools), memoria (con memtest) y le pondría
para monitorear un collectd o munin (collectd a mi me gusta más), así tenés info
histórica y ver qué va variando y cómo antes de que se cuelgue.
Suena logico
Post by Rodrigo Campos
Tambien, cuando "se cuelga" que significa exactamente ? El numlock de un teclado
que ya estaba conectado no anda ? responde pings ? ssh ? sys-rq ? Si cuando se
cuelga se reinicia, probablemente al iniciar en el BIOS podés ver la
temperatura, sin tener nada instalado (aunque obvio, instalate todo
Si, se muere. No si me explico. No responde a nada ni muestra nada
antes ni despues. Ojo, no le meto mano nunca, o sea, no es una maquina
de escritorio. La temperatura en la bios no me sale (ya lo se una
poronga).

Por lo que me dice Alejandro está pasando que no alcanza a guardar
nada en ningun log, se muere. Pero lo mas bien anda cuando reinicio.
Tampoco veo un kernel panic.

Saludos




--
"Si no fuera por C, estaríamos escribiendo programas en BASI, PASAL, y OBOL."

Luxas
Rodrigo Campos
2012-04-20 22:54:41 UTC
Permalink
Post by Lucas Nogueron
Post by Rodrigo Campos
Tambien, cuando "se cuelga" que significa exactamente ? El numlock de un teclado
que ya estaba conectado no anda ? responde pings ? ssh ? sys-rq ? Si cuando se
cuelga se reinicia, probablemente al iniciar en el BIOS podés ver la
temperatura, sin tener nada instalado (aunque obvio, instalate todo
Si, se muere. No si me explico.
No :-D
Post by Lucas Nogueron
No responde a nada ni muestra nada
antes ni despues. Ojo, no le meto mano nunca, o sea, no es una maquina
de escritorio. La temperatura en la bios no me sale (ya lo se una
poronga).
Que es que no responda si "no le metes mano" ? Y pings responde ? El numlock ?
sysrq ? El ssh ?

Yo creo que lo que haria es, como te dije, checkear esas cosas (disco, mem,
etc.), instalarle algo para monitorizar "todo" (o muchas cosas, asegurate de
mirar temperatura de la CPU, discos, sistema, uso de memoria, swap, cpu, etc,
etc.) tipo collectd. Y la proxima vez que pase, fijate de probar si responde
pings, sysrq, ssh, etc.

Tambien hay cosas tipo el mcelog en Linux, ni idea si andan en BSD o hay
equivalentes que te puedan ser útiles.




Saludos,
Rodrigo
Lucas Nogueron
2012-04-21 12:41:11 UTC
Permalink
Post by Rodrigo Campos
Post by Lucas Nogueron
Post by Rodrigo Campos
Tambien, cuando "se cuelga" que significa exactamente ? El numlock de un teclado
que ya estaba conectado no anda ? responde pings ? ssh ? sys-rq ? Si cuando se
cuelga se reinicia, probablemente al iniciar en el BIOS podés ver la
temperatura, sin tener nada instalado (aunque obvio, instalate todo
Si, se muere. No si me explico.
No :-D
Post by Lucas Nogueron
No responde a nada ni muestra nada
antes ni despues. Ojo, no le meto mano nunca, o sea, no es una maquina
de escritorio. La temperatura en la bios no me sale (ya lo se una
poronga).
Que es que no responda si "no le metes mano" ? Y pings responde ? El numlock ?
sysrq ? El ssh ?
Muerta, en todo sentido. Meter mano es. literalmente eso, meto la mano
en el cable de alimentacion de 220v y lo desenchufo. Me da paja los 5
o 10 seg de tener apretado el pulsador de "power on" :)
Post by Rodrigo Campos
Yo creo que lo que haria es, como te dije, checkear esas cosas (disco, mem,
etc.), instalarle algo para monitorizar "todo" (o muchas cosas, asegurate de
mirar temperatura de la CPU, discos, sistema, uso de memoria, swap, cpu, etc,
etc.) tipo collectd. Y la proxima vez que pase, fijate de probar si responde
pings, sysrq, ssh, etc.
Eso queria, alguna utileria que me ayude en el proceso.

Gracias. Saludos.
--
"Si no fuera por C, estaríamos escribiendo programas en BASI, PASAL, y OBOL."

Luxas
Fede
2012-04-21 16:53:11 UTC
Permalink
Post by Lucas Nogueron
[...]
Post by Rodrigo Campos
Yo creo que lo que haria es, como te dije, checkear esas cosas (disco, mem,
etc.), instalarle algo para monitorizar "todo" (o muchas cosas, asegurate de
mirar temperatura de la CPU, discos, sistema, uso de memoria, swap, cpu, etc,
etc.) tipo collectd. Y la proxima vez que pase, fijate de probar si responde
pings, sysrq, ssh, etc.
Eso queria, alguna utileria que me ayude en el proceso.
Gracias. Saludos.
Otra cosa que puede servir es el remote syslog, o sea mandar por UDP a
loguear todo a otro server. Es facil de configurar.
Sefer
2012-04-23 13:24:23 UTC
Permalink
Buenas,

Estoy aprendiendo un monton con todos los comentarios-sugerencias.

Mis dos centavos: cuando la PC "muere" que no llega a escribir nada (como parece) es muuuy posible que sea hardware...

Mis cuelgues con linux fue una vez bloques de RAM, y otra vez la fuente.


A ver si nos enteramos como termina esta pelicula.


Saludos. Sefer.
Asunto: Re: Detectar crashes/freezes en FreeBSD (o similates)
Fecha: viernes, 20 de abril de 2012, 07:54 pm
On Fri, Apr 20, 2012 at 02:46:14PM
Post by Lucas Nogueron
Post by Rodrigo Campos
Tambien, cuando "se cuelga" que significa
exactamente ? El numlock de un teclado
Post by Lucas Nogueron
Post by Rodrigo Campos
que ya estaba conectado no anda ? responde pings ?
ssh ? sys-rq ? Si cuando se
Post by Lucas Nogueron
Post by Rodrigo Campos
cuelga se reinicia, probablemente al iniciar en el
BIOS podés ver la
Post by Lucas Nogueron
Post by Rodrigo Campos
temperatura, sin tener nada instalado (aunque
obvio, instalate todo
Post by Lucas Nogueron
Si, se muere. No si me explico.
No :-D
Post by Lucas Nogueron
No responde a nada ni muestra nada
antes ni despues. Ojo, no le meto mano nunca, o sea, no
es una maquina
Post by Lucas Nogueron
de escritorio. La temperatura en la bios no me sale (ya
lo se una
Post by Lucas Nogueron
poronga).
Que es que no responda si "no le metes mano" ? Y pings
responde ? El numlock ?
sysrq ? El ssh ?
Yo creo que lo que haria es, como te dije, checkear esas
cosas (disco, mem,
etc.), instalarle algo para monitorizar "todo" (o muchas
cosas, asegurate de
mirar temperatura de la CPU, discos, sistema, uso de
memoria, swap, cpu, etc,
etc.) tipo collectd. Y la proxima vez que pase, fijate de
probar si responde
pings, sysrq, ssh, etc.
Tambien hay cosas tipo el mcelog en Linux, ni idea si andan
en BSD o hay
equivalentes que te puedan ser útiles.
Saludos,
Rodrigo
Lucas Nogueron
2012-04-23 17:46:24 UTC
Permalink
Post by Sefer
Buenas,
Estoy aprendiendo un monton con todos los comentarios-sugerencias.
Mis dos centavos: cuando la PC "muere" que no llega a escribir nada (como parece) es muuuy posible que sea hardware...
Mis cuelgues con linux fue una vez bloques de RAM, y otra vez la fuente.
A ver si nos enteramos como termina esta pelicula.
Está bien voy contando, casi seguro que es error de hardware , BSD rocks!!:

Lo primero a testear es el disco rigido, tengo dos , con smartmontools
me da la siguiente info:

freebsd# smartctl -H /dev/ad0
smartctl 5.40 2010-10-16 r3189 [FreeBSD 8.2-RELEASE i386] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

freebsd# smartctl -H /dev/ad1
smartctl 5.40 2010-10-16 r3189 [FreeBSD 8.2-RELEASE i386] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Please note the following marginal Attributes:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE
UPDATED WHEN_FAILED RAW_VALUE
3 Spin_Up_Time 0x0007 100 001 025 Pre-fail
Always In_the_past 3968

Como se ve, el primero parece estar bien, el segundo pasa pero se
queja de algo ... any ideas?

Saludos.
--
"Si no fuera por C, estaríamos escribiendo programas en BASI, PASAL, y OBOL."

Luxas
Rodrigo Campos
2012-04-23 18:00:39 UTC
Permalink
Post by Lucas Nogueron
Post by Sefer
Buenas,
Estoy aprendiendo un monton con todos los comentarios-sugerencias.
Mis dos centavos: cuando la PC "muere" que no llega a escribir nada (como parece) es muuuy posible que sea hardware...
Mis cuelgues con linux fue una vez bloques de RAM, y otra vez la fuente.
A ver si nos enteramos como termina esta pelicula.
Lo primero a testear es el disco rigido, tengo dos , con smartmontools
freebsd# smartctl -H /dev/ad0
Fijate de correr los tests, que los corre directamente el disco, hay varios. Los
que me acuerdo de memoria era que le pasabas "-t long" (tipo smartctl -t long
<device>" y "-t short"





Saludos,
Rodrigo
Lucas Nogueron
2012-04-23 18:28:46 UTC
Permalink
Post by Rodrigo Campos
Post by Lucas Nogueron
Post by Sefer
Buenas,
Estoy aprendiendo un monton con todos los comentarios-sugerencias.
Mis dos centavos: cuando la PC "muere" que no llega a escribir nada (como parece) es muuuy posible que sea hardware...
Mis cuelgues con linux fue una vez bloques de RAM, y otra vez la fuente.
A ver si nos enteramos como termina esta pelicula.
Lo primero a testear es el disco rigido, tengo dos , con smartmontools
freebsd# smartctl -H /dev/ad0
Fijate de correr los tests, que los corre directamente el disco, hay varios. Los
que me acuerdo de memoria era que le pasabas "-t long" (tipo smartctl -t long
<device>" y "-t short"
Ahi fué al menos, lo está pasando. Pero antes le habia hecho unos cortos:

SMART Error Log Version: 1
ATA Error Count: 51 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 51 occurred at disk power-on lifetime: 4521 hours (188 days + 9 hours)
When the command that caused the error occurred, the device was
active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 51 00 01 4f c2 a0 Error: ABRT

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d9 00 01 4f c2 a0 00 00:09:38.000 SMART DISABLE OPERATIONS
ec 20 3f 01 00 00 a0 00 00:09:37.938 IDENTIFY DEVICE
10 20 3f 01 00 00 a0 00 00:09:37.938 RECALIBRATE [OBS-4]
91 20 3f 01 00 00 af 00 00:09:37.938 INITIALIZE DEVICE
PARAMETERS [OBS-6]
ec 00 00 01 00 00 a0 00 00:09:37.938 IDENTIFY DEVICE

Error 50 occurred at disk power-on lifetime: 4521 hours (188 days + 9 hours)
When the command that caused the error occurred, the device was
active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 51 00 01 4f c2 a0 Error: ABRT

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d9 00 01 4f c2 a0 00 00:00:56.063 SMART DISABLE OPERATIONS
ec 20 3f 01 00 00 a0 00 00:00:56.063 IDENTIFY DEVICE
10 20 3f 01 00 00 a0 00 00:00:56.063 RECALIBRATE [OBS-4]
91 20 3f 01 00 00 af 00 00:00:56.063 INITIALIZE DEVICE
PARAMETERS [OBS-6]
ec 00 00 01 00 00 a0 00 00:00:56.063 IDENTIFY DEVICE

Error 49 occurred at disk power-on lifetime: 4521 hours (188 days + 9 hours)
When the command that caused the error occurred, the device was
active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 51 00 01 4f c2 a0 Error: ABRT

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d9 00 01 4f c2 a0 00 00:00:32.000 SMART DISABLE OPERATIONS
ec 20 3f 01 00 00 a0 00 00:00:32.000 IDENTIFY DEVICE
10 20 3f 01 00 00 a0 00 00:00:32.000 RECALIBRATE [OBS-4]
91 20 3f 01 00 00 af 00 00:00:32.000 INITIALIZE DEVICE
PARAMETERS [OBS-6]
ec 00 00 01 00 00 a0 00 00:00:32.000 IDENTIFY DEVICE

Error 48 occurred at disk power-on lifetime: 4521 hours (188 days + 9 hours)
When the command that caused the error occurred, the device was
active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 51 00 01 4f c2 a0 Error: ABRT

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d9 00 01 4f c2 a0 00 00:00:25.063 SMART DISABLE OPERATIONS
ec 20 3f 01 00 00 a0 00 00:00:25.063 IDENTIFY DEVICE
10 20 3f 01 00 00 a0 00 00:00:25.063 RECALIBRATE [OBS-4]
91 20 3f 01 00 00 af 00 00:00:25.063 INITIALIZE DEVICE
PARAMETERS [OBS-6]
ec 00 00 01 00 00 a0 00 00:00:25.063 IDENTIFY DEVICE

Error 47 occurred at disk power-on lifetime: 4520 hours (188 days + 8 hours)
When the command that caused the error occurred, the device was
active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 51 00 01 4f c2 a0 Error: ABRT

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d9 00 01 4f c2 a0 00 00:05:53.063 SMART DISABLE OPERATIONS
ec 20 3f 01 00 00 a0 00 00:05:53.063 IDENTIFY DEVICE
10 20 3f 01 00 00 a0 00 00:05:53.063 RECALIBRATE [OBS-4]
91 20 3f 01 00 00 af 00 00:05:53.063 INITIALIZE DEVICE
PARAMETERS [OBS-6]
ec 00 00 01 00 00 a0 00 00:05:53.063 IDENTIFY DEVICE

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining
LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 12005 -
# 2 Extended offline Completed without error 00% 6509 -
# 3 Short offline Completed without error 00% 6509 -

Note: selective self-test log revision number (0) not 1 implies that
no selective self-test has ever been run
SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has
ever been run
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
--
"Si no fuera por C, estaríamos escribiendo programas en BASI, PASAL, y OBOL."

Luxas
MAbeeTT
2012-04-26 01:17:01 UTC
Permalink
Post by Lucas Nogueron
Post by Sefer
Buenas,
Estoy aprendiendo un monton con todos los comentarios-sugerencias.
Mis dos centavos: cuando la PC "muere" que no llega a escribir nada (como parece) es muuuy posible que sea hardware...
Mis cuelgues con linux fue una vez bloques de RAM, y otra vez la fuente.
A ver si nos enteramos como termina esta pelicula.
Lo primero a testear es el disco rigido, tengo dos , con smartmontools
freebsd# smartctl -H /dev/ad0
smartctl 5.40 2010-10-16 r3189 [FreeBSD 8.2-RELEASE i386] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
freebsd# smartctl -H /dev/ad1
smartctl 5.40 2010-10-16 r3189 [FreeBSD 8.2-RELEASE i386] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE
UPDATED  WHEN_FAILED RAW_VALUE
 3 Spin_Up_Time            0x0007   100   001   025    Pre-fail
Always   In_the_past 3968
Como se ve, el primero parece estar bien, el segundo pasa pero se
queja de algo ... any ideas?
http://en.wikipedia.org/wiki/S.M.A.R.T.#Known_ATA_S.M.A.R.T._attributes

Y nunca olvides: GIYF
--
             .::MAbeeTT::.

 mabeett [at] gmail [ dot] com
Lucas Nogueron
2012-04-26 11:33:17 UTC
Permalink
Post by MAbeeTT
Post by Lucas Nogueron
Como se ve, el primero parece estar bien, el segundo pasa pero se
queja de algo ... any ideas?
http://en.wikipedia.org/wiki/S.M.A.R.T.#Known_ATA_S.M.A.R.T._attributes
Viendo los logs de SMART

Para el disco 1:

ER ST SC SN CL CH DH
-- -- -- -- -- -- --
01 51 01 6c 89 48 e0 Error: AMNF at LBA = 0x0048896c = 4753772

01 0x01 Read Error RateLower [13] (Vendor specific raw value.)
Stores data related to the rate of hardware read errors that occurred
when reading data from a disk surface. The raw value has different
structure for different vendors and is often not meaningful as a
decimal number.

Para el disco 2:

ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 51 00 01 4f c2 a0 Error: ABRT


4 0x04 Start/Stop Count A tally of spindle start/stop cycles. The
spindle turns on, and hence the count is increased, both when the hard
disk is turned on after having before been turned entirely off
(disconnected from power source) and when the hard disk returns from
having previously been put to sleep mode.[14]


Ya hice prueba largas y pruebas cortas de SMART, todas dieron passed..
El error 01 parece que es critico. Alguna sugerencia? problemas
detectado?
Post by MAbeeTT
Y nunca olvides: GIYF
Siempre tan sutil ud.

Sigo probando otras cosas con collectd.

Gracias.

Saludos.
--
"Si no fuera por C, estaríamos escribiendo programas en BASI, PASAL, y OBOL."

Luxas
Lucas Nogueron
2012-04-26 11:46:53 UTC
Permalink
Post by MAbeeTT
Y nunca olvides: GIYF
Bueno, siguiendo el consejo de MAbeeTT, llegué a ésta interesante pagina.

https://twiki.cern.ch/twiki/bin/view/FIOgroup/DiskRefSmartReplacementRequirements

Donde extraigo:

[...]

Uncorrectable sector errors

The drive also records any uncorrectable sector problems in the SMART
drive error log read by smartctl -a. Any occurrence of these problems
requires a disk replacement.

# smartctl -a -d 3ware,3 /dev/twe0

Error 1 occurred at disk power-on lifetime: 259 hours (10 days + 19 hours)
When the command that caused the error occurred, the device was
doing SMART Offline or Self-test.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
01 51 10 c1 01 a0 e0 Error: AMNF 16 sectors at LBA = 0x00a001c1 = 10486209

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 10 c0 01 a0 e0 00 11d+17:33:11.640 READ DMA
c8 00 10 80 5f 7c e0 00 11d+17:33:11.640 READ DMA
c8 00 10 80 02 70 e0 00 11d+17:33:11.640 READ DMA
ca 00 10 80 03 30 e0 00 11d+17:33:11.640 WRITE DMA
c8 00 10 80 03 30 e0 00 11d+17:33:11.590 READ DMA

The errors are indicated by one of the following

Error: AMNF from a sector which was not writeable
Error: UNC from an uncorrectable sector

[...]

Parece que la falla está en el disco rigido 1. No queda mas que
cambiarlo para confirmarlo. Gracias a todos.
--
"Si no fuera por C, estaríamos escribiendo programas en BASI, PASAL, y OBOL."

Luxas
Loading...