Minden szoftverben van hiba. Ha a szoftverben nincs hiba, akkor jön egy olyan felhasználó, aki tudja úgy használni, hogy összeessen. És akkor elgondolkodhatsz azon, hogy a szoftverben van-e a hiba, vagy a felhasználóban.
De ha nem hobbi programról van szó, akkor a felhasználó egyben ügyfél is, és ez megválaszolja a kérdést.
Az ügyfélnek mindig igaza van.
Nemrég összeomlott egy olyan rendszer, ami több, mint öt éves és több helyen üzemel stabilan. Ilyen is van. Bejelentkezni a rendszerre nem lehet (éles, adatok, és security), hát akkor nyomozzunk vaktában. Lekértük a logokat napló fájlokat. Csak az látszott, hogy öt másodperc helyett négy óra alatt állt le a rendszer, amikor szabályosan megpróbálták leállítani.
Csak halkan megjegyzem, hogy az ügyfél kivárta (szerintem du. otthagyta a rendszert), és nem lőtte le a processzeket.
Lekértük az összes többi modul naplót is. Na ott már láttunk valamit. Hamarosan rájöttünk, hogy mi volt a rendszer gondja, a folyamatosan működő Linux rendszer alatt valaki vagy valami átállította a hozzáférési jogosultságokat, és nem fért hozzá a programunk olyan fájlokhoz ami kellett neki, és ezzel igencsak küzdött a szoftver. Nem számítottunk rá, hogy egy beüzemelt éles rendszert valaki nekiáll piszkálni. Meg lehetett volna úgy is csinálni a rendszert, hogy ne csücsüljön le, de erre nem gondoltunk. Amúgy most is úgy gondolnám, hogy ezt nem lett volna illendő egy üzemelési környezetben megtenni (mármint, hogy egyszercsak megváltozik a hozzáférési jogosultság) de valahogy megtörtént.
Leírtuk, ahogyan kell, tessék visszaadni a jogosultságot, program újraindul és működni fog. Jira issue resolv-ba, várjuk a visszajelzést. Visszajelzés:
Nem volt semmilyen jogosultság módosítás, nem tudjuk mi történhetett. Most sem állítottunk semmit, viszont most már működik.
Aha...