<div dir="ltr"><div dir="ltr">On Fri, Feb 25, 2022 at 10:09 PM Harald Sitter <<a href="mailto:sitter@kde.org">sitter@kde.org</a>> wrote:<br></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">On Mon, Feb 21, 2022 at 11:05 AM Ben Cooksley <<a href="mailto:bcooksley@kde.org" target="_blank">bcooksley@kde.org</a>> wrote:<br>
><br>
> On Mon, Feb 21, 2022 at 10:01 PM Harald Sitter <<a href="mailto:sitter@kde.org" target="_blank">sitter@kde.org</a>> wrote:<br>
>><br>
>> On Thu, Feb 10, 2022 at 1:11 PM Aleix Pol <<a href="mailto:aleixpol@kde.org" target="_blank">aleixpol@kde.org</a>> wrote:<br>
>> ><br>
>> > On Thu, Feb 10, 2022 at 11:05 AM Ben Cooksley <<a href="mailto:bcooksley@kde.org" target="_blank">bcooksley@kde.org</a>> wrote:<br>
>> > ><br>
>> > ><br>
>> > ><br>
>> > > On Thu, Feb 10, 2022 at 8:20 AM Aleix Pol <<a href="mailto:aleixpol@kde.org" target="_blank">aleixpol@kde.org</a>> wrote:<br>
>> > >><br>
>> > >> [Snip]<br>
>> > >><br>
>> > >> We still haven't discussed here is how to prevent this problem from<br>
>> > >> happening again.<br>
>> > >><br>
>> > >> If we don't have information about what is happening, we cannot fix problems.<br>
>> > ><br>
>> > ><br>
>> > > Part of the issue here is that the problem only came to Sysadmin attention very recently, when the system ran out of disk space as a result of growing log files.<br>
>> > > It was at that point we realised we had a serious problem.<br>
>> > ><br>
>> > > Prior to that the system load hadn't climbed to dangerous levels (> number of CPU cores) and Apache was keeping up with the traffic, so none of our other monitoring was tripped.<br>
>> > ><br>
>> > > If you have any thoughts on what sort of information you are thinking of that would be helpful.<br>
>> ><br>
>> > We could have plots of the amount of queries we get with a KNewStuff/*<br>
>> > user-agent over time and their distribution.<br>
>> ><br>
>> > > It would definitely be helpful though to know when new software is going to be released that will be interacting with the servers as we will then be able to monitor for abnormalities.<br>
>> ><br>
>> > We make big announcements of every Plasma release... (?)<br>
>> ><br>
>> > >> Is there anything that could be done in this front? The issue here<br>
>> > >> could have been addressed months ago, we just never knew it was<br>
>> > >> happening.<br>
>> > ><br>
>> > ><br>
>> > > One possibility that did occur to me today would be for us to integrate some kind of killswitch that our applications would check on first initialisation of functionality that talks to KDE.org servers.<br>
>> > > This would allow us to disable the functionality in question on user systems.<br>
>> > ><br>
>> > > The check would only be done on first initialization to keep load low, while still ensuring all users eventually are affected by the killswitch (as they will eventually need to logout/reboot for some reason or another).<br>
>> > ><br>
>> > > The killswitch would probably work best if it had some kind of version check in it so we could specify which versions are disabled.<br>
>> > > That would allow for subsequent updates - once delivered by distributions - to restore the functionality (while leaving it disabled for those who haven't updated).<br>
>> ><br>
>> > The file we are serving here effectively is the kill switch to all of KNewStuff.<br>
>><br>
>> I'm a bit late to the party but for future reference I think this<br>
>> was/is an architectural scaling problem on the server side as much as<br>
>> a bug on the client. If just https load is the problem then the<br>
>> "hotfix" is to use a HTTP load balancer until fixes make it into the<br>
>> clients, killing the clients is like the last resort ever. I'm sure we<br>
>> have the money to afford a bunch of cloud nodes serving as selective<br>
>> proxy caches for a month to balance out the KNS load on the canonical<br>
>> server.<br>
><br>
><br>
> This was a multi-fold bug:<br>
><br>
> 1) Sysadmin allowing a compatibility endpoint to remain alive for years after we told people to stop using it and to use the new one (which is on a CDN and which would have handled this whole issue much better)<br>
> 2) Developers writing code to talk to KDE.org infrastructure without consulting Sysadmin, especially where it deviated from previously established patterns.<br>
><br>
> In terms of scalability I disagree - the system is not being used here in a manner for which it was not designed.<br>
><br>
> This system is intended to serve downloads of KDE software and associated data files to distributors and end users. These are actions that are expected to:<br>
> a) Be undertaken on an infrequent basis; and<br>
> b) Be undertaken as a result of user initiated action (such as clicking a download link)<br>
><br>
> It was never intended to be used to serve configuration data files to end user systems. We have <a href="http://autoconfig.kde.org" rel="noreferrer" target="_blank">autoconfig.kde.org</a> for that.<br>
<br>
I'm not saying it should be. I'm saying instead of crippling our<br>
software we should have made the architecture on the other end scale<br>
as a hotfix and then fix the actual bug - that can still be hurried<br>
along, I'm sure the involved developers would have been entirely<br>
appreciative of the severity. The hip shooting doomsdaying I've seen<br>
instead can surely only have demotivated people and came over as<br>
unjustly aggressive and I'm sure peoples motivation to work on our<br>
software in general has greatly suffered as a result. If we removed<br>
features because they occasionally have bugs we may as well pack up<br>
shop and stop making software altogether.<br></blockquote><div><br></div><div>The 'hip shooting' as it were is a consequence of two things:</div><div><br></div><div>a) Fixes to our software often only being made in the 'latest' version; and</div><div>b) Sysadmin announcements being ignored by certain elements of our community over the years.</div><div><br></div><div>In the case of (a) it is quite common for it to take years for fixes to land on end user systems, especially if you have to wait for the LTS cycle to come around for more long lived distributions.</div><div>I should note that the more long lived distributions are usually the more conservative when it comes to backporting fixes (and may have even refused in some cases but I can't recall for certain).</div><div><br></div><div>During this time period there is usually pressure from Developers on Sysadmin to keep the older versions functional for users, which incurs a maintenance cost on us (for something we had no ownership of).</div><div><br></div><div>To give a bit of background to this:</div><div><br></div><div>The endpoint on <a href="http://download.kde.org">download.kde.org</a> was migrated to <a href="http://autoconfig.kde.org">autoconfig.kde.org</a> back in July 2016 as part of Sysadmin moves to simplify our systems and make them more maintainable in the long run.</div><div>As part of this developers were asked to update their applications.</div><div><br></div><div>This migration pretty much immediately caused breakages in parts of Plasma as they used QNetworkAccessManager without support for redirects.</div><div>Usage of QNetworkAccessManager is something I had warned about repeatedly since 2012 (when we needed to move some files for Marble and ended up having to put in a workaround for that due to the lack of redirect support).</div><div>At the time, the Plasma developers opted to fix the issue by implementing redirect support (good) but did not update the *.knsrc files for any of the affected applications (bad).</div><div><br></div><div>Those same *.knsrc files are now in part responsible for the Denial of Service attack we are facing.</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>
> The system in question is handling the load extremely well and far beyond my expectations - it is fairly unfathomable that <a href="http://download.kde.org" rel="noreferrer" target="_blank">download.kde.org</a> and <a href="http://files.kde.org" rel="noreferrer" target="_blank">files.kde.org</a> would receive traffic on the order of 500-600 requests per second.<br>
> During this time the highest load I have seen has been around 8 - and despite this being uncomfortably busy it has not fallen over or dropped the ball for both it's BAU activity as well as the abuse it has taken.<br>
> (My extreme level of concern on this matter has been because I knew that if we hit a major release such as for Krita we would likely reach the point that the system would no longer be able to cope)<br>
><br>
> I should note that I do not believe in temporary fixes for any issue, as they often become permanent fixes - and a cluster of cloud nodes would have to remain around for many months if not longer had I not aggressively pushed for the fixes to be backported.<br>
<br>
We'll have to agree to disagree because I don't know what disabling a<br>
feature is if not a temporary fix.<br></blockquote><div><br></div><div>Disabling a feature prevents the end user from creating further harm until their system is updated to a fixed version.</div><div>Leaving the feature enabled on systems without a fix allows the problem to continue.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>
> Case in point here is Plasma - several of the applications still using <a href="http://download.kde.org/ocs/providers.xml" rel="noreferrer" target="_blank">download.kde.org/ocs/providers.xml</a> were in Plasma - being KWin and KSysguard.<br>
> This is despite Plasma being broken back in 2016 (in those same areas none the less!) when we moved the file over to <a href="http://autoconfig.kde.org" rel="noreferrer" target="_blank">autoconfig.kde.org</a>.<br>
><br>
> I should note that Discover has had issues with creating Denial of Service problems well before this, with bugs/tickets being filed back in 2017 in relation to this (see <a href="https://bugs.kde.org/show_bug.cgi?id=379193" rel="noreferrer" target="_blank">https://bugs.kde.org/show_bug.cgi?id=379193</a>).<br>
> This is now the third time issues of this nature have been raised.<br>
<br>
Seems to me this is now the 3rd chance to revise the architecture to<br>
not require doom and gloom hip shooting because the servers are on<br>
fire. And more importantly this is the third chance to conduct<br>
considerate post mortem discussion on how to prevent this sort of fire<br>
fighting in the future.<br></blockquote><div><br></div><div>As mentioned previously, the best option would be a "kill switch" to allow us to disable functionality in applications where the code does not behave correctly.</div><div>The version number can then be updated as part of fixes we deliver to distributions, which would re-enable the functionality after users apply the updates.</div><div><br></div><div>Note that the ocs/providers.xml file is not a kill switch.</div><div><br></div><div>I think it would probably be good if Discover had a failsafe function that prevented a "Check for updates" being run too frequently and would disable that if it tried to run too often until it "cooled down".</div><div>This particularly applies to anything not being triggered by the user.</div><div><br></div><div>For instance if you have just checked for updates 30 seconds ago, chances are there are not any new updates available, so you shouldn't be refreshing.</div><div><br></div><div>Finally, a detailed review of the network related functionality in Discover would be nice to see if there are any other issues we are not aware of.</div><div>Given there have now been three sets of fixes made to it, i'd hope that all is now well though!</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>
HS<br></blockquote><div><br></div><div>Thanks,</div><div>Ben </div></div></div>