Dienstag, 19. März 2024

Können wir 1000 GPUs pro Hochschule dauerhaft finanzieren?

Es ist immer wieder erstaunlich, wie viel Hollywood in einer Rede eines Vorstandsvorsitzenden eines US-Tech-Unternehmens zu finden ist. Gestern abend zeigte Jensen Huang von NVIDIA auf seiner Entwicklerkonferenz einen langen Trailerfilm, in dem Galaxien, Operationen und Wirbelstürme zu sehen waren. Anschließend gab es 90min harte Technologie, aber auf die Anwendungen aus Astrophysik, Medizin und Geowissenschaften kam er immer wieder zurück. Wenn man die Welt zu einem besseren Ort machen möchte, ist das kein schlechter Ausgangspunkt. 

Diesbezüglich würden mir die Astrophysiker:innen, Mediziner:innen und Geowissenschaftler:innen meiner eigenen, kleinen Universität sicherlich zustimmen. Im nächsten Satz würden sie aber Forderungen stellen: um in der Forschung wettbewerbsfähig zu bleiben, brauchen wir auch GPUs. Am liebsten ganze Cluster. Großgeräteanträge bei der DFG wäre doch eine Möglichkeit?

Ich sehe die Notwendigkeit, um wissenschaftlich am Ball zu bleiben. Ich sehe auch die Problematik der dauerhaften Finanzierung einer solchen Investition. Die Bundesförderung übernimmt bei der Erstanschaffung die Hälfte, die andere Hälfte muss die Uni aus ihren Mitteln bestreiten. Das wird nicht wenig sein, und Investitionen drum herum, in die Infrastruktur und Klimatisierung des Rechenzentrums, kommen noch dazu. Nach 4-5 Jahren (wenn es überhaupt so lange dauert), muss vermutlich die ganze Hardware erneuert und durch GPUs der neuesten Generation ersetzt werden. 

Ist das von allen Universitäten leistbar? Vermutlich nicht. Große Universitäten und solche mit einer guten Zusatzfinanzierung aus Overheads, z.B. Technische Universitäten, werden sich damit leichter tun als kleinere Hochschulen.

Der Ausweg liegt in der wissenschaftlichen Kooperation und der Zentralisierung der KI-Infrastruktur auf wenige Rechenzentren, vermutlich nur eines oder zwei pro Bundesland. Hier braucht es einen fairen Zugriff auf die Rechenleistung, Schulung und Support für alle Anwender in allen beteiligten Hochschulen, eine Einigung auf steuerliche Regelungen, und bezüglich einer lastorientierten Kostenbeteiligung der Endnutzer. 

Das einzelne Rechenzentrum der einzelnen Universität ist aus der Nummer leider raus.

Freitag, 26. Januar 2024

Zugang zu Generativer KI für deutsche Universitäten

Eine aktuelle Frage, die mir als CIO gestellt wird, ist ob und wie Forschende, Lehrende, Studierende und die Verwaltung Zugang zu generativen KI-Anwendungen erhalten können. Dabei geht es nicht um die Nutzung von KI innerhalb der Hochschule (wie hier für Studium und Lehre beschrieben), sondern schlicht um eine ungefilterte Möglichkeit, Texte, Daten und Grafiken mit Hilfe von KI zu erstellen oder zu verbessern. Vor allem für Forschende ist es interessant, das Schreiben von wissenschaftlichen Texten, von Programmiercode oder Datenauswertungen zu beschleunigen. Und die versprochenen Produktionsgewinne von KI für Verwaltungen könnten gerade in Hochschulen viel bewirken.

Was kann die Hochschule unternehmen? Eine direkte Möglichkeit wäre, allen Hochschulangehörigen einen persönlichen ChatGPT Plus Tarif für 20 USD pro Monat zur Verfügung zu stellen. Derzeit (Januar 2024) werden von OpenAI aber keine Campuslizenzen für Universitäten angeboten und eine rasche Berechnung ergibt für 1000 Verwaltungsmitarbeitende Kosten von 240.000 EUR p.a. und für 10.000 Studierende 2.4 Mio EUR p.a. Das übersteigt sicherlich das Budget fast jeder Hochschule.

Welche Alternativen gibt es? Das Abrechnungsverfahren von OpenAI funktioniert so, dass "pay per use" nach der Menge an Abfragen (bzw. Token) abgerechnet wird. Eine monatliche Flat-fee als Abonnement lohnt sich also nur, wenn man mehr Abfragen/Token absendet, als im Monatsbeitrag inkludiert ist. Das wird für die meisten Universitätsangehörigen nicht zutreffen. Einige Universitäten haben daher einen einzigen Pro-Account aufgebaut, über den alle Anfragen/Token aus der Hochschule gebündelt versendet werden. Die entstehenden Kosten können entweder zentral über die Hochschule gezahlt oder den Sendenden in Rechnung gestellt werden, sofern möglich. Beispiele sind HAWK, das z.B. in Hildesheim oder Ingolstadt eingesetzt wird, oder die Anbindung über Moodle und Azure wie bei der RWTH Aachen.

Wenn es nicht OpenAI sein muss: falls die Hochschule ohnehin schon Microsoft 365 im Einsatz hat, kann über Copilot for M365 auf Generative KI zugegriffen werden. Bei der häufigsten Campus-Lizenzvariante A3 ist der Zugriff über das Web bereits in den Lizenzkosten beinhaltet. Copilot Pro für die teurere Variante A5 kostet 20 USD pro Monat Aufpreis - erst dann gibt es Copilot für Word, Teams und Powerpoint. Google Bard ist derzeit in Deutschland noch nicht erhältlich. Meta Llama2 verfolgt einen anderen Ansatz; das Modell kann für Forschungszwecke heruntergeladen werden.

Was fällt auf? Alles ausländische Anbieter, d.h. es greifen AI Act, Digital Services Act, und DSGVO. für Urheberrecht und Datenschutz. Bei den einfachsten Lizenzen werden eingeschickte Daten, also z.B. auch Texte über neueste Forschung, vom KI-Server weiterverarbeitet. Ihr Inhalt ist ab dann für alle Nutzer weltweit zugänglich und beeinflusst alle Antworten der KI. Erst ab Enterprise Lizenzen gibt es Schutzverträge, welche eine Weiterverarbeitung regeln. Insofern muss dringend davon abgeraten werden, Forschenden und Mitarbeitenden in der Verwaltung personenbezogene Lizenzen zu beschaffen. Innerhalb eines Jahres weiß der KI-Server ansonsten mehr über die neueste Forschung in der Hochschule als deren Leitung...


Freitag, 15. Dezember 2023

Digitale Souveränität - einige Kommentare zu den Empfehlungen des Wissenschaftsrats

Im Herbst 2023 hat eine Arbeitsgruppe des Wissenschaftsrates ein Papier mit Empfehlungen zur Souveränität und Sicherheit der Wissenschaft im digitalen Raum veröffentlicht. Da das Thema Digitale Souveränität schon seit einiger Zeit auf der Agenda der bayerischen Hochschul-CIOs bzw. des Digitalverbundes steht, kommt es genau richtig. Im Frühjahr 2023 haben wir darüber in einer gemeinsamen Sitzung mit den Universitäts-CIO aus Baden-Württemberg diskutiert und wollen ein gemeinsames Positionspapier veröffentlichen.

Bis dahin hier ein paar subjektive Eindrücke aus dem WR-Papier:

Es ist etwas schwierig, in dem Papier eine genaue Definition von "digitaler Souveränität" zu finden, auf die sich die Ausführungen stützen.

Die Empfehlungen sind eigentlich bekannt, die ersten beiden davon sind sehr konkret und zielen auf die einzelne Hochschule: (1) installiere eine:n CIO auf Leitungsebene der Hochschule, um die Steuerung zentral in die Hand zu nehmen und (2) unterstütze Cybersicherheit mit eine:r Cybersicherheitsbeauftragten, Konzepten und Notfallplänen. 

Die (3) Empfehlung zum Aufbau hochschulübergreifender Infrastrukturen erfordert Absprachen im Bundesland. Das ist z.B. in NRWBayern schon gelungen. Man muss dabei beachten, dass die Empfehlung über das technische Wissenschaftsnetz, z.B. BelWue, weit hinausgeht; es geht um Kompetenzzentren z.B. für IT-Recht, IT-Sicherheit oder IT-Beschaffung, oder für Forschungsdatenmanagement. Dies erfordert ein hohes Maß an Absprachen, Kommunikation und Vertrauen zwischen den Hochschulen. Noch anspruchsvoller, wenn es hochschultyp-übergreifend geschehen soll. 

Die (4) Empfehlung zur Gestaltung digitaler Angebote unter Pluralität und Offenheit finde ich etwas schwieriger. Einige Beteiligte lesen bei Offenheit immer gleich "Open Source". Ziel dieser Empfehlung ist es aber, Abhängigkeiten zu reduzieren. Wann immer ich ein digitales Produkt lange benutze, werde ich Abhängigkeiten in meiner Hochschule produzieren, was einen Umstieg, egal wohin, schwierig macht und damit meine Steuerungs- und Entscheidungsmöglichkeiten als CIO einschränkt. Das hat weniger mit der Lizenzform zu tun als mit fehlenden Schnittstellen und Standardisierungen. Wenn ich die in der dritten Empfehlung postulierten Infrastrukturen nutzen möchte (z.B. NFDI oder EOSC), dann muss es Schnittstellen geben und diese müssen kontinuierlich gewartet werden. Manchmal ist es mir hier lieber, ich kann einem konkreten Softwareanbieter mit einer Wartungsanfrage auf die Füße treten.

Am Ende von (4) findet sich noch ein separater Absatz, dass "Knowhow und Innovationspotenzial der Wissenschaft für die Entwicklung digitaler Angebote gezielt genutzt und gefördert werden" sollte. Das ist eigentlich ein Aufruf zur Eigenentwicklung. Wie ich im Beitrag über Schatten-IT schon geschrieben habe, sehe ich da Licht und Schatten -- Licht, wenn sich neue IT-Lösungen z.B. als Startup aus einer Universität heraus verbreiten und sehr erfolgreich werden, wie bei UNIwise oder Uninow. Schatten, wenn eine hoffnungsvolle IT-Lösung mangels Wartung langsam verhungert, wie bei UnivIS. Hier gibt es sehr viel Potenzial -- leider auch, um Budget zu versenken.

Bei der letzten Empfehlung, (5) die Gestaltung des digitalen Raumes als Daueraufgabe von Wissenschaftseinrichtungen, sind wir wieder beisammen. Zu viele IT-Projekte beginnen mit befristetem Personal, aber ein späterer dauerhafter IT-Support erfordert Dauerstellen. Stattdessen wird meist ein Projektportfoliomanagement über Jahre mit Stellen-Tetris abgepuffert. Das muss sich definitiv ändern. Wenn man (3) und (5) kombiniert, wird aber schnell klar, dass es eine Budgetkonkurrenz geben wird -- gibt man das Geld an die Hochschulen oder an die Infrastrukturen? "Beides notwendig!", sagt die IT-Sicherheit. "Infrastruktur kann übernehmen", sagen IT-Recht und IT-Beschaffung. "Die zentrale Stelle benötigt lokale Strukturen, um sie zu unterstützen" sagt das Forschungsdatenmanagement. Wo das Ministerium Budget hingeben sollte, sollte eine strategische, offene und konstruktive Diskussion in der Infrastrukturgruppe von (3) ergeben.




Donnerstag, 29. Juni 2023

Welche Aufgaben hat ein Hochschul-CIO bezüglich der Einführung und Nutzung generativer KI?

Im Juni 2023 hatten wir auf dem Hochschul-CIO-Kongress in Göttingen eine intensive Diskussion, welche Aufgaben ein CIO einer Hochschule bezüglich der Einführung und Nutzung generativer KI (z.B. ChatGPT) haben sollte. Die Diskussion entspann sich zwischen zwei extremen Positionen, die ich plakativ so dargestellt habe:

✅Die aktive Position ist: Ja, der CIO muss sich unbedingt einbringen und in den Fahrersitz. Es ist eine digitale Technologie, welche die Hochschulen grundsätzlich verändert.

❌Die Gegenposition dazu lautet: Nein, es ist nur eine cloudbasierte Technologie für digitales Lehren und Lernen. Es ist Thema der Hochschuldidaktik bzw. Prorektor:innen für Lehre. Die meisten Whitepaper, journalistischen Artikel und Webseiten von Hochschulen konzentrieren sich auf diese Position. Der/die CIO wird hier nicht gebraucht, denn die Technologieressourcen der Universität werden nicht beansprucht. Oder?

Die Kollegen von EDUCAUSE in den USA haben sich diese Frage auch gestellt und eine interessante Umfrage (Quickpoll) veröffentlicht. Eine große Mehrheit von 83% aller 440 antwortenden Educause-Mitglieder stimmten der Aussage zu, dass Generative KI die Hochschulen in den nächsten drei bis fünf Jahren positiv oder negativ verändern wird. Allerdings unterschieden sich die Antworten je nach Position der Befragten: während 90% der Leitungsebene für "instructional technology" oder von "teaching und learning centers" die Verantwortung dafür bei sich sahen, sagten im Gegenteil 58% der Leitung von IT-Einheiten, dass sie sich für KI nicht verantwortlich fühlten. Was die oben gezeigte Gegenposition unterstützen würde: ChatGPT ist nur (?) eine Frage der Hochschullehre.

Allerdings wurden in der Educause-Umfrage bei der Frage nach konkreten Beispielen auch Anwendungsfelder außerhalb von Lehren und Lernen genannt, unterteilt in die vier Felder: Dreaming, Drudgery, Design, and Development (siehe Grafik).


Und damit ist der/die CIO wieder im Spiel, denn es geht auch in der Administration und der Forschungsverwaltung um eine KI-basierte Assistenztechnologie. Im Workshop in Göttingen konnten wir schon einmal folgende Felder herausarbeiten, in denen sich der/die CIO in der eigenen Hochschule unbedingt einbringen muss.

1. Beratung: Zu allererst geht es um eine strategische Beratung, ein Aufzeigen von Technologieszenarien gegenüber Hochschulleitung und Fakultäten. Hier könnten Szenarien erzeugt werden, wie eine KI-unterstützte Lehre bzw. KI-unterstützte Forschung in 1,3 oder 5 Jahren aussieht. und was das für die Ausrichtung der Universität bedeutet. Wir denken, dass die konkreten Bilder eher von den Fachdisziplinen ausgemalt werden, aber es ist Aufgabe der CIOs, das Thema KI und Vergleichsfälle an diese für eine weitere Diskussion heranzutragen.

2. Erprobung: CIOs sollten sich Verbündete suchen, um Einsatzmöglichkeiten von KI in Verwaltungsanwendungen (z.B. im Dokumentenmanagement), in der Nutzerschnittstelle (Chatbots), im Forschungsinformationssystem (z.B. Clusteranalysen) oder zur Bild- und Textgenerierung für Presse und Marketing auszutesten. Ein konkretes Vorgehen könnte das Higher Education Reference Model (HERM) nutzen, um für jede Business Capability aufzuzeigen, wann KI dort zu erwarten ist und dann proaktiv nach Cases zu suchen. Allerdings sollte man hier mit Bedacht vorgehen: auch ein mit KI unterstützter, aber ansonsten schlechter Prozess wird durch KI nicht automatisch besser.

3. Erwartungsmanagement: Die Erwartungen der Anwender an KI sind derzeit noch nicht stabil -- mangels praktischer Erfahrungen im Umgang mit der Technologie reichen die Ideen von einer reinen Extrapolation des Bestehenden, über Weltuntergangsszenarien, zur Ablehnung oder Abwertung der Technologie. Um wirklich beurteilen zu können, welche Anwendungsfälle und welchen Nutzen KI haben wird, ist es notwendig, Personal zur Beratung in der Hochschule auszubilden, sowohl bei wissenschaftlichem Nachwuchs (wegen der Änderungen in der Forschung), als auch in der Verwaltung.

4. Beschaffung: es ist derzeit noch vollkommen im Fluß, wie der technische Zugang (Schnittstellen, Plugins, Cloud vs. On-Premise) zu Generativer KI aussehen wird. Noch wesentlich wichtiger ist aber der wirtschaftliche Zugang: was ist am günstigsten, wenn man einem ganzen Campus Zugang gewähren möchte: flat-rate Campuslizenzen pro Person? token-basierte Lizenzen pro Zugriff? Für welche Benutzergruppen? Sollte man mit verschiedenen KI-Anbietern parallel Verträge machen oder geht man doch über Zwischenhändler bzw. Aggregatoren? CIOs sollten sich einen Überblick über Anbieter schaffen, auch durch Vernetzung mit anderen (Digitalverbund, HFD, etc.).

Da ist doch einiges zusammengekommen. Ich würde mich freuen, über Ihre Erfahrungen an der eigenen Hochschule zu hören!

Freitag, 9. Juni 2023

The Commodization of the University IT: does IT matter?

We usually think of a university as a geographic place, with buildings on a campus where knowledge is created, shared, and taught. Such a place needs infrastructure: computer networks, WLAN access points, and servers. Really? Whether researchers need to work in a geographic location is likely to be questioned quite a bit, at the latest after the Covid pandemic. Individual disciplines, especially in the humanities and social sciences, almost wholly retreated to the home office, and for many universities, it takes work to bring them back to campus for face-to-face teaching.

So is returning to the University necessary for research disciplines that don't use equipment or labs? Well, yes, shout the students! Ahem, no, say those researchers who had positive experiences lecturing over Zoom, sharing materials with Moodle, and organizing stuff using Teams and OneDrive. If the students can not convince them to return, is there an argument for conducting research on-premise?

Not likely. Scientists are tasked with gaining and disseminating new knowledge through research and publications. Most publications are co-authored with other researchers, preferably at another university. Thus, authors co-edit the research work on commonly available platforms: M365, Google Docs, and Github. Why? Because it does not require to access proprietary infrastructure in another university, usually requiring cumbersome remote access procedures, VPNs, and temporary guest logins. It is just easier to use commonly available, commercial cloud-based systems.

Does it make sense for a university to provide digital resources to individual researchers? The university app, where the canteen plan is the most used feature; the costly lab management software that only two research groups use; the ample data space on university servers, where nobody ever deletes obsolete files? Depending on the scientist and the discipline, providing exclusive hardware and software can be very complex and costly, and the "return on investment" (ROI) for the particular university is questionable.

University IT is on a clear path from being a unique, competitive resource to a commodity infrastructure. Nicholas G. Carr started this discussion for other sectors, but it took some time to reach higher education. Ultimately, digital transformation may thus result in a maximum internet connection on campus so scientists can share their data and texts using digital infrastructure from a commercial cloud or a supercomputing center. Of course, the university would have to pay annual fees for access to the cloud or the data center; but they would save investment in buildings,  energy resources, compute servers, and data servers. The new problems that this creates, are subject to another blog post.

Donnerstag, 2. März 2023

Dreimal Vitamin C für die Hochschulen: ein notwendiger Schock und ein Impuls für die Zukunft

Die Bedeutung der letzten fünf Jahre für die Digitalisierung der deutschen Universitäten kann nicht überschätzt werden. In diesen fünf Jahren ist fundamental mehr passiert als in den 30 Jahren vorher, und der Grund dafür liegt in den drei "C": Cloud, Covid und ChatGPT. Zusammen stellen diese Worte 3 Vitaminschocks dar und werden die Art, wie Universitäten ihre Digitalisierung angehen, massiv verändern.

Das erste "C" ist die Cloud. Wie ich an anderer Stelle schon geschrieben habe, ist die Verfügbarkeit von Amazon Web Services, Microsoft 365 oder Google for Education eine grundsätzliche Möglichkeit, das eigene Rechenzentrum loszuwerden. Dies allerdings unter Inkaufnahme einer babylonischen Gefangenschaft zum Cloud-Anbieter, der unter Ausnutzung des Lock-In-Effektes eine Preispolitik fahren kann, welche Universitäten bei steigendem Digitalisierungsgrad an den Rand der eigenen Finanzierungsmöglichkeiten bringt. Dafür gibt es in der besten aller Welten immer die neueste Software, weltweite Erreichbarkeit der Plattform und ein 24/7-besetztes Helpdesk.

Das zweite "C" war 2020 der Schock durch die Covid19-Epidemie. In rasender Geschwindigkeit flexibilisierten die Universitäten die Präsenzlehre, führten Flipped-Classroom-Konzepte ein und ermöglichten Fernklausuren. Die Lehrenden nahmen tausende von Lehrvideos auf, welche so gut angenommen wurden, dass die Studierenden auch nach Ende der Pandemie auf hybride Lehre und die einmal kennengelernten Möglichkeiten nicht verzichten wollen. Zurück zu großen und vollen Hörsälen mit Alleinunterhalter:innen an der Kreidetafel? Nicht mit unseren Studierenden! Ähnlich auch der Einfluss auf die Arbeitsmodi von Verwaltung und Wissenschaftler:innen. Home Office für das Verwaltungspersonal: 2019 eine absolute Seltenheit, seit 2021 durchaus üblich. Arbeitsbesprechungen, sogar wissenschaftliche Konferenzen finden über Zoom statt, man trifft sich vor der Kamera.

Das dritte "C" ist 2023 die weltweite Verfügbarkeit von generativer Künstlicher Intelligenz (Beispiel ChatGPT), sei es für  die Erstellung von Texten, Bildern, oder Software. Neben dem faktischen Todesstoß für die Prüfungsform Hausarbeit ermöglicht Generative KI aber auch einen Produktivitätssprung, sei es durch erleichtertes Verfassen wissenschaftlicher Texte, vereinfachtes Zusammenfassen von Quellen, bessere Übersetzungen oder bessere Grafiken. Als Richard Socher beim DLD23 auf die derzeitigen Fehler von GAI (Halluzinationen) bei der korrekten Verlinkung von Quellen angesprochen wurde, meinte er lapidar: "Geben Sie uns noch ein paar Wochen" (Nachtrag: LLaMa, GPT4).

Die wesentliche Gemeinsamkeit aller drei Vitamin-C-Schocks ist für mich, dass diese am klassischen Universitäts-Rechenzentrum vorbei passiert sind. Die alten Server werden nicht mehr gebraucht. Was wir aber sehr wohl brauchen, sind eine universitätsweite Digitalisierungsstrategie, kundiges Personal für den lokalen Support und eine Schulungskampagne für die Nutzung der neuen Dienste. Ob die deutschen Universitäten dafür personell und finanziell richtig aufgestellt sind?

Three C's and their vitamin shock for Universities

The importance of the last five years for the digitization of Universities cannot be overestimated. More has happened fundamentally in these five years than in the 30 years before, and the reason for this lies in the three "Cs": Cloud, Covid and ChatGPT. Together, these words represent 3 vitamin shocks and will massively change the way universities approach their digitization.

The first "C" is the cloud. As I've written elsewhere, the availability of Amazon Web Services, Microsoft 365 or Google for Education is a fundamental way to get rid of your own data center. However, this is at the cost of a Babylonian captivity to the cloud provider, who, exploiting the lock-in effect, can drive a pricing policy that brings universities to the edge of their own funding possibilities as the level of digitization increases. But in the best of all worlds, there is always the latest software, worldwide accessibility of the platform and a 24/7 helpdesk.

The second "C" in 2020 was the shock of the Covid19 epidemic. At breakneck speed, universities flexibilized face-to-face teaching, introduced flipped classroom concepts, and enabled distance exams. Instructors recorded thousands of instructional videos, which were so well received that even after the pandemic ended, students do not want to give up hybrid teaching and the options they had once learned about. Back to large and crowded lecture halls with solo entertainers at the chalkboard? Not with our students! Similarly, the impact on the work modes of administration and academics. Home office for administrative staff: an absolute rarity in 2019, quite common since 2021. Work meetings, even scientific conferences take place via Zoom.

The third "C" in 2023 is the worldwide availability of generative artificial intelligence (example ChatGPT), whether for the creation of texts, images, or software. In addition to the de facto death blow for the essay assignments, generative AI also enables a leap in productivity, be it through easier writing of scientific texts, simplified summarizing of sources, better translations or better graphics. When Richard Socher was asked at DLD23 about GAI's current failures (hallucinations) in properly linking sources, he succinctly said, "Give us a few more weeks" (addendum: LLaMa, GPT4).

For me, the essential commonality of all three vitamin C shocks is that they happened past the traditional university data center. The old servers are no longer needed. What we do need, however, is a university-wide digitization strategy, knowledgeable staff for local support, and a training campaign for using the new services. Are our universities properly positioned for this in terms of personnel and funding?

Translated with DeepL