Wie Cohere mithilfe von Weights & Biases geschäftskritische LLMs trainiert
„Weights & Biases hilft uns bei der Sichtbarkeit und dem Vergleich verschiedener Experimente und Modelle, beim Wissensaustausch und der Dokumentation von ML, bei der Reduzierung von Doppelarbeit und letztendlich bei der Entwicklung jedes neuen Modells, an dem wir arbeiten. Weights & Biases hat jedes Modell unterstützt, das wir erstellt haben.“

Nils Reimers
Direktor ML, Cohere
Über Cohere
Cohere ist ein Unternehmen für Sprach-KI, das sich darauf konzentriert, Entwicklern aller Art und Unternehmen jeder Größe die Leistungsfähigkeit großer Sprachmodelle (LLMs) zugänglich zu machen. Ob für die semantische Suche, Inhaltsmoderation, Inhaltserstellung oder einen anderen geschäftskritischen Anwendungsfall – Cohere erstellt und optimiert Modelle, die für seinen wachsenden Kundenstamm einen echten Unterschied machen.
Trainieren des besten Modells für jeden Kunden
Wahrscheinlich haben Sie schon von LLMs gehört. Schließlich haben sie eine breite Akzeptanz und Nutzung erlangt, indem sie die natürlichen Sprachmodelle von vor wenigen Jahren bei weitem übertroffen haben.
Obwohl die Basismodelle von Cohere unglaublich leistungsstark sind, stehen über die Cohere-Plattform auch Anpassungsmöglichkeiten zur Verfügung. Kunden können einen einzigartigen Datensatz hochladen und mit wenigen Klicks mit dem Training eines benutzerdefinierten Sprachmodells beginnen. Das Ergebnis sind einige der leistungsstärksten Modelle der Welt für domänen- oder branchenspezifische Aufgaben.
Unternehmenskunden, die zusätzliche Unterstützung benötigen, kann das interne Team von Cohere dabei helfen, im Hintergrund eine maßgeschneiderte Lösung zu entwickeln. Dies erfordert oft viel Experimentieren, um das bestmögliche Modell für den individuellen Anwendungsfall eines Kunden zu entwickeln, z. B. die Entwicklung eines besseren Toxizitätsklassifizierers für eine Social-App oder die Erstellung eines besseren Anzeigentexts für eine Marketingkampagne. Hier kommt Weights & Biases (W&B) ins Spiel.
Der Umfang der Herausforderung
Bevor wir uns tiefer damit befassen, ist es wichtig, sich darüber klar zu werden, wie groß große Sprachmodelle sind. Die Modelle von Cohere beispielsweise enthalten Milliarden von Parametern. Und aufgrund der Natur von LLMs funktionieren Experimente in kleinerem Maßstab und in kleinen Häppchen einfach nicht – sie geben nicht genau wieder, wie sich diese Modelle verhalten, wenn sie auf die erforderliche Größe hochskaliert werden.
Das Cohere-Produktteam verwendet Weights & Biases zum Experimentieren, wenn es ein benutzerdefiniertes Modell für einen Kunden erstellt. Die Weights & Biases-Plattform protokolliert und verfolgt, welche einzigartigen Datensätze, Hyperparameter oder andere Modellkonfigurationen das beste Sprachmodell für Unternehmenskunden ergeben. Weights & Biases macht es einfach, ein zentrales Dashboard aufzurufen und schnell zu verstehen, welches Kandidatenmodell die anderen übertrifft, und gibt Einblicke in die jeweiligen Architekturen und Datenrezepte, die am besten funktionieren.
Wir sprachen mit Ellie Evans, einer Produktmanagerin bei Cohere, die es kurz und bündig auf den Punkt brachte: „Mit W&B können wir alle unsere Kandidatenmodelle auf einmal untersuchen. Wir können feststellen, welches Modell in unserer robusten Testsuite hochmoderne Ergebnisse liefert. So können wir sicherstellen, dass wir Unternehmenskunden eine hochmoderne Lösung für ihre spezifische Anwendung bieten. Dies ist entscheidend, um zu verstehen, welches Modell für jeden Kunden am besten geeignet ist.“
Ein zentraler Arbeitsplatz, an dem alle diese Informationen für das wachsende Produktteam von Cohere leicht zugänglich sind, ist für deren Produktivität und Geschwindigkeit von entscheidender Bedeutung. Verschiedene Machine-Learning-Ingenieure können ihren neuesten Durchbruch problemlos mit früheren Erfolgen vergleichen. Jeder hat Einblick in die besten Ideen und Experimente der anderen sowie in die Experimente, die nicht ganz funktioniert haben. Und dieser letzte Teil ist besonders wichtig. Die Schulung von LLMs ist teuer und zeitaufwändig, und die Vermeidung von Verschwendung von Modellierungszeit spart alles, von Rechenkosten bis hin zu Bearbeitungszeit für Kunden.
Einige dieser Informationen werden auch in W&B-Berichten erfasst. Berichte erleichtern den Wissensaustausch innerhalb des Teams und die Kommunikation mit nichttechnischen Stakeholdern. Zudem bewahren sie implizites Wissen im Unternehmen zur späteren Verwendung auf.
„Berichte waren für uns großartig“, sagte Ellie. „Sie ermöglichen es uns, nuancierte technische Informationen nahtlos und auf eine Weise zu kommunizieren, die für nichttechnische Teams verständlich ist.“
Abschluss
Da LLMs in allen Branchen immer häufiger zum Einsatz kommen, sind Unternehmen, die sowohl benutzerdefinierte Modelle trainieren als auch deren Nuancen verstehen können, in einer idealen Position. Cohere ist in diesem Bereich führend und bietet Basismodelle, die eine große Bandbreite an NLP-Aufgaben lösen können, sowie Anpassungsfunktionen, die den Kunden noch mehr Flexibilität und Leistung bieten. Mit Cohere kann jeder Kunde das richtige Modell für seinen spezifischen, unmittelbaren Bedarf erstellen und nutzen.
Da Größe und Komplexität der Modelle immer weiter zunehmen, können kleinere Unternehmen ohne große Teams für maschinelles Lernen ihre eigenen Modelle einfach nicht intern trainieren. Das Training von LLMs kostet Millionen von Dollar und Tausende von Stunden. Cohere macht die Leistungsfähigkeit dieser Modelle für die große Mehrheit der Unternehmen zugänglich, die einfach nicht über diese Ressourcen oder dieses Fachwissen verfügen. Und das bedeutet, dass mehr Unternehmen heute – und morgen – Zugang zu hochmodernen Modellen haben.