1. BuzzFeed
  2. Recherchen

Wie wir jahrelang 15 Millionen mögliche Interessenkonflikte von Wissenschaftler:innen analysiert haben

Erstellt: Aktualisiert:

Ein datenjournalistisches Rechercheprotokoll zu unserem Projekt „Follow the Grant“.

BuzzFeed.de
BuzzFeed.de © Waltraud Grubitzsch / Waltraud Grubitzsch/dpa

Von Hristio Boytchev, Simon Wörpel und Edgar Zanella Alvarenga

Mehrere Jahre haben wir benötigt, um von der ersten Idee dieses Projektes bis zur Veröffentlichung zu kommen. Drei Jahre, in denen wir immer wussten: Diese Recherche ist wichtig und bisher hat sie weltweit noch niemand gemacht. In denen wir aber auch immer wussten: Die Arbeit daran ist kompliziert und kaum eine Redaktion wird sich diesen Aufwand leisten können.

Dass wir es tatsächlich geschafft haben, 15 Millionen Angaben über mögliche Interessenkonflikte von Wissenschaftler:innen automatisiert auszuwerten [-> hier geht's zu unserer Recherche], liegt deshalb auch daran, dass externe Förderer an dieses Projekt geglaubt haben – und insgesamt fast 100.000 Euro in die Analyse investierten.

Die erste Idee für das Recherche-Projekt „Follow the Grant“, mit dem wir Interessenkonflikte von Wissenschaftler:innen überprüfen, kommt uns schon Ende 2016 bei einem sogenannten „Hackathon“ der Süddeutschen Zeitung, einer Veranstaltung, bei der Programmierer:innen und Journalist:innen gemeinsam Ideen entwickeln.

Erster Prototyp schon im Jahr 2016

Damals, 2016, bauen wir innerhalb eines Nachmittages einen Prototypen, der eine der größten frei zugänglichen wissenschaftlichen Fachzeitschriften herunterlädt und auf Interessenkonflikte hin analysiert. Wir haben sogar ein Gif von Stephen Colbert eingebaut, das auftaucht, wenn Nutzer:innen bei der Suche keine Treffer finden.

Wir gewinnen den Hackathon mit unserem Prototypen nicht und auch unsere damalige Redaktion will unsere Arbeit nicht fortführen, aber wir glauben an das Projekt. Auch ein Dreivierteljahr später noch. Es ist der 30. September 2017 und um Mitternacht endet die Deadline für den Prototype Fund: Ein Fonds, der fast 50.000 Euro für Softwareprojekte zur Verfügung stellt, die der Zivilgesellschaft dienen. Organisiert wird das von der Open Knowledge Foundation, das Geld kommt vom Bundesbildungsministerium.

Die Deadline ist nur noch wenige Stunden entfernt. Hristio ist gerade in einem Dorf im Balkangebirge, Simon steht auf einem Bahnsteig am Duisburger Hauptbahnhof. Wir telefonieren und überlegen, ob wir die Idee mit der Interessenkonflikt-Datenbank nicht einreichen könnten. Kurz vor Mitternacht schicken wir eine hastig geschriebene Bewerbung tatsächlich ab – und vergessen sie danach schnell wieder. Doch diesmal klappt es, wir bekommen die Förderung und können im Frühjahr 2018 ernsthaft mit der Arbeit anfangen. Wir geben uns den Namen „Follow the Grant“ – folge der Forschungsförderung – eine Anspielung auf das Motto „Follow the Money“, das unter investigativen Journalist:innen beliebt ist.

Team-Arbeit in Wohnzimmern und WG-Küchen

Wissenschafts-Journalist Hristio Boytchev.
Wissenschafts-Journalist Hristio Boytchev. © Ivo Mayr / Correctiv

Das Team ist mittlerweile auf vier Personen gewachsen. Neben Hristio und Simon sind Elena Erdmann und Karl Scholze dabei, sie unterstützen bei der Entwicklung. Wir treffen uns in Cafés in Berlin-Neukölln, in Wohnzimmern und an WG-Küchentischen. Doch die Arbeit ist schwierig. Die ursprüngliche Idee: Verschiedene Fachzeitschriften mittels Web-Scraper runterzuladen, also mit kleinen, selbst geschriebenen Programmen die Artikel der Journals automatisiert aufzurufen, um dann jeweils die Daten runterzuziehen. Per Hand bräuchte man für das herunterladen der ganzen Artikel vermutlich Jahre.

Doch auch unser selbst entworfener Scraper ist fehleranfällig und das Datensammeln dauert einfach zu lang. Die Förderung durch den Prototype-Fund endet Ende 2018. Wir kommen ein gutes Stück weiter, doch etwas, womit man journalistisch arbeiten kann, haben wir nicht.

Förderung durch Prototype-Fund und MIZ Babelsberg

Anfang 2019 nehmen wir einen neuen Anlauf. Die Innovationsförderung des MIZ Babelsberg, fast 40.000 Euro, scheint gut auf das Projekt zu passen. Wir schreiben eine detaillierte Bewerbung, fügen Interessenbekundungen von Redaktionen an. Schon damals ist BuzzFeed News dabei. Im Frühjahr pitchen wir das Projekt einer hochrangig besetzten Jury in Potsdam. Am nächsten Tag ruft das MIZ an. Hristio ist sicher, dass es nicht gut gelaufen ist. Doch wir sind die einzigen, die die Jury auf Anhieb überzeugt haben. Im Sommer bekommen wir dann auch noch die mit 3000 Euro etwas kleinere „Grow“-Förderung des Netzwerk Recherche.

Datenjournalist Edgar Zanella Alvarenga.
Datenjournalist Edgar Zanella Alvarenga. © Privat

Wir können weitermachen. Den Hauptteil der Entwicklung übernimmt jetzt Edgar Zanella. Er hat die Idee, statt mit unseren Scraping-Programmen die Daten aufwändig herunterzuladen, lieber auf vorliegende Datenbanken zurückzugreifen – also Artikel aus Fachzeitschriften zu nutzen, die bereits in einem zugänglichen Format vorliegen (als sogenannte xml-Dateien). Damit sollte es für uns möglich sein, einfacher an mehr Daten zu kommen.

Wir konzentrieren uns auf den Bereich der Bio-Medizin: Hier gibt es eine längere Tradition, Interessenkonflikte konsequent anzugeben, die Journals haben entsprechende Richtlinien. Zudem lassen sich die so gefundenen Daten mit anderen Datenquellen über Zahlungen abgleichen, wie freiwillige Angaben des Transparenzkodexes der Pharma-Industrie. Und schließlich haben die bio-medizinischen Interessenkonflikte eine besondere Relevanz, da es am Ende in der Forschung meist auch um die Anwendung an konkreten Patient:innen geht. Die Journals umfassen alle möglichen bio-medizinischen Bereiche: zum Beispiel Krebs, Diabetes, Chirurgie, Diagnostik, Biochemie und Genetik.

Ein einmaliger Datenschatz für unsere Recherche

Es ist natürlich ein kleiner Ausschnitt aus der Gesamtheit der Publikationswesens – deren größe niemand richtig überschauen kann. Doch es wird sich zeigen, dass wir trotzdem auf einen einmaligen Datenschatz gestoßen sind. Und: In der Zukunft können wir auf Basis der entwickelten Algorithmen die Datenbank sogar noch um andere relevante Bereiche wie Ernährungswissenschaft, Umweltforschung und künstliche Intelligenz erweitern.

Doch zunächst wird es für wieder wieder kompliziert. 2019 verlässt Edgar seinen Wohnort Berlin und geht nach Amerika. Zoom-Konferenzen und Signal-Anrufe über Zeitzonen hinweg sind nun Kern unserer Kommunikation. Dann kommt die Pandemie und Edgar kann vorerst nicht zurück nach Deutschland fliegen. Auch technisch stoßen wir erneut auf Probleme. Wir stellen fest, dass wir die in den Datenbanken verfügbaren Daten deutlich aufwändiger sortieren und reinigen müssen, als wir dachten – sie also in eine für uns analysierbare Form bringen.

Datenjournalist Simon Wörpel.
Datenjournalist Simon Wörpel. © Ivo Mayr / Correctiv

Ab Sommer 2020 stößt Simon als Unterstützung wieder zurück zum Team. Und endlich fängt auch die Datenbank an, Gestalt anzunehmen. Die langwierige technische Vorbereitung scheint endlich sichtbare Resultate zu bringen.

Wie die Datenbank funktioniert

Aus jedem Artikel haben wir zunächst sogenannte Metadaten wie die Autor:innen, das Veröffentlichungsdatum, die jeweilige Fachzeitschrift und die Schlagwörter extrahiert. Diese Daten werden von den genannten öffentlichen Archiven meistens schon in strukturierter Form angeboten, also in maschinenlesbaren Formaten. Doch die für uns relevanten Interessenkonflikt-Angaben sind nur in der Hälfte der Fälle in den strukturierten Daten kenntlich gemacht. Wir müssen sie also zusätzlich mit einer Textanalyse aus den Artikeln extrahieren.

Diese Angaben sind im Freitext geschrieben, also ohne konkrete, vorgegebene Struktur, und beziehen sich dann auch noch auf den kompletten Artikel, also auf alle an der Veröffentlichung beteiligten Autor:innen. Wir wollen sie aber einzelnen Autor:innen zuordnen. Das wird schnell kompliziert, weil wir 15 Millionen Angaben über mögliche Interessenkonflikte nicht durchlesen und zuordnen können. Und es gibt zwei weitere Probleme: Die Angaben variieren in ihren Formulierungen. Und wenn Autor:innen individuelle Angaben über mögliche Konflikte machen, werden sie mal mit vollem Namen, mal nur mit Nachnamen, mal nur mit ihren Initialen genannt. Das verkompliziert die Zuordnung der einzelnen Aussagen zu den Autor:innen.

Daher haben wir in einem aufwändigen Verfahren die „Conflict of Interest“-Statements in ihre Einzelteile zerlegt, um sie den unterschiedlichen Autor:innen zuzuweisen. Wir ordnen zum Beispiel Sätze, die einen bestimmten Namen nennen, diesen Autor:innen zu, folgende Sätze auch, bis ein neuer Name auftaucht. Formulierungen wie „alle Autor:innen geben an“ nutzen wir, um die Angabe eben allen Autor:innen des Papers zuzuordnen. Dieser Prozess ging über mehrere Stufen, wir haben uns immer Beispieldaten der Ergebnisse angesehen, sie händisch – also durch konkretes Nachlesen der Artikel – auf Plausibilität geprüft und unsere Algorithmen entsprechend verbessert. Nach mehreren Monaten coding und mindestens drei kompletten Überarbeitungen können wir nun mehr als 15 Millionen Angaben über mögliche Interessenkonflikte der einzelnen Autor:innen untersuchen.

Marta Müller ist nicht gleich Marta Müller

Ein weiteres Problem in der Analyse von solchen Daten ist die sogenannte De-duplizierung von Personen. Bei einem so großen Datensatz gibt es selbstverständlich unterschiedliche Autor:innen gleichen Namens. Doch wie erkennen wir, wann es sich um eine oder mehrere Personen handelt?

In der wissenschaftlichen Publikationswelt gibt es zwar Lösungen für dieses Problem, unter anderem werden eindeutige Identifikations-Nummern für Autor:innen geführt. Leider mussten wir jedoch feststellen, dass diese Identifikations-Nummer in unseren Rohdaten nicht systematisch vorhanden sind.

Es gibt wissenschaftliche Projekte der sogenannten Meta-Forschung (Forschung über Forschung), die versuchen, mit Machine-Learning-Verfahren Autor:innen von wissenschaftlichen Artikeln zu de-duplizieren, indem sie zuerst einen von Menschen sortierten Satz von Autoren analysieren und die abgeleiteten Prinzipien auf unsortierte Daten anwenden. Auch das haben wir für unsere Daten versucht, es stellte sich aber zunächst als für unseren Fall zu ungenau heraus.

Wir haben uns daher für eine konservative Herangehensweise entschieden: In den meisten Fällen sind in den Artikeln auch die Lehrstühle oder Institute der Wissenschaftler:innen angegeben. Wir nutzen diese Angaben, um die Autor:innen zu de-duplizieren.

Bei den Fällen, die wir für unsere Artikel aufwändiger nachrecherchiert haben, haben wir nochmal nachträglich manuell überprüft, ob es sich bei den entsprechenden Namen in unserer Datenbank tatsächlich um die gleichen Personen handelt.

Flexibles Datenmodell für Quer-Verbindungen

Um die Datenbank für Recherchen nutzbar zu machen, haben wir ein eigenes Datenmodell entwickelt, in das wir die Daten der verschiedenen Quellen einpflegen. Es basiert auf dem „Follow The Money“-Konzept von Aleph, einer Open-Source-Software, die zur strukturierten Datenrecherche in investigativen Newsrooms eingesetzt wird. Es erlaubt uns, die Artikel, Autor:innen und Interessenkonflikt-Angaben der verschiedenen Quellen in einem strukturierten, vergleichbaren Format abzulegen und so einfach zu vergleichen. Außerdem können wir so sehr schnell und flexibel neue Journals und ganze Archive hinzufügen und sind deshalb schon jetzt nicht mehr auf die Pubmed Central Archive beschränkt.

Außerdem können wir dank der Vereinheitlichung der Daten schnell Querverweise zu ganz anderen Datensätzen finden: So gibt es viele andere Quellen, aus denen Interessenkonflikte hervorgehen: So zum Beispiel Redner:innenlisten von gesponserten Symposien, Angaben in medizinischen Leitlinien, Auswertungen von Verbänden oder Daten der Pharma-Industrie, die durch Projekte wie „Euros für Ärzte“ von Correctiv oder eurosfordocs.eu gesammelt werden. In diesen Daten sind Zahlungen an medizinische Wissenschaftler:innen erfasst, die wir ebenfalls in unser System importieren und dann mit unseren Daten vergleichen können.

Genau das macht es uns möglich, nach Widersprüchen zu suchen. Gibt es Ärzt:innen, die in wissenschaftlichen Veröffentlichungen einmal Interessenkonflikte angeben und ein andermal nicht? Oder die keine Interessenkonflikte melden, aber auf Industrie-Kongressen oder in anderen Quellen als Geldempfänger zu identifizieren sind?

In Zukunft wollen wir genau dort weitermachen: Neue Archive von wissenschaftlichen Veröffentlichungen erschließen, somit unsere Datenbank vergrößern, sie mit noch anderen Quellen anreichern und neue Quer-Verbindungen aufdecken. Eine nächste Förderung haben wir schon, um journalistische Veröffentlichungen im europäischen Raum durchzuführen. Vor allem aber teilen wir aber ab jetzt unsere Datenbank auch mit anderen Journalist:innen – schreibt uns dafür einfach an.

Exklusiv: Ärzte unterschlagen systematisch Interessenkonflikte

BuzzFeed News, die Ippen-Gruppe und die Reporter:innen von followthegrant.org berichten weiter zur fehlenden Transparenz in der Wissenschaft. Sie erreichen das Rechercheteam unter info@followthegrant.org. Das Projekt „Follow the Grant“ wurde vom MIZ Babelsberg, vom Prototype Fund, von IJ4EU und vom Netzwerk Recherche gefördert.

Hier findest Du alle Beiträge von BuzzFeed News Deutschland. Mehr Recherchen von BuzzFeed News Deutschland findest Du auch auf Facebook und Twitter oder im RSS-Feed. Mehr Informationen über unsere Reporterinnen und Reportern, unsere Sicht auf den Journalismus und sämtliche Kontaktdaten – auch anonym und sicher – findest du auf dieser Seite.

Auch interessant