Gebruik van genAI voor onderzoek

Richtlijn voor onderzoekers

Generatieve AI (genAI) wordt steeds vaker gebruikt in de verschillende fasen van onderzoek: van het ontwikkelen van een onderzoeksidee of subsidieaanvraag en het afbakenen van een onderzoeksproject, tot het uitvoeren van onderzoek en het presenteren van onderzoeksresultaten.

Deze richtlijn biedt informatie over de werking, mogelijkheden en risico's van het gebruik van genAI.

Op de Learning and Teaching Community (LTC) Hub voor medewerkers is meer informatie te vinden over het gebruik van genAI. Op de toolpicker staat meer informatie, inclusief een risico-inschatting, bij het gebruik van genAI-software, zoals Copilot.

Wat is generatieve AI (genAI)?

Generatieve AI (genAI) is een vorm van AI die geautomatiseerd content creëert, op basis van ‘prompts’ (vragen of verzoeken van gebruikers). Large Language Models (LLM's) gebruiken kansberekeningen om te voorspellen welke woorden of structuren in een tekst passen. Daardoor kunnen ze bijvoorbeeld spel- en grammaticafouten signaleren en suggesties doen om de tekst te verbeteren. Multimodale modellen kunnen naast tekst ook video, audio of afbeeldingen genereren.

GenAI is getraind op grote hoeveelheden bestaande data en werkt op basis van kansberekeningen en algoritmen. Het betreft dus geen menselijke ‘intelligentie’ en heeft geen ‘begrip’. Het is ook mogelijk dat het fouten maakt en feitelijke onjuistheden (‘hallucinaties’) genereert.

Elke LLM heeft zijn eigen modelarchitectuur en daardoor unieke mogelijkheden en prestaties, afhankelijk van het beoogde gebruik. Het is daarom essentieel zorgvuldig te bepalen welk model onderzoekers inzetten en met welk doel.

Uitgangspunten: verantwoord en transparant

Onderzoekers aan de rechtenfaculteit zijn zelf verantwoordelijk voor het verantwoord gebruik van genAI binnen hun onderzoek. Beoordeling (controle) van alle met genAI gegenereerde output (dat wil zeggen nalezen en corrigeren waar nodig) is essentieel, ongeacht de capaciteiten van het gebruikte systeem.

De verantwoordelijkheid voor verantwoord gebruik van genAI geldt voor alle onderzoekers, ook promovendi en onderzoeksassistenten. Onderzoekers bespreken de diverse risico's met eventuele coauteurs en begeleiders.

Junior onderzoekers worden in een vroeg stadium van hun carrière aangemoedigd hun onderzoeks- en schrijfvaardigheden op orde te hebben voordat zij genAI-tools gaan gebruiken.

Het gebruik van genAI moet verantwoord én transparant plaatsvinden. Afhankelijk van de toepassing en de richtlijnen van een uitgever moet het gebruik van genAI worden verantwoord in een verklaring (bijvoorbeeld in een voetnoot) of in de methodesectie van een artikel of hoofdstuk.

Voor sommige toepassingen kan een uitgever verplichten dat prompts in een logboek worden bijgehouden of dat output wordt vastgelegd voor controle. Voor het schrijven van subsidieaanvragen bestaan vaak ook richtlijnen voor het gebruik van AI (zoals bij NWO en ERC).

Promotieonderzoek

Promovendi en hun begeleiders hebben beiden de verantwoordelijkheid het gesprek aan te gaan over het gebruik van genAI (en de risico's hiervan) in het promotieonderzoek. Het gebruik van genAI dient te worden verantwoord in het proefschrift.

Begeleiders mogen niet uitsluitend genAI inzetten om feedback te geven op het werk van promovendi, omdat dit een adequate en inhoudelijke begeleiding van het promotietraject in de weg staat. Bij het gebruik van genAI voor feedback worden de risico’s en ethische aspecten meegenomen.

Bij vragen kan overlegd worden met de Graduate School.

Mogelijkheden

GenAI biedt veel mogelijkheden voor onderzoek. Met taalmodellen (LLM's) is het bijvoorbeeld mogelijk om tekst te verbeteren en om onderzoek op het web uit te voeren. Onderzoekers kunnen genAI ook inzetten als hulpmiddel bij het coderen, brainstormen, vertalen, analyseren van tekst of cijfers, en het structureren van werk.

GenAI kan voor meerdere doeleinden worden ingezet, maar is niet overal even geschikt voor. Onderstaand overzicht helpt onderzoekers op een meer concrete manier om te bepalen waar genAI goed, redelijk of slecht in is.

GenAI is goed in:

Het samenvatten en toegankelijker maken van tekst, zoals documenten, (delen van) uitspraken, Kamerstukken, publicaties en webpagina’s;
Het herschrijven van tekst ter verduidelijking of in een bepaalde stijl;
Het opmaken en verbeteren van documenten of presentaties;
Het stellen van vragen, hulp bij brainstormen en visualiseren van tekst;
Als hulpmiddel bij literatuuronderzoek: zoeken en de kern uit literatuur halen;
Als hulpmiddel bij coderen.

GenAI is redelijk met:

Het beantwoorden van algemene vragen over een onderwerp (gebaseerd op publiek toegankelijke informatie) door middel van zoeken op het web;
Het schrijven van algemene teksten over een onderwerp (gebaseerd op publiek toegankelijke gegevens met het risico van onjuiste informatie en hallucinaties);
Het genereren van tekst voor presentaties;
Het uitvoeren van (een eerste) analyse van datasets en documenten;
Het vertalen van teksten.

GenAI is slecht in:

Het creëren van nieuwe kennis en ideeën;
Het nemen van juridische besluiten;
Het interpreteren van de gevolgen van beleid en beslissingen;
Het veilig zoeken en analyseren van (grijze) literatuur achter betaalmuren (hoewel met ‘agents’ beperkt mogelijk).

Risico's

Het gebruik van genAI brengt risico’s mee. Het is van belang te realiseren dat het gebruik van met genAI gegeneerde output niet zonder consequenties is. Het kan bijvoorbeeld worden geciteerd in andere onderzoeken of worden gebruikt om belangrijke beslissingen te nemen.

Geadviseerd wordt - waar mogelijk - gebruik te maken van de ‘opt-out’ in genAI-systemen om het hergebruik van interacties voor productverbetering of het trainen van modellen te beperken, ook vanwege mogelijke inbreuken op intellectuele eigendomsrechten, en in het belang van kennisveiligheid.

Onderstaande aandachtspunten zijn voor onderzoekers van belang wanneer zij genAI gebruiken.

Kennisveiligheid

Het verwerken van onderzoeksgegevens met een AI-systeem van een commerciële partij brengt risico’s voor de kennisveiligheid met zich mee. Het kan bijvoorbeeld onduidelijk zijn in hoeverre de commerciële partij gegevens voor eigen doeleinden gebruikt, voor productverbetering of het trainen van modellen inzet of moet delen met overheden.

Informatie ten aanzien van kennisveiligheid is hier te vinden.

Privacy en gegevensbescherming

Bij het gebruik van commerciële genAI worden gegevens verwerkt in de cloud van het bedrijf. Het is niet altijd mogelijk het delen van gegevens te beperken of uit te sluiten. Bij het verwerken van persoonsgegevens (gegevens die direct of indirect herleidbaar zijn tot een natuurlijk persoon) is de Algemene Verordening Gegevensbescherming (AVG) van toepassing. Onderzoekers wordt geadviseerd tekst te anonimiseren voordat deze in genAI wordt ingevoerd.

Het gebruik van lokale LLM’s (LLM's die lokaal zijn opgeslagen en werken op de rekenkracht van een lokale computer), kunnen in sommige gevallen privacy risico’s beperken. Let wel: de AVG blijft van toepassing en persoonlijke gegevens moeten altijd voldoende worden beveiligd.

Onderzoekers wordt geadviseerd het gebruik van genAI mee te nemen in de data protection impact assessment (DPIA) als onderdeel van het onderzoeksplan.

Onderzoekers kunnen met vragen over gegevensbescherming terecht bij de Privacy en security officers.

Auteursrechten

Het uploaden of kopiëren van auteursrechtelijk beschermd materiaal kan risico’s meebrengen, bijvoorbeeld als een licentie van een uitgever dit niet toestaat. Deze risico’s zijn nog niet helemaal uitgekristalliseerd.

Algemeen geldt dat uitgevers via licenties beperkingen kunnen opleggen. Als richtlijn geldt dat het uploaden van eigen materiaal of materiaal dat is gelicenseerd onder een open access-regeling geen auteursrechtschending oplevert. Wet- en regelgeving, jurisprudentie en Kamerstukken zijn auteursrechtvrij. In sommige gevallen geldt een uitzondering voor individueel gebruik van auteursrechtelijk beschermd materiaal voor wetenschappelijk onderzoek. Als samenwerking plaatsvindt met commerciële partijen of ook commerciële doelen worden nagestreefd dan is deze uitzondering niet van toepassing.

Door een logboek bij te houden of gesprekken met chatbots te bewaren, kunnen onderzoekers indien nodig aantonen dat het werk origineel is en auteursrechten worden gerespecteerd.

Ethische aspecten

Bij het gebruik van genAI is het belangrijk dat onderzoekers zich bewust zijn van de ethische aspecten. GenAI maakt bijvoorbeeld gebruik van voorgetrainde modellen, die vooroordelen (bias) kunnen bevatten. Sommige modellen zijn bijvoorbeeld meer getraind met een Westers wereldbeeld, waardoor de output bepaalde denkbeelden en stereotypen kan versterken.

Bij gezamenlijke onderzoeksactiviteiten (publicaties) is het raadzaam voorafgaand overleg te voeren over het gebruik, de verantwoording en ethische aspecten bij het gebruik van genAI-tools.

Impact op milieu

GenAI-tools vereisen aanzienlijke hoeveelheden energie en kunnen daardoor negatieve gevolgen hebben voor het milieu. In het bijzonder verbruiken datacenters - die de verwerking van gegevens mogelijk maken die ten grondslag liggen aan de output van LLM’s - aanzienlijke hoeveelheden elektriciteit en water. Het genereren van afbeeldingen, audio, en video’s, en ook ‘diep onderzoek’ met redeneren verbruikt nog meer energie dan eenvoudigere toepassingen.

Maak daarom bewust gebruik van genAI en overweeg de noodzaak van het gebruik van de tools, ook in samenhang met andere digitale taalhulpmiddelen.