Inleiding De laatste jaren blijkt schooleffectiviteit een belangrijk en actueel gegeven te zijn binnen de onderwijskundige context (Scheerens, 2000). Binnen het onderwijsbeleid van scholen is er een verandering van zoveel mogelijk inschrijvingen behalen, naar het verbeteren van de kwaliteit van het onderwijs (Scheerens, 2000). Vele publicaties die handelen over het meten van effectiviteit en kwaliteit zijn hier het bewijs van bv. PISA, TIMMS, DELPHI, etc… . (Van Petegem & Van Hoof, 2006) Over het begrip effectiviteit bestaat er nog steeds onduidelijkheid. Scheerens (1999) stelt: “School effectiveness is the extent to which schools achieve their core objectives” Van Petegem (1998) ziet het ruimer: “effectiviteit is het bereiken van wat men voor ogen heeft”. Hier stelt zich een probleem, schooleffectiviteit geeft immers niet precies aan wat men nastreeft, en is dus een leeg begrip. (Scheersens 2000; Scheerens & Bosker, 1997). Reid, Hopkins & Holly (1987) concludeerden dan ook: “while all reviews assume that effective schools can be differentiated from ineffective ones there is no consensus yet on just what constitutes an effective school.” Praktisch gezien worden echter prestaties voor basisvakken zoals taal en wiskunde veelal als maatstaf genomen (Scheerens, 2000). Davies (n.d.) kritiek op het opnemen van slechts één criterium als effectiviteitsindicator is deels terecht. Een te enge visie op de doelstellingen van het onderwijs, zou veronderstellen dat het onderwijs enkel tot doel heeft de wiskundeprestaties of taalprestaties van leerlingen te verbeteren. Anderzijds is het utopisch om een onderzoek naar effectieve scholen op te zetten waarin alle doelstellingen van het onderwijs samen worden geëvalueerd. Daarom moeten er keuzes worden gemaakt en daarmee komt de validiteit in het gedrang.(De Maeyer & Rymenans, 2004) Bij onderzoek op basis van meerdere effectiviteitscriteria speelt consistentie een belangrijke rol. Het blijkt immers dat veel scholen die op één effectiviteitscriterium hoog scoren, niet hoog scoren op een ander effectiviteitscriterium (De Maeyer, 2008, Brookover et al., 1979; Knuver & Brandsma, 1993; Mortimore et al., 1988). De vraag reist dan ook wat het belang is van de keuze van het effectiviteitscriterium en hoe consistent scholen scoren over verschillende effectiviteitscriteria. De OECD heeft al enkele malen onderzoek verricht naar de prestaties van leerlingen, zowel op het gebied van wiskunde als op het gebied van taal. Tijdens de laatste bevraging lag de nadruk op wetenschappelijke vaardigheid. Tijdens dit onderzoek wordt het effectiviteitsonderzoek een nieuw leven ingeblazen. Meerbepaald de consistentiekwestie, door ook wetenschappen op te nemen als effectiviteitsindicator (OECD, 2007). De consistentie tussen vakken wordt onderzocht: Nederlands, wiskunde en wetenschappen, maar ook binnen wetenschappen: wetenschappelijke fenomenen uitleggen en het gebruik van wetenschappelijke bewijzen. Teddlie & Reynolds (2000) geven aan dat er op het gebied van consistentie meer onderzoek moet gedaan worden en dan vooral de consistentie tussen cognitieve en niet-cognitieve schooleffecten, daarom wetenschappen opgenomen. Belangrijk wordt is ook dat intrinsieke het PISA motivatie onderzoek voor enkele maatschappelijke implicaties met zich meebrengt, een goede interpretatie van deze resultaten is dan ook belangrijk. (Hostens, 2001) Om betrouwbare wetenschappelijke uitspraken te kunnen doen worden daarom niet enkel de brutoresultaten in acht genomen, maar ook de nettoresultaten. De nettoresultaten zijn de resultaten, waarbij de achtergrondkenmerken van leerlingen uitgezuiverd worden. Literatuur Het literatuuroverzicht is opgedeeld in 2 thema’s. Tijdens het eerste deel wordt de aandacht gevestigd op effectiviteit. Tijdens het tweede deel wordt er dieper ingegaan op het consistentievraagstuk. Op basis van dit literatuuronderzoek worden als laatste de concrete onderzoeksvragen gedefinieerd. Effectiviteit De algemene vooropgestelde definitie resultaat of van het effectiviteit criterium. Het geeft geen concept invulling aan 'onderwijseffectiviteit' het is inhoudelijk leeg. In principe kan elk mogelijk type van uitkomst gehanteerd worden als beoordelingscriterium. Wel is het zo dat school X effectiever is dan school Y wanneer ze in grotere mate de vooraf gestelde doelstellingen realiseert. De maatschappelijke discussie over welke doelen nastrevenswaardig zijn gaat vooraf aan de effectiviteitsvraag (Scheerens & Bosker, 1997). Onderzoek naar de legitimiteit en ideologische basis van onderwijsdoelen is relevant, maar behoort niet tot het terrein van het onderwijseffectiviteitsonderzoek (Scheerens, Bosker, & Creemers, 2001). In de meeste studies wordt een relatieve invulling van het effectiviteitsconcept gehanteerd. Men bestudeert verschillen tussen scholen en op basis daarvan worden relatieve uitspraken gedaan: de ene school is meer of minder effectief in vergelijking met de overige scholen. Deze relatieve positionering zegt weinig over de mate waarin scholen bepaalde minimum doelstellingen realiseren (Scheerens & Bosker, 1997; Visscher, 2001). Tot op heden heeft het meeste onderzoek zich gefocust op 1 of 2 academische resultaten. Slechts enkele hebben aandacht gehad voor niet cognitieve criteria (Brandsma, 1993; Mandeville & Anderson, 1986; Mortimore et al., 1988; Reynolds, 1976; Rutter et al., 1979). Wanneer er wordt gekeken naar wat de invloed is op de resultaten van een leerling, valt dit te onderscheiden in 3 grote categorieën. Ruwweg wordt van de variantie in leerling-prestaties zo’n 40 à 50% verklaard door aanleg- en milieufactoren, 40% blijft onverklaard, terwijl de factor school zo’n 10 à 20% variantie verklaard. In meer recente onderwijseffectiviteit onderzoeken zijn de percentages door de factor school gebonden variantie vaak nog lager (Hill, Rowe & Holmes-Smith, 1995). Toch moet het schooleffect niet geminimaliseerd worden. Een leerling van een ineffectieve Nederlandse basisschool heeft immers twee jaar meer nodig om hetzelfde diploma te behalen op het einde van het secundair onderwijs, dan een even getalenteerde leerling van een effectieve lagere school (Scheerens & Bosker, 1997). In de onderzoekspraktijk betekent effectitiviteitsonderzoek dat gezocht wordt naar de "added value", oftewel de toegevoegde waarde van manipuleerbare school- en klassecondities, ongeacht de effecten van een al dan niet gunstige uitgangssituatie van de leerlingen. In onderzoektechnische termen wordt dit uitgedrukt als het bepalen van effecten, terwijl gecontroleerd wordt voor relevante achtergrondkenmerken van leerlingen. Scheerens (n.d.) omschrijft onderwijseffectiteitsonderzoek als volgt: “Globaal gezegd komt leerprestaties het op onderwijseffectiviteitsonderzoek enig tijdstip in de neer op het meten van schoolcarrière, het meten van achtergrondkenmerken en prestaties op een eerder tijdstip en het relateren van de voor achtergrondkenmerken en beginprestaties gecontroleerde prestaties aan school- en klaskenmerken waarvan verwacht wordt dat ze invloed hebben op de prestaties.” Consistentie Binnen het consistentieonderzoek is er reeds een kennisbasis aanwezig. Eerst worden de verschillende onderzoekmethodes besproken, daarna de consistentie tussen vakken, ten derde wordt de consistentie binnen vakken behandeld en als laatste de consistentie tussen cognitieve en niet cognitieve criteria Schooleffectiviteitsonderzoek heeft een bredere pretentie, dan wat tot op heden werd onderzocht. De impliciete assumptie is dat een effectieve school niet alleen goede resultaten laat zien voor één schoolvak, maar voor het hele curriculum, of in ieder geval voor alle kernvakken. Tevens is er de impliciete aanname dat een school niet alleen gedurende één schooljaar effectief is, maar dat blijvend is. (Scheerens, n.d). Cook & Campbell (1979) geven in deze context aan dat één van de belangrijkste bedreigingen voor constructvaliditeit de ‘mono-operation bias’ is. Wie de schooleffectiviteit bepaalt aan de hand van slechts één outputmaat beperkt de zeggingskracht van zijn uitspraken. Tabberer (1994) zegt hierover het volgende:”It is important for, if it exists to a notable extent, then single feature measures of school effectiveness such as are considered for league tables are brought further into question.” Door verscheidene outputmaten te gebruiken, krijgt men meer zicht op wat de school toevoegt. (Cook & Campbell, 1979). Wanneer er meerdere effectiviteitsindicatoren worden opgenomen luidt de consistentievraag als volgt: Is een klas of school die effectief is voor het ene criterium dat ook voor andere criteria? De consistentievraag mag echter niet verward worden met de vraag naar stabiliteit. De vraag naar stabiliteit van schooleffecten handelt over de effecten op langere termijn (Crone et al, 1994; Mandeville, 1988; Mandeville & Anderson, 1987). Om de consistentie na te gaan zijn er verschillende onderzoekmethodes. Tijdens de meeste studies wordt er gebruik gemaakt van correlaties tussen de schooleffecten op verschillende vakken of klassen, anderen gebruiken ‘split samples’ van studenten. Enkele onderzoekers hebben zich ook op het consistentieonderzoek gericht door gebruik te maken van Kappa-coefficienten, deze controleren de kansgelijkheid tussen de verschillende indices (e.g. Crone et al, 1994, 1995b; Lang, 1991, Lang et al., 1992; Mandeville & Anderson, 1987). Op het gebied van consistentie tussen de verschillende vakken is er reeds een kennisbasis beschikbaar door onderzoek uit de Verenigde Staten, Verenigd Koninkrijk en Nederland. Dit geeft aan dat er een gemiddelde mate van consistentie tussen de resultaten van verschillende vakken bestaat. Mandeville en Anderson (1986) onderzochten reeds de consistentie tussen vakken op de basisschool. Ze vonden effect indexen van .70. Brandsma en Knuver (1989) bereikten ongeveer hetzelfde getal (.72) in het Nederlands Basisonderwijs. Mandeville en Anderson (1987) en Mandeville (1988) rapporteerden sterk gemiddelde positieve correlaties tussen effectiviteitsonderzoek gericht op lezen en op wiskunde (r= 0.60-0.70) hierbij werd gebruik gemaakt van de database van het Carolina Department of Education. De Kappa coëfficiënten die tijdens deze studie gevonden werden waren lager (0.33 tot 0.52). Deze studie was een vervolg van vele studies die in de Verenigde Staten werden gehouden naar de stabiliteit en consistentie van schooleffecten, sinds 1960 (e.g. Dyer et al., 1969, Hiltond en Patrick, 1970; Marco, 1974; O’Conner, E., 1972; Rowan et al., 1983). In 1994 deed Yelton et al. (1994) een onderzoek naar de consistentie van schooleffecten op een klein aantal lagere scholen in de Verenigde Staten en rapporteerde een gemiddelde niveau van consistentie tussen resultaten voor wiskunde en lezen. In Nederland bevestigden Bosker & Scheerens (1989) het voorafgaand onderzoek. Ze deden een analyse van al het voorgaand onderzoek naar schooleffecten in het lager onderwijs in Nederland. Ze kwamen tot een sterk gemiddeld positief effect met een correlatie (r=.72). In het Verenigd Koninkrijk rapporteerden Moritmore et al. (1988) redelijk positieve correlaties tussen de school effecten op wiskunde en schrijven. (.28) en wiskunde en lezen (.41). Door de gelijke effecten gevonden in de Verenigde Staten, Verenigd Koninkrijk en Nederland wordt over het algemeen aangenomen dat de correlaties tussen verschillende cognitieve effectiviteitscriteria sterk gemiddeld positief zijn. Al het voorgaande onderzoek speelt zicht echter af op de basisschool. In het secundair onderwijs is de consistentie lager dan in het basisonderwijs. In het secundair onderwijs zijn de correlaties lager en bevinden ze zich tussen r.40 en .50 (Cuttance, 1987; FitzGibbon, 1991b; Nuttal et al., 1992; Smith en Tomilson, 1989; Thomas en Nuttal , 1993; Thomas et al., 1993; Wilms en Raudenbush, 1989. Sammons et al. 1993). De betrekkelijk lage consistentie tussen vakken in het secundair onderwijs wijzen op het belang van de invloed van de leerkracht. (Scheerens & Bosker, 1997) De consistentie binnen vakken blijkt groter te zijn dan deze tussen vakken. (Mandeville & Anderson, 1987; Crone et al., 1994a, 1994b, 1995). De schooleffecten binnen wiskunde zijn ook consistenter dan die binnen taal. Dit komt omdat leerlingen wiskundekennis voor een groter deel aangeleerd krijgen op school. Taalkennis wordt sterker beïnvloed door thuis- en andere externe factoren dan die van de school (Mandeville & Anderson, 1987). Doch is er tot vandaag de dag weinig onderzoek gedaan naar de consistentie binnen vakken. De richting en de omvang van de associatie tussen schooleffecten op cognitieve en nietcognitieve criteria is tot op heden onduidelijk. Sommige studies suggereren dat de twee domeinen zwak positief gerelateerd zijn. Andere nemen aan dat beide domeinen onafhankelijk zijn van elkaar, terwijl een derde groep eerder zwak negatieve associaties vond. (Brookover, et al, 1979; Knuver & Brandsma, 1993; Rutter et al., 1979; Smyth, 1999). Reynolds (1976) en Rutter et al. (1976) vonden eerder sterke correlaties tussen scholen die effectief zijn voor academische vaardigheden en hun sociale effectiviteit. Rutter et al (1979) concludeerde: “On the whole, schools which have high levels of attendance and good behaviour also tend to have high levels of exam success”. Later onderzoek door Gray, Jesson en Sime (1983) geeft aan dat de scores zoals: appreciatie van de school en aanwezigheden deels onafhankelijk waren van de academische resultaten. In Nederland onderzochten Knuver & Brandsma (1993) de relatie tussen school effecten op een variëteit van affectieve variabelen (attitudes ten aanzien van taal en rekenkunde, academisch zelfconcept, schoolswelbevinden en prestatiemotivatie) en op taal en rekenkunde. De correlaties waren klein maar nooit negatief. Er werd geconcludeerd dat de twee domeinen relatief onafhankelijk zijn op school niveau, maar op geen enkele manier tegengesteld zijn aan elkaar. Toch heeft het meeste onderzoek zich tot nu toe gefocust op 1 of 2 academische resultaten. Slechts enkele hebben getracht om de consistentie binnen schooleffecten te onderzoeken op het sociaal affectief vlak en academische resultaten. (Brandsma, 1993; Mandeville & Anderson, 1986; Mortimore et al., 1988; Reynolds, 1976; Rutter et al., 1979, Gray, Jesson & Sime 1983). Gezien de nadruk die scholen leggen op de sociale ontwikkeling van hun studenten behoeft dit onderwerp nog extra aandacht (Sammons, 1999) 3.4.2 Gehanteerde criteria voor het vaststellen van schooleffectiviteit De keuze van het outputcriterium, bijvoorbeeld cognitief of niet-cognitief, is bepalend voor uitspraken over de effectiviteit van een school. Om de cognitieve output van scholen te bepalen worden in schooleffectiviteitsstudies verschillende criteria gehanteerd. Grofweg kan er een onderscheid worden gemaakt in schoolloopbaangegevens, schoolprestaties en toetsscores (Sammons, Hillman & Mortimore, 1994) of leervorderingen (Veenstra, 1999)..De meest gebruikte cognitieve criteria in het schooleffectiviteitsonderzoek zijn echter toetsresultaten. Met name taal en wiskunde worden getoetst omdat in principe alle leerlingen onderwijs krijgen in deze vakken. Bovendien worden taal en wiskunde tot de basisvaardigheden gerekend. De voordelen van de vertaling van cognitieve criteria in toetsscores zijn de relatieve eenduidigheid, inzichtelijkheid en eenvoudige manier van meten. Met name gestandaardiseerde toetsen die gebaseerd zijn op de kerndoelen vergemakkelijken de vergelijking tussen scholen. Omdat het begrip effectiviteit in het schooleffectiviteitsonderzoek betrekking heeft op de mate waarin onderwijsdoelen worden bereikt en de huidige onderwijsdoelen een brede vorming van leerlingen centraal stellen, worden in steeds meer schooleffectiviteitsstudies naast leerprestaties (cognitieve criteria) ook niet-cognitieve criteria opgenomen als maat voor schooleffectiviteit (Hansford & Hattie, 1982; Marsh, 1992; Knuver & Brandsma, 1993; Knuver, 1993; Smyth, 2000, Opdenakker & Van Damme, 2002; Smyth & Hannan, 2006). Sammons (2006) maakt in dit verband een onderscheid in cognitieve, sociale en affectieve uitkomsten. Townsend (2002) onderscheidt een reeks effectiviteitcriteria op basis van de uitkomsten van schooleffectiviteitsonderzoek. Naast geletterdheid, cijfermatig begrip en ‘andere academische doelen’ zoals bijvoorbeeld geschiedenis en biologie zijn volgens Townsend (2002) meerdere criteria van belang in het definiëren van een effectieve school. Hij noemt in dit verband gedrag van leerlingen, zelfconcept, onderwijsdoelen zoals waarden en attituden, burgerschap en gemeenschapsdoelen en het hebben van werk. Uit het voorgaande kan worden opgemaakt dat de keuze van het effectiviteitscriterium op onderwijsdoelen is gebaseerd. De mate van schooleffectiviteit, oftewel de grootte van het schooleffect, is afhankelijk van de keuze van het effectiviteitscriterium (Opdenakker & Van Damme, 2000a). Zowel in onderwijsdoelen als in het schooleffectiviteitsonderzoek wordt een onderscheid gemaakt tussen cognitieve en niet-cognitieve criteria en wordt het belang van beide categorieën criteria benadrukt. Uit verschillende studies naar de grootte van schooleffecten op verschillende effectiviteitscriteria blijkt dat de schooleffecten voor niet-cognitieve criteria, behoorlijk kleiner zijn dan voor cognitieve criteria. Het bruto-schooleffect van cognitieve criteria ligt in Nederland rond de 20% hetgeen betekent dat 20% van de verschillen in cognitieve criteria tussen scholen, verklaard kan worden op het niveau van de school. Als rekening wordt gehouden met achtergrond- en instroomverschillen van leerlingen (het nettoschooleffect), ligt dit percentage met rond de 10% een stuk lager. Voor de nietcognitieve criteria ligt het bruto-schooleffect onder de 5%, oftewel nog geen 5% van de verschillen in niet-cognitieve criteria tussen scholen kan worden verklaard op het niveau van de school. Het netto-schooleffect ligt tussen de 1% en 2% (Van Landegem, Van Damme, Opdenakker, De Fraine & Onghena, 2002). De invloed van scholen is duidelijk groter op cognitieve criteria dan op niet-cognitieve criteria. De resultaten van de studies van De Fraine, Van Damme en Onghena (2002) en Grisay (1994) gaan in dezelfde richting. Opdenakker & Van Damme (2000a) keken specifiek naar schooleffecten op het schoolwelbevinden en concludeerden dat de invloed van de school op leerprestaties groter is dan op het schoolwelbevinden. Een mogelijke verklaring voor de verschillen in schooleffecten is dat schooleffecten groter zijn voor de domeinen die tot het leerplan behoren dan voor domeinen daarbuiten. Toch worden ook aanzienlijke verschillen in schooleffecten gevonden tussen de verschillende schooldomeinen zoals bijvoorbeeld tussen wiskunde en Nederlands (zie bijvoorbeeld Veenstra, 1999). Deze verschillen worden vaak verklaard door te refereren naar de mate waarin het criterium is gerelateerd aan schoolse kennis. Naarmate dit meer het geval is, is het variantiepercentage op schoolniveau groter. Wiskunde is bijvoorbeeld een vak dat vrijwel uitsluitend op school wordt geleerd. Taal daarentegen is een vak dat veel minder schoolgebonden is, ook buiten de school worden leerlingen veelvuldig blootgesteld aan taal. In zekere zin gaat dit ook op voor de niet-cognitieve criteria, die minder sterk op school worden ontwikkeld dan bijvoorbeeld wiskunde. Een andere mogelijke verklaring voor verschillen in schooleffecten tussen cognitieve en niet-cognitieve criteria is de mate waarin deze criteria in de Nederlandse onderwijsdoelen zijn beschreven. De cognitieve criteria zijn in de kerndoelen gedetailleerd per vak beschreven. Niet-cognitieve criteria worden daarentegen in de algemene onderwijsdoelen slechts genoemd als aandachtspunt. In onderzoek naar schooleffectiviteit is het van belang zowel cognitieve als niet-cognitieve criteria in het onderzoeksmodel op te nemen. Beide criteria zijn echter niet per sé onafhankelijk van elkaar, niet-cognitieve criteria en cognitieve criteria kunnen elkaar versterken. Zo constateert Smyth (2000) dat het stimuleren van niet-cognitieve criteria zoals bijvoorbeeld academisch zelfbeeld en zelfbewustzijn, een positieve invloed heeft op leerprestaties. Van der Wal (2004) komt tot de conclusie dat op scholen waar leerlingen gemiddeld hoog scoren op academische competenties, leerlingen gemiddeld ook hoog scoren op academisch zelfbeeld en burgerschapscompetenties. Door de nadruk die het ondersteunend karakter van niet-cognitieve criteria ten aanzien van cognitieve criteria krijgt in het schooleffectiviteitsonderzoek, lijkt het alsof er in de relatie tussen beide groepen criteria sprake is van een causaal verband. In de literatuur komt echter geen eenduidig causaal verband naar voren. Uit verschillende correlatiestudies blijkt wel een verband tussen affectieve criteria en leerprestaties, maar een richting wordt daarin niet aangegeven (Hansford & Hattie, 1982; Bosker, 1990; Kuyper & Swint, 1996; Van der Werf t al., 1999; Creemers-van Wees, Rekers Mombarg & Bosker, 2000; Peschar, 2006). Marsch en Shavelson (1985) en Marsh, Trautwein, Lüdtke, Keller en Baumert (2005) concluderen bijvoorbeeld dat naarmate leerlingen een positiever (academisch) zelfbeeld hebben, zij beter presteren dan leerlingen met een lager (academisch) zelfbeeld. Deze relatie is echter wederkerig; naarmate leerlingen beter presteren hebben zij ook een positiever academisch zelfbeeld. Hofman, Hofman en Guldemond (1999) vonden positieve correlaties tussen schoolwelbevinden en wiskundeprestaties. Ook hier wordt een causaal verband niet gespecificeerd. Knuver (1993) keek naar de relatie tussen affectief functioneren en leerprestaties. Zij veronderstelde dat leerlingen die beter presteren, positievere attitudes, een hogere prestatiemotivatie, een positiever zelfbeeld en een positievere schoolbeleving zouden hebben en dat affectief functioneren een effect zou hebben op leerprestaties. De correlaties uit haar onderzoek waren alle positief, maar over het algemeen niet erg hoog, uitgezonderd de relatie tussen zelfbeeld en taal en rekenen. Het onderzoek van Knuver en Brandsma (1993) ging een stap verder door wel te zoeken naar causale verbanden tussen affectieve en cognitieve criteria. Er werden matige verbanden gevonden in beide richtingen, alhoewel het effect van cognitieve criteria op affectieve iets groter was dan andersom. 3.4.3 Effecten van achtergrond- en instroomkenmerken van leerlingen Uit het vroege schooleffectiviteitsonderzoek van Coleman et al. (1966) en Jencks et al. (1972) bleek al dat de bijdrage van de school aan de leerprestaties van leerlingen gering was. De conclusie luidde dat verschillen in leerprestaties tussen scholen vooral worden veroorzaakt door de verschillen in de kenmerken van de leerlingpopulatie van de scholen. De onderzoeken die volgden waren vooral gericht op het vinden van proceskenmerken die de verschillen tussen scholen konden verklaren (Weber, 1971; Rutter, Maugham, Mortimore, Ouston & Smith, 1979). De invloed van leerlingenkenmerken op leerprestaties is echter een belangrijk gegeven gebleken waarmee rekening gehouden dient te worden in het schooleffectiviteitsonderzoek. Eerder in dit hoofdstuk is aangegeven dat de gemiddelde toegevoegde waarde van de school betrekking heeft op de bijdrage van de school op het prestatiegemiddelde van de school nadat rekening is gehouden met de kenmerken van de leerlinginstroom. Rekers-Mombarg, Kuyper en van der Werf (2006) stellen dat achtergrond- en instroomkenmerken de belangrijkste predictoren zijn voor onderwijsresultaten. De vraag is dan welke achtergrond- en instroomkenmerken van belang zijn voor welk effectiviteitscriterium. In deze paragraaf worden achtereenvolgens de invloed van achtergrond- en instroomkenmerken van leerlingen op leerprestaties en op de niet-cognitieve criteria besproken, voor zover daarover iets bekend is vanuit de onderwijspsychologie en onderwijssociologie. Achtergrondkenmerken zijn min of meer stabiele kenmerken van leerlingen zoals geslacht, intelligentie en het thuismilieu. Deze kenmerken zijn van invloed op leerprestaties. Zo worden bijvoorbeeld een aantal seksespecifieke verschillen gevonden op schoolloopbanen. Jongens verlaten vaker ongediplomeerd de school, halen lagere diploma’s en doen gemiddeld langer over hun opleiding dan meisjes. In Nederland verlopen de schoolloopbanen van meisjes voorspoediger dan die van jongens en zowel in het primair als in het voortgezet onderwijs scoren meisjes hoger op taal en jongens hoger op rekenen en wiskunde (Van der Werf, Lubbers & Kuyper 2002). Oorzaken voor de seksespecifieke verschillen in schoolloopbanen kunnen worden gezocht in de zogenoemde geslachtsrolsocialisatie: de manier waarop de mannelijke en vrouwelijke persoonlijkheid wordt gevormd (Peschar & Wesselingh, 1995). Los van biologische verschillen zijn er indicaties dat de genoemde verschillen worden veroorzaakt door vroege(re) socialisering (Klaassen, 1985; Feingold, 1992; Grossman & Grossman, 1994). In het onderwijs wordt in deze context vaak gesproken over het verborgen curriculum (Beker, 1986). Het verborgen curriclum heeft betrekking op de impliciete verschillen in benadering van jongens en meisjes in het onderwijs, zowel in werkvormen van docenten, leerboeken als werkvormen. Een andere belangrijke voorspeller van schoolsucces is intelligentie. In vrijwel alle studies naar schooleffectiviteit wordt een effect van intelligentie op leerprestaties gevonden (Coleman, 1966; Jencks, 1972; Bryk & Raudenbush, 1992; Fraser, Walberg, Welch & Hattie, 1987; Scheerens & Creemers, 1989; Opdenakker & Van Damme, 2001). Intelligentie wordt op tal van manieren gedefinieerd, maar de gemeenschappelijke kern is: intelligentie is het vermogen tot abstractie en probleemoplossen en een algemene aanleg voor leren (Snyderman & Rothman, 1987). Een bron van discussie in deze definitie is de algemene aanleg. Verschillende onderzoekers definieren meerdere domeinen van intelligentie zoals bijvoorbeeld analytische, practische, creatieve intelligentie (Sternberg, 2003) of nog meer aspecten, zoals in de theorie van de meervoudige intelligentie van Gardner (2003). Naast geslacht en intelligentie is ook het thuismilieu een belangrijk achtergrondkenmerk in relatie tot leerprestaties. Onder het thuismilieu van leerlingen worden verschillende factoren gerekend zoals sociaal economische status, opvoedingsstijl, cultureel kapitaal en onderwijsondersteunend gedrag. Leerlingen met laag opgeleide ouders verlaten vaker ongediplomeerd het voortgezet onderwijs en behalen lagere diploma’s (Van der Werf, Lubbers & Kuyper 2002). De oorzaken van de samenhang tussen thuismilieu en leerprestaties worden in de literatuur vooral gezocht in intelligentie, de sociaaleconomische positie van ouders, de culturele en etnische positie van ouders, het taalgebruik, de vrienden en de woonbuurt (Meijnen, 1979; Van der Velden, 1991; Dronkers & Ultee, 1995). Het thuismilieu van leerlingen uit de hogere SES-groepen sluit beter aan bij het onderwijsklimaat dan het thuismilieu van leerlingen uit de lagere SESgroepen (Duke, 2000; Yeung, Linver & Brooks-Gunn, 2002) waardoor deze leerlingen al met een voorsprong het onderwijs binnenomen. Bovendien hebben ouders uit de hogere SES-groepen verwachtingen met betrekking tot de leerprestaties van hun kinderen terwijl ouders uit de lagere SES-groepen vooral gehoorzaamheid en goed gedrag verwachten (Heyman & Earle, 2000). Naast achtergrondkenmerken zijn zoals gezegd ook cognitieve en niet-cognitieve instroomkenmerken belangrijke voorspellers van leerprestaties. Voorbeelden van instroomkenmerken van leerlingen zijn het reeds op de basisschool bereikte prestatieniveau, maar ook studievaardigheden en motivatie om te leren. Voorkennis van leerlingen is een indicator van het cognitieve instroomniveau en blijkt de belangrijkste predictor van leerprestaties (Béguin, de Jong, Rekers-Mombarg & Bosker, 2000; Rekers-Mombarg et al., 2000; Kuyper & van der Werf, 2005). Van der Werf, Lubbers en Kuyper (2002) toonden aan dat voorkennis (de score op een taal-, rekenen informatieverwerkingstoets) een belangrijke voorspeller is van de diplomarealisatie en studieduur van leerlingen. Ook het advies (van de basisschool) blijkt een belangrijke voorspeller van diplomarealisatie en studieduur (Van der Werf et al., 2002). Leren bouwt voort op vroeger leren (Shuell, 1996) en deze relatie gaat op voor zowel de vakinhoudelijk voorkennis als de manier waarop leerlingen leren. Doordat bepaalde kennis aanwezig is, kunnen leerlingen verbanden leggen, structureren, samenvatten en voorbeelden begrijpen (Dochy, 1992). Leerlingen kunnen dit op verschillende manieren doen. De manier waarop leerlingen verbanden leggen, structureren, samenvatten en voorbeelden begrijpen worden leersstrategieën of studievaardigheden genoemd en zijn onder meer afhankelijk van de motivatie van leerlingen. Met betrekking tot motivatie wordt binnen de leerpsychologie een onderscheid gemaakt tussen intrinsieke en extrinsieke motivatie en prestatiegerichte motivatie (Biggs, 1987). Bij intrinsieke motivatie leren leerlingen uit persoonlijke interesse en bij een extrinsieke motivatie beschouwen leerlingen het leren als een middel om een ander doel te bereiken (bijvoorbeeld diploma realisatie). Prestatiemotivatie is het streven naar het halen van goede leerprestaties, ongeacht of de leerstof interessant wordt gevonden of niet (Ten Dam & Vermunt, 2003). Onderzoeksvragen Scheerens en Bosker (1997) geven aan dat het effectiviteitscriterium een sterke rol speelt bij het nagaan van effectiviteit. Op het gebied van wetenschappen is er nog een duidelijke lacune binnen de literatuur. Daarnaast geeft men aan dat een school die hoog scoort op één vak niet noodzakelijk hoog scoort op een ander vak. (Goldstein et al., 1993; Thomas, 2001; Thomas et al., 1997b; Willms & Raudenbush, 1989). Er stelt zich dan ook de vraag: OV 1: Scoort een school die hoog scoort op wetenschappen ook hoog voor wiskunde en taal? De consistentie binnen vakken blijkt groter te zijn dan deze tussen vakken. (Mandeville & Anderson, 1987; Crone et al., 1994a, 1994b, 1995). De schooleffecten binnen wiskunde zijn wel consistenter dan die binnen taal. (Mandeville & Anderson, 1987). Op het gebied van wetenschappen is hier nog geen verder onderzoek naar gedaan. OV 2. Scoort een school die hoog scoort voor wetenschappelijke fenomenen verklaren ook hoog op het gebruik van wetenschappelijke bewijzen en wetenschappelijke onderwerpen aanduiden. Veel tegenstelling bestaat er over het effect dat scholen hebben op niet-cognitieve aspecten van studentenontwikkeling. De richting en de omvang van de associatie tussen schooleffecten op cognitieve en niet-cognitieve criteria blijft onduidelijk. Sommige studies suggereren dat de twee domeinen zwak positief gerelateerd zijn.; andere nemen aan dat beide domeinen onafhankelijk zijn van elkaar, terwijl een derde groep eerder zwak negatieve associaties vond. (Brookover, et al, 1979; Knuver & Brandsma, 1993; Rutter et al., 1979; Smyth, 1999) OV 3: Scoren scholen die hoog scoren op wetenschappen ook hoog op ‘Instrumental motivation in science PISA 2006 (WLE)’ en interesse in wetenschappen. 3.5.3 Achtergrond- en instroomkenmerken De invloed van achtergrondkenmerken zoals geslacht, intelligentie en het thuismilieu op leerprestaties wordt algemeen erkend. Over wat intelligentie precies is en waardoor intelligentie wordt verworven bestaat veel discussie. Nergens wordt het ‘nature – nurture debat’ zo heftig gevoerd als met betrekking tot intelligentie. Het debat spitst zich toe op de vraag of intelligentie erfelijk bepaald is of gevormd wordt door de omgeving (Jencks, 1980; Leseman, 1989; Van der Velden, 1991). In het verlengde van deze discussie ligt de vraag hoe intelligentie moet worden gedefinieerd. Sommige psychologen geven aan dat intelligentie datgene is ‘wat een test meet’ (Vroon, 1980). Anderen definiëren intelligentie als maat voor probleemoplossend vermogen (Sternberg, 1990). Voor het schooleffectiviteitsonderzoek is de conclusie van Meijnen (1979) relevant. Meijnen concludeert dat de relatieve bijdrage van erfelijkheid of omgeving er eigenlijk niet zoveel toe doet, maar dat voor het onderwijs kennis over de aard van de invloed van omgevingsfactoren op intelligentie van belang is. Immers, als er een invloed is van de omgeving op intelligentie, is het van belang om na te gaan welke factoren dit in de omgeving zijn. Het thuismilieu is daarmee als omgevingsfactor een belangrijk achtergrondkenmerk in relatie tot leerprestaties. Leerlingen met laag opgeleide ouders verlaten vaker ongediplomeerd het voortgezet onderwijs en behalen lagere diploma’s (Van der Werf, Lubbers & Kuyper 2002). De oorzaken van de samenhang tussen thuismilieu en leerprestaties worden in de literatuur vooral gezocht in erfelijke intelligentie, de sociaal-economische positie van ouders, de culturele en etnische positie van ouders, het taalgebruik, de vrienden en de woonbuurt (Meijnen, 1979; Van der Velden, 1991; Dronkers & Ultee, 1995). Achtergrondkenmerken zijn belangrijke voorspellers van leerprestaties. Van Vrije scholen is bekend dat de leerlingpopulatie niet representatief is voor de leerlingpopulatie op scholen voor voortgezet onderwijs. Het thuismilieu van Vrije schoolleerlingen sluit goed aan bij de schoolcultuur. In meerdere opzichten hebben deze leerlingen een voorsprong die gezocht kan worden in de sociaaleconomische en culturele positie van ouders enerzijds en in het taalgebruik binnen het gezin anderzijds. Bovendien komen leerlingen op de Vrije scholen nauwelijks uit etnische minderheidsgroepen. Naast achtergrondkenmerken zijn ook instroomkenmerken belangrijke voorspellers van leerprestaties. Het reeds bereikte niveau van zowel cognitief als niet-cognitief functioneren op het moment van instromen is een belangrijke factor in de verdere ontwikkeling van leerlingen. Meer dan 75% van de leerlingen op Vrije scholen voor voortgezet onderwijs komt uit het Vrije school basisonderwijs. Dit kan betekenen dat Vrije schoolleerlingen verschillen in instroomniveau op verschillende kenmerken in vergelijking met leerlingen in het regulier onderwijs hetgeen zou kunnen resulteren in verschillen op de outputcriteria. Daarom wordt van alle outputcriteria eerst het instroomniveau bepaald. Tabel 3.2 geeft een overzicht van de gebruikte controlevariabelen die zijn gebruikt bij het vaststellen van de effectiviteitsverschillen tussen Vrije en reguliere scholen ten aanzien van de cognitieve criteria in het de de leerjaar. Analoog aan de cognitieve criteria, is voor de niet-cognitieve criteria ook telkens de eerstejaars meting van het criterium als controle variabele in het model opgenomen. Tabel 3.2 Schema controle variabelen voor de cognitieve criteria Nederlands Wiskunde METHODOLOGIE Data Tijdens dit onderzoek wordt er gebruik gemaakt van de laatste PISA dataset uit 2006 (OECD, 2007). Tijdens deze bevragingsronde lag de nadruk vooral op wetenschappen. Uit deze dataset werden de Vlaamse data geselecteerd. De keuze voor deze data is weloverwogen, maar brengt ook enkele voor- en nadelen met zich mee. Het belangrijkste voordeel is dat er uit een bestaande, gevalideerde databank kan geput worden. Het bereiken van zoveel respondenten zou anders in een masterproef niet realiseerbaar zijn. Daarnaast heeft de PISA-dataset een belangrijke maatschappelijke impact op het onderwijs. In grote landen zoals de USA, Japan, Duitsland, enz. hechten de beleidsverantwoordelijken groot belang aan deze resultaten en beschouwen ze deze al een echte waardemeter inzake de kwaliteit van hun onderwijs. De slechte TIMSS-resultaten van de USA hebben in 1995 geleid tot crisisberaad op het Witte Huis onder het voorzitterschap van Clinton en tot belangrijke beleidsinitiatieven om de kwaliteit van het onderwijs te verbeteren.(2001, Hostens) Door een verder onderzoek van deze dataset, is het mogelijk om tot betere interpretaties te komen van dit grootschalig onderzoek en misschien tot enkele aanbevelingen over te gaan. Het nadeel is dat de PISA-databank ook enkele beperkingen met zich meebrengt. Met deze beperkingen dient ook rekening worden gehouden bij de interpretatie van de resultaten. Een bestaande dataset betekent dat men gebonden is aan de opgenomen variabelen. In het geval van de PISA-dataset is een ernstig probleem, het ontbreken van de variabele IQ. Hierdoor is het moeilijk om valide resultaten te bereiken en volledig de achtergrondkenmerken van leerlingen uit te zuiveren. Methode Voor dit onderzoek wordt gebruik gemaakt van multilevel analyse. Deze analysetechniek houdt niet alleen rekening met de antwoorden van een individuele respondent, het is ook mogelijk om de context waarin een individu zich bevindt te betrekken in de analyse. Een individu maakt deel uit van een ruimere context: een wijk, een gemeente, een provincie, een land,… De antwoorden van een individuele respondent worden beïnvloed door deze ruimere contexten. Zo maken individuele leerlingen deel uit van een klas binnen een school in een welbepaald net of een regio, …. (De Groof & Stevens, 2004). In dit onderzoek is het schoolniveau erg belangrijk, er wordt immers nagegaan of scholen consistent scoren op verschillende effectiviteitscriteria. Zoals reeds besproken zijn er verschillende methodes om deze consistentie na te gaan (cfr. Hoofdstuk 2). Er kan gebruik gemaakt worden van Kappa-coëfficiënten, split samples of van correlaties tussen de schooleffecten op verschillende vakken. Tijdens dit onderzoek is er geopteerd om de correlatie na te gaan. Dit maakt een vergelijking met voorgaand onderzoek makkelijker, omdat er reeds een grote kennisbasis aanwezig is. Daarnaast wordt in het effectiviteitsonderzoek een onderscheid gemaakt tussen nettoeffecten en bruto-effecten. De netto-effecten worden als ‘value added’ bestempeld, dit wil zeggen dat wat de school toevoegt, na controle voor de instroom (Scheerens & Bosker, 1997). Om de scholen op een wetenschappelijk valide manier met elkaar te vergelijken is het belangrijk de achtergrondkenmerken van de leerlingen uit te zuiveren. Door zowel een brutomodel als een nettomodel te hanteren, is het mogelijk om een ander beeld te krijgen van de data. Een school die bij het brutomodel een zeer hoge correlatie laat optekenen is ook de school die het meest consistent zal scoren in werkelijkheid. Bij het nettomodel, start iedereen met een ‘gelijke’ leerlingenpopulatie, de achtergrondkenmerken van de leerlingen worden uitgezuiverd. Op die manier valt vast te stellen of scholen ook consistent zijn, wanneer men start met een gelijke leerlingenpopulatie. Analyse van de resultaten. Tijdens de analyse van de resultaten worden eerst het brutomodel besproken, de consistentie tussen vakken, binnen wetenschappen en als laatste tussen cognitieve en niet cognitieve factoren. Daarna wordt het nettomodel geanalyseerd, hierbij zijn de leerlingenkenmerken uitgezuiverd. Operationalisering van de variabelen Cognitieve outputmaten. Wiskundige geletterdheid Aangezien wiskundige geletterdheid in PISA2006 geen hoofddomein meer is, werd het aantal wiskundevragen drastisch ingeperkt en verdwenen heel wat echt moeilijke wiskundevragen uit de PISA-tests. In PISA2003 was wiskundige geletterdheid het hoofddomein van het onderzoek. In PISA2006 wordt wiskundige geletterdheid net zoals bij PISA2000 als een minor domein meegenomen. PISA verstaat onder wiskundige geletterdheid alle vaardigheden die leerlingen gebruiken om wiskundige problemen te analyseren, te communiceren, te interpreteren en op te lossen. Het begrip overschrijdt dus het louter oplossen van traditionele wiskundeoefeningen. In PISA krijgen de leerlingen realiteitsgebonden problemen uit verschillende contexten aangeboden en moeten ze hun wiskundige vaardigheden gebruiken om die problemen op te lossen. De wiskundige kennis en vaardigheden worden getest aan de hand van drie dimensies: de wiskundige inhoud waarnaar de problemen en vragen verwijzen, de cognitieve processen die leerlingen nodig hebben om de problemen te linken aan wiskunde en op te lossen en de situaties en contexten waarbinnen de problemen worden aangeboden. Wiskundige geletterdheid wordt binnen PISA gedefinieerd als: “het vermogen om de rol van wiskunde in het dagelijkse leven in te schatten, om goed gefundeerde beslissingen te nemen en om wiskunde te gebruiken op manieren die tegemoet komen aan de noden van het leven” Leesvaardigheid Leesvaardigheid was het hoofddomein van het PISA-onderzoek in PISA2000. Sindsdien werd dit domein enkel als minor domein meegenomen. Leesvaardigheid benadrukt de vaardigheden van leerlingen om geschreven informatie te gebruiken in realiteitsgebonden contexten. PISA definieert leesvaardigheid als: “het begrijpen, het gebruiken van en het reflecteren op geschreven teksten, zodat iemand zijn doelen kan bereiken, zijn kennis en capaciteiten kan ontwikkelen en kan participeren in de maatschappij”. Deze definitie overstijgt de traditionele visie van het decoderen van informatie en het letterlijk interpreteren van wat in teksten geschreven staat. Het concept leesvaardigheid wordt binnen PISA door drie dimensies bepaald: het formaat waarin het leesmateriaal wordt aangeboden, het type leestaak en de situatie of het doel waarvoor de tekst werd opgesteld. Vlaanderen laat met een gemiddelde prestatie van 522 punten een vijfde gemiddelde prestatie voor leesvaardigheid optekenen. Wetenschappelijke geletterdheid PISA verstaat onder wetenschappelijke geletterdheid het kunnen toepassen van wetenschappelijke kennis en vaardigheden in levensechte situaties. De PISA-tests onderzoeken niet beheersen. Er enkel wordt of leerlingen gekeken naar specifieke de wetenschappelijke mogelijkheden van onderwerpen leerlingen om wetenschappelijke onderwerpen te onderscheiden en bepaalde fenomenen op een wetenschappelijke manier uit te leggen. Ook de wetenschappelijke aanpak bij het aanduiden, interpreteren en oplossen van realiteitsgebonden problemen waarin wetenschap en technologie een grote rol spelen, wordt gemeten. Om te testen of leerlingen bovenstaande vaardigheden bezitten, ontwikkelde PISA taken die het reproduceren van schoolse kennis overstijgen.( Deze taken worden ingebed in levensechte situaties waarin wetenschappen en technologie prominent aanwezig zijn (bijvoorbeeld gezondheid, kwaliteit van het milieu, natuurlijke hulpbronnen, enz.) en worden op drie contextniveaus bevraagd (de persoonlijke context, de sociale/maatschappelijke context en de globale context). Zo kan het thema “gezondheid” bijvoorbeeld op de volgende manier binnen de drie niveaus worden ingevuld: “zelf gezond blijven” (persoonlijk), “de volksgezondheid bewaken” (sociaal) en “epidemieën onder controle houden” (globaal). PISA definieert wetenschappelijke geletterdheid als de vaardigheid van een individu om: wetenschappelijke kennis te gebruiken om vragen te identificeren, nieuwe kennis te verwerven, wetenschappelijke fenomenen uit te leggen en bewijsmateriaal te gebruiken om conclusies te trekken in verband met wetenschappelijke onderwerpen. de specifieke kenmerken van wetenschap als een vorm van menselijke kennis en onderzoek te begrijpen. in te zien hoe wetenschap en technologie ons materieel, intellectueel en cultureel milieu beïnvloeden. zich als denkende burger verbonden te voelen met wetenschappelijke onderwerpen en de begrippen van de wetenschap. PISA plaatst haar definitie van wetenschappelijke geletterdheid en de ontwikkelde testvragen in een raamwerk dat bestaat uit vier onderling samenhangende aspecten. Dit zijn enerzijds de bovenvermelde contexten waarin de taken zijn ingebed en anderzijds de vaardigheden die leerlingen moeten toepassen, de bevraagde kennisdomeinen en de attitudes van leerlingen Vaardigheden binnen wetenschappen Wetenschappelijke onderwerpen aanduiden. De hoofdtaken in dit domein bestaan uit het herkennen van onderwerpen die wetenschappelijk onderzocht kunnen worden, het aanduiden van sleutelwoorden bij het zoeken naar wetenschappelijke informatie en het herkennen van de hoofdkenmerken van een wetenschappelijk onderzoek. Fenomenen wetenschappelijk verklaren De belangrijkste aandachtsgebieden in het verklaren van wetenschappelijk fenomenen zijn: wetenschappelijke kennis in een bepaalde situatie toepassen, beschrijven of interpreteren van wetenschappelijk fenomenen en voorspellen van veranderingen, en identificeren van aangewezen beschrijvingen, verklaringen en voorspellingen. Ongeveer 46% van de wetenschapstaken inbegrepen in PISA 2006 zijn verwant met wetenschappelijk het verklaren van fenomenen. Wetenschappelijke bewijzen gebruiken. Deze bekwaamheid vereist studenten om kennis van wetenschap en kennis over wetenschap samen te stellen zodat ze deze beiden op een het levenssituatie of een eigentijds sociaal probleem kunnen toepassen. De hoofdkenmerken van deze variabele zijn: het interpreteren van wetenschappelijk bewijsmateriaal en het maken en het communiceren van conclusies; het identificeren van de veronderstellingen, het bewijsmateriaal en de redenering achter conclusies; en reflecteren over de sociale implicaties van wetenschap en technologische ontwikkelingen. Niet cognitieve outputmaten (attitudes) Instrumental motivation to learn science Gezien het vaak waargenomen tekort aan studenten in wetenschappen in het hoger onderwijs in Vlaanderen en andere landen, is het belangrijk dat de beleidsbepalers een inzicht bereiken al dan niet deze tendens waarschijnlijk zal verdergaan. De instrumentale motivatie blijkt een belangrijke voorspeller te zijn voor: cursusselectie, carrièrekeuzes en prestaties (Eccles, 1994; Eccles en Wigfield, 1995; Wigfield et al., 1998). In PISA 2006, werd de instrumentale motivatie gemeten door vijf vragen. Leerlingenkenmerken Leerlingen verschillen op tal van kenmerken van elkaar. Al in het vroege schooleffectiviteitsonderzoek is meermalen aangetoond dat achtergrondkenmerken van leerlingen van invloed zijn op de leerprestaties van leerlingen (zie ook hoofdstuk 3). (REFERENTIE) Naast geslacht en intelligentie zijn het vooral sociaal milieu en etniciteit die de schoolloopbanen van leerlingen beïnvloeden. De achtergrondkenmerken die in dit onderzoek zijn opgenomen zijn het geslacht, de sociaal-economische herkomst van de leerling, de thuistaal van de leerling, de immigratiestatus, het onderwijsniveau van de ouders en de jobstatus van de ouders. In het Nederlands onderwijsonderzoek blijkt in de regel dat het opleidingsniveau van ouders een sterkere samenhang vertoont met leerprestaties in het voortgezet onderwijs dan het beroepsniveau (Hustinx, Kuyper & van der Werf, 2005). Bovendien levert het beroepsniveau van ouders geen additionele bijdrage aan de voorspelling van leerprestaties als rekening wordt gehouden met het opleidingsniveau van de ouders. Daarom is in dit onderzoek gekozen voor de hoogst behaalde opleiding van een ouder in het gezin als indicator van de Sociaal Economische Status (SES) van leerlingen. De categorieën (met tussen haakjes de toegekende waarde) op basis waarvan deze variabele is opgebouwd waren: lager onderwijs (2), eerste trap voortgezet onderwijs (3), tweede trap voortgezet onderwijs (4), propedeuse hoger onderwijs (5), doctoraal hoger onderwijs (6) en doctoraat hoger onderwijs (7). In Kuyper, Lubbers en van der Werf (2003, p.4) wordt de constructie van deze variabele uitgebreid beschreven In het onderhavige onderzoek is het leesgedrag van ouders opgenomen als proxy voor het cultureel kapitaal van leerlingen. Aan ouders werd gevraagd hoeveel tijd zij per week ongeveer besteden aan het lezen van boeken, tijdschriften en kranten. Een uitgebreide beschrijving van deze variabele is te vinden in Kuyper et al. 2003 (p.30). Het scorebereik van deze variabele die gebaseerd is op 8 items loopt van 1 keer per week tot 12 keer per week, met een gemiddelde van 3.8 en een standaarddeviatie van 8.55. Afhankelijke variabelen: 3 modellen. Modellen Onafhankelijke variabelen De onafhankelijke variabelen bestaan uit vijf groepen: achtergrondkenmerken van leerlingen en ouders; gedrag en houding van leerlingen ten aanzien van het onderwijs; sociale compositie van de school; leer- en onderwijsomstandigheden; en schoolklimaat. De achtergrondkenmerken van leerlingen en ouders en het gedrag en de houding van leerlingen zijn op leerling-niveau gemeten. De sociale compositie van de school, leer- en onderwijsomstandigheden en het schoolklimaat zijn gemeten op schoolniveau. De laatste twee groepen variabelen zijn gebaseerd op informatie van de schooldirecteur. Model Het variabelenniveau, het schoolniveau en het klasniveau Achtergrondkenmerken van leerlingen en ouders Voor de meting van de sociale en demografische achtergrondkenmerken van leerlingen en ouders maken we gebruik van een aantal verschillende indicatoren, die deel uitmaken van de PISA-dataset. Vele hiervan zijn schalen, gebaseerd op verschillende items uit de vragenlijst en zijn gestandaardiseerd met een gemiddelde van 0 en een standaarddeviatie van 1. Van al deze achtergrondkenmerken wordt in de literatuur verondersteld dat zij bijdragen tot betere schoolprestaties. Teneinde te voorkomen dat een effect van de scores op wiskunde, taal, wetenschappen,… en…wordt met verschillen tussen de leerlingen van die scholen, wordt in de analyses met deze kenmerken rekening gehouden. leeftijd Hoewel de leeftijd in principe constant is in de dataset (de meting is immers alleen gedaan onder vijftienjarigen) zullen we toch controleren voor leeftijd in maanden, omdat de kleine variatie hierin toch invloed kan hebben. Daarnaast controleren we voor geslacht en schoolniveau. Als indicatoren voor sociale herkomst gebruiken we in de eerste plaats de beroepsstatus van beide ouders, gemeten volgens de internationale sociaal-economische index (ISEI) (Ganzeboom et al., 1992), en het opleidingsniveau van beide ouders, gemeten volgens de ISCED-schaal (OECD, 1999). Daarnaast wordt materiële rijkdom opgenomen als 3.3. Factoren in de component achtergrondkenmerken van leerlingen De factoren in de component achtergrondkenmerken van leerlingen zijn controlevariabelen. Met deze factoren moet rekening worden gehouden om de effecten van school- en klasniveau op leerresultaten correct te kunnen schatten. In de modellen voor effectieve instructie die in het vorige hoofdstuk zijn beschreven zijn verschillende kenmerken van leerlingen besproken: motivatie, begaafdheid, voorkennis en de capaciteiten om de instructie te begrijpen. Er is overlap in betekenis tussen deze factoren en eerder is geconstateerd dat op verschillende wijze invulling kan worden gegeven aan de factoren. Zowel Carroll (1963), Harnischfeger & Wiley (1978) als Walberg (1984) noemen de factor begaafdheid van leerlingen als belangrijk achtergrondkenmerk. Wanneer een willekeurig geselecteerde groep kinderen een zelfde leertaak wordt onderwezen, zullen de kinderen sterk verschillen in de tijd die ze nodig hebben om de leertaak te leren beheersen. Carroll noemt deze vorm van benodigde tijd de begaafdheid (aptitude) om een taak te leren onder de conditie dat Het model van Scheerens & Creemers geoperationaliseerd 45 de kwaliteit van instructie perfect is voor deze specifieke leerling. Walberg (1984) spreekt van talent. Een leerling met een hoge begaafdheid heeft slechts een beperkte hoeveelheid tijd nodig om een bepaalde leertaak te leren, een leerling met een lage begaafdheid heeft voor dezelfde leertaak veel meer tijd nodig. Sommige leerlingen hebben zo’n lage begaafdheid dat zij, hoe goed de instructie ook zal zijn, de leertaak nooit zullen leren. Hun benodigde tijd is oneindig. De begaafdheid is afhankelijk van de leertaak en is volgens Carroll een functie van een grote hoeveelheid andere factoren, zoals de hoeveelheid voorkennis voor dit specifieke onderwerp. Begaafdheid - of talent - komt grotendeels overeen met intelligentie, alhoewel dat door de modelbouwers niet zo wordt genoemd. Omdat intelligentie goed is te operationaliseren - in tegenstelling tot begaafdheid - kiezen we hier voor de variabele intelligentie als achtergrondkenmerk van leerlingen. Dat voorkennis een belangrijke controlevariabele is voor leerprestaties van leerlingen ligt voor de hand. Leerlingen die van tevoren al veel van een leertaak weten zullen na instructie in die leertaak meer weten dan leerlingen die van tevoren nog niets van de leertaak wisten. Het opnemen van voorkennis als belangrijke controlevariabele in de component achtergrondkenmerken van leerlingen ligt dus voor de hand. Carroll (1963) maakt nadrukkelijk een onderscheid tussen de begaafdheid van een leerling en de capaciteiten om de instructie te begrijpen (ability to understand instruction). Reden voor dit onderscheid is dat er volgens hem een wisselwerking bestaat tussen de variabele capaciteiten om de instructie te begrijpen en de variabele kwaliteit van instructie. Met capaciteiten om de instructie te begrijpen worden factoren bedoeld als algemene intelligentie en verbale capaciteiten. Deze factoren verklaren de mogelijkheden van de leerling om te begrijpen en te interpreteren wat de leraar en het leermateriaal proberen duidelijk te maken in de specifieke taal. Wanneer bijvoorbeeld een leraar een Chinees meisje dat geen Nederlands spreekt in het Nederlands uitleg geeft, dan zal dat meisje ongetwijfeld weinig opsteken van deze vorm van instructie. Haar capaciteiten om deze instructie te begrijpen zijn laag. Hetzelfde meisje beschikt in China, waar zij in haar moedertaal wordt onderwezen, over veel hogere capaciteiten om die instructie te begrijpen. Capaciteiten om de instructie te begrijpen en de kwaliteit van instructie kunnen dus niet los van elkaar worden gezien. Waarschijnlijk speelt taal hierbij de belangrijkste rol. Taalvaardigheid lijkt dan ook, naast intelligentie, een goede maat voor de capaciteiten om instructie te begrijpen. De motivatie van leerlingen wordt in alle drie modellen voor effectieve instructie genoemd als belangrijke factor voor de verklaring van leerprestaties van leerlingen. Voor de beschrijving van de motivatie en het doorzettingsvermogen van een leerling sluit Carroll (1963) aan bij Brandwein (1955). Die definieert de motivatie en het doorzettingsvermogen als een combinatie van drie attitudes: 1) een aanmerkelijke bereidheid om tijd te besteden de taak, 2) de bereidheid Schoolbeleid, instructie en leerresultaten 46 om ongemak te doorstaan en 3) de bereidheid om mislukking onder ogen te zien. In deze variabele zijn emotionele factoren terug te vinden, zoals frustraties, de leraar wel of niet leuk vinden, bang zijn om te falen enzovoort. Motivatie en doorzettingsvermogen bepalen hoeveel tijd een leerling wil besteden aan het leren. Een leerling die een bepaalde tijd nodig heeft om de taak te leren is wel of niet bereid die tijd aan die taak te besteden. Een leerling die niet veel tijd nodig heeft om de taak te leren kan mogelijk de taak leren beheersen zonder een hoge motivatie en zonder veel doorzettingsvermogen. Evenzo geldt dat een leerling die veel tijd nodig heeft de taak misschien kan leren door een hoge motivatie en voldoende doorzettingsvermogen. Niettemin is de invloed van motivatie en doorzettingsvermogen op de eerste leerling van minder belang dan op de laatste, omdat een hoge motivatie en veel doorzettingsvermogen bij de eerste leerling nauwelijks nodig is, terwijl de laatste leerling zonder veel motivatie en doorzettingsvermogen de taak zeker niet zal leren beheersen. Stel bijvoorbeeld dat het leren een lineaire functie is. Een bepaalde leerling heeft twee uur nodig heeft om een gegeven taak te leren. De leerling krijgt slechts één uur de tijd voor de taak. Maar hij is niet erg gemotiveerd, hij wil maar een half uur aan de taak besteden. In dat geval zal de leerling een score halen van 25%. In dit voorbeeld wordt er van uit gegaan dat de leerling zelf volledig invloed heeft op de tijd die hij binnen de beschikbare tijd wil besteden. In een klassituatie wordt dat niet alleen bepaald door de motivatie van de leerling, maar bijvoorbeeld ook door de controle van de leraar. In de modellen bepaalt de motivatie van de leerling voor een deel de tijd die de leerling aan een leertaak zal besteden. In de praktijk zal deze variabele deels bepalen hoe actief de leerling in de klas is en hoeveel tijd hij zal besteden aan zijn huiswerk. Millan e.a. (1983) hebben de invloed van motivatie en doorzettingsvermogen op de door leerlingen bestede tijd aan een leertaak onderzocht. Zij vonden geen significante verschillen in leertijd tussen leerlingen met een hoge motivatie en doorzettingsvermogen en minder gemotiveerde leerlingen met minder doorzettingsvermogen. Aan de andere kant rapporteert Walberg (1984) in een review over verscheidene onderzoeken een gemiddelde correlatie tussen motivatie en prestatie van 0.34 en tussen zelfbeeld en prestatie 0.18. Dat laatste resultaat wordt bevestigd door Frasier c.s. (1987), maar dat geldt niet voor het eerste resultaat. In een analyse van verschillende reviews vonden zij zes verschillende affectieve variabelen die mogelijk een rol kunnen spelen: faalangst, dogmatisch, extravert, neurotisch, leesangst, mate van zelfbeheersing en zelfbeeld. Slechts de laatste twee factoren lijken een significantie positieve correlatie te hebben met prestatie. Samenvattend bestaat de component achtergrondkenmerken dus uit vier factoren: algemene motivatie van de leerling om te leren op school, voorkennis van de leertaak, algemene intelligentie en algemene taalvaardigheid. De laatste twee factoren staan gezamenlijk voor de variabele capaciteiten om de instructie te begrijpen. De voorkennis wordt uiteraard ook beinvloed door de taalvaardigheid en intelligentie. De leerling heeft immers in het verleden Het model van Scheerens & Creemers geoperationaliseerd 47 instructie in die voorkennis gehad. Een leerling met een goede taalvaardigheid en hoge intelligentie zal over het algemeen over meer voorkennis beschikken dan een leerling die de taal minder goed beheerst en over minder intelligentie beschikt. 4.2.3 Achtergrondfactoren In de component achtergrondfactoren onderscheiden we vier factoren: algemene intelligentie, taalvaardigheid, voorkennis en motivatie. Hieronder volgt een beschrijving van de operationalisering van deze factoren en de manier waarop ze gemeten zijn. Schoolbeleid, instructie en leerresultaten 68 Algemene intelligentie In zijn model ruimt Carroll plaats in voor de factor ‘bekwaamheid om de instructie te begrijpen’ (ability to understand instruction). Daarmee wordt bedoeld de kwaliteiten waarover de leerling beschikt om te snappen wat de leraar zegt en wat in het boek staat. Als de leerling bijvoorbeeld slechts Chinees verstaat en het onderwijs wordt in het Nederlands gegeven, dan zal de leerling weinig opsteken van de les. Intelligentie maakt eveneens deel uit van deze factor: een slimme leerling zal eerder begrijpen wat de leraar of het boek bedoelt dan zijn minder slimme klasgenoot. Voor deze factor is het dus van belang om zowel intelligentie als taalvaardigheid vast te stellen. Om de intelligentie vast te stellen is gebruik gemaakt van toets L van de Groninger Intelligentie Toets (zie Luteijn & Van der Ploeg, 1983). Deze toets meet de ruimtelijke intelligentie. Er bestaan ook toetsen die meer op taal- of rekenkundig inzicht zijn gericht. Deze toetsen zijn niet gekozen, omdat daarmee overlappingen zouden kunnen ontstaan met de toets taalvaardigheid en de voorkennis van de leerling voor wiskunde. Omdat in het model juist de nadruk wordt gelegd op het onderscheid tussen deze factoren en de items in toetsen voor ruimtelijke intelligentie niet in het onderwijs worden aangeboden aan de leerling, nemen we aan dat deze laatste categorie toetsen het meest geschikt zijn voor het meten van de algemene intelligentie. De intelligentietoets bestaat uit twintig items. Bij ieder item moet de leerling uit een zestal figuren kiezen met welke van de zes de gegeven figuur gemaakt kan worden. De betrouwbaarheid van de toets is voldoende (. = .70). Veelal zijn waarden voor de betrouwbaarheid van intelligentietests hoger, maar in dit geval is er sprake van een selecte groep leerlingen, namelijk op MAVO/HAVO-niveau. Daardoor is de variantie beperkter dan wanneer een steekproef over de volledige leerlingpopulatie zou worden genomen. Taalvaardigheid Een tweede onderdeel van de bekwaamheid om de instructie te begrijpen vormt de taalvaardigheid. Deze is gemeten met behulp van een onderdeel van de informatieverwerkingstoets van de Cito-eindtoets voor het basisonderwijs. Er is voor deze toets gekozen, omdat daarmee de mogelijkheid tot juist interpreteren van een item in de Nederlandse taal wordt vastgesteld. Daarmee is deze toets meer geschikt dan een enkele taaltoets, die weliswaar taalkennis meet, maar niet zozeer of de leerling de taal ook daadwerkelijk begrijpt. De toets bestaat uit twintig items. De betrouwbaarheid is redelijk (. = .65). Ook hier wreekt zich de beperkte variantie in taalresultaten doordat de steekproef slechts bestaat uit MAVO/HAVO-leerlingen. Deze toetsen hebben meestal een hogere consistentie (. _ .90) die ruimschoots voldoende is. Voorkennis Om vast te stellen welke kennis een leerling al heeft over wiskunde is een voortoets afgenomen. De voortoets meet de rekenprestaties van de leerling en is afkomstig uit de Cito-eindtoets basisonderwijs. Daarmee is de toets zeer geschikt om de rekenkennis aan het begin van de Onderzoeksopzet 69 basisvorming vast te stellen. De toets bestaat uit twintig items die in voldoende mate dekkend zijn voor de kennis die een leerling aan het eind van het basisonderwijs en voorafgaand aan de basisvorming moet kennen. De toets is voldoende betrouwbaar (. = .77). Motivatie van leerlingen De motivatie van leerlingen is gemeten met behulp van een vragenlijst voor leerlingen. De oorspronkelijke lijst bestaat uit 36 items. Ieder item heeft vier antwoordmogelijkheden varierend van helemaal mee oneens tot helemaal mee eens. De vragenlijst is gebaseerd op een schaal van Hermans (1980, 1983), maar is ten aanzien van een aantal items enigszins gewijzigd door Kuyper & Swint (1996) om de toets te actualiseren. Naar aanleiding van de analyses van de betrouwbaarheid van de toets zijn twee items verwijderd. De vragen in de toets hebben betrekking op de algemene motivatie van leerlingen ten opzichte van school en leren. Zij moeten zinnen als Meestal vind ik de tijd op school ..... voorbij gaan invullen met één van de vier keuzemogelijkheden: langzaam, een beetje vlug, vrij vlug en vlug (zie bijlage 1 voor een volledig overzicht van de toets). Kuyper & Swint hebben de test gebruikt voor herhaalde meting van de motivatie bij 750 leerlingen. De test is zestien keer herhaald bij steeds dezelfde groep. Voor iedere toetsafname is de betrouwbaarheid van de toets berekend. Kuyper & Swint (1996) rapporteren een gemiddelde betrouwbaarheid van .88, wat als zeer goed beschouwd kan worden. In het onderhavige onderzoek wordt een even grote betrouwbaarheid gevonden (. = .85). Leerresultaten Carroll (1963) maakt onderscheid tussen leerresultaten (achievement) en mate van leren (degree of learning). In dit onderzoek maken we dat onderscheid niet. De onderwerpen binnen het wiskundeonderwijs in het eerste jaar van de basisvorming zijn voor alle leerlingen namelijk nieuw. Leerresultaten op een wiskundetoets komen daarmee neer op een verschil tussen de nulsituatie aan het begin van het schooljaar en de eindsituatie tijdens de toets en zijn daarmee vergelijkbaar met de mate van leren. Om de leerresultaten te meten zijn twee toetsen afgenomen aan het einde van het schooljaar. Samen dekken beide toetsen de wiskundige onderwerpen die in dat jaar aan bod zijn geweest. Deze onderwerpen zijn willekeurig verdeeld over de twee toetsen. De eerste toets bestaat uit 43 items en is voldoende betrouwbaar (. = .83). Datzelfde geldt voor de tweede toets die bestaat uit 41 items (. = .85). Omdat elke toets een uur in beslag neemt, zijn de toetsen op twee verschillende tijdstippen afgenomen per klas. Het gevolg daarvan was dat enkele klassen de tweede toets niet hebben gemaakt. Beide toetsen correleren goed met elkaar (r = .78, p = .00), hetgeen betekent dat de score op de eerste toets in hoge mate overeen komt met de score op de tweede toets. Om uitval van respondenten te voorkomen is besloten de tweede toets uit het onderzoek te laten en slechts van de eerste toets gebruik te maken. De resultaten van leerlingen hangen niet enkel samen met de kwaliteit van het genoten onderwijs, maar ook met factoren die buiten de school liggen zoals de capaciteiten van de leerling, diens thuissituatie, e.d. Scholen kunnen niet verantwoordelijk gesteld worden voor elementen waarop ze geen invloed hebben (De Fraine et al., 2002). Daarom moet er bij het vergelijken van scholen gecorrigeerd worden voor rekruteringsverschillen. Zulke correctie moet leiden tot een meer correcte schatting van het schooleffect. In dit verband wordt een onderscheid gemaakt tussen bruto en netto schooleffecten. Een bruto schooleffect is ongecorrigeerd waardoor het in sterke mate het leerlingenpubliek weerspiegelt. Bij de schatting van een netto schooleffect wordt rekening gehouden met een aantal achtergrondkenmerken. De effectiviteitsvraag luidt dan: zijn de leerlingresultaten beter of minder goed dan men op basis van hun aanvangskenmerken zou verwachten? Vaak wordt enkel gecorrigeerd voor leerlingachtergrondkenmerken omdat er geen aanvangsprestaties voorhanden zijn. Kenmerken zoals sociaal-economische status, geslacht en etnische afkomst worden dan gebruikt als benadering voor het aanvangsniveau (Thomas, 1998). Maar pas wanneer er rekening gehouden wordt met aanvangsprestaties is het schooleffect een schatting van de toegevoegde waarde van de school ('value added', 'valeur ajoutée'). Enkel wanneer gegevens over het aanvangsniveau voorhanden zijn, kan men nagaan wat de school heeft bijgedragen tot de verandering bij leerlingen (Bosker et al., 2001; Thomas, 1998, 2001). Anderzijds is het onvoldoende om enkel te corrigeren voor aanvangsprestaties omdat leerlingachtergrondkenmerken niet enkel van invloed zijn op de beginsituatie van de leerling, maar ook op diens vooruitgang (Sammons, 2001; Thomas, 2001). 4.1 Welke rekruteringskenmerken zijn belangrijk? In deze paragraaf vermelden we een aantal rekruteringskenmerken (covariaten) waarvoor in onderwijseffectiviteitsonderzoek gecorrigeerd kan worden. De keuze van de covariaten is mede afhankelijk van het effectiviteitscriterium. Wanneer effectiviteit met betrekking tot prestaties wiskunde onderzocht wordt ligt het voor de hand de aanvangsprestaties voor het vak wiskunde in rekening te brengen, eerder dan die van een ander vak. Zoals reeds gezegd zijn aanvangsscores essentieel voor het meten van de toegevoegde waarde van de school (Gray, Jesson & Sime, 1990; Thomas, 2001; Willms, 1992). Aanvangsprestaties zijn meestal zeer sterke predictoren voor de latere prestaties. Voor de niet-cognitieve resultaten is het verband tussen de aanvangsmetingen en de uiteindelijke scores minder sterk dan bij de cognitieve maten (Grisay, 1996). Schoolprestaties van leerlingen hangen samen met de socio-economische status van het gezin, zo blijkt telkens weer uit sociologisch en onderwijskundig onderzoek (Bosker, 1990; Sammons, 1995). Daarenboven trekken sommige scholen een publiek aan met een hoge socioeconomische status terwijl andere scholen rekruteren uit een minder hoog socio-economisch milieu. Om deze redenen wordt er in heel wat studies gecorrigeerd voor indicatoren van de socio-economische status van het gezin van de leerling. De prestaties van leerlingen zijn beïnvloed door hun aanleg en capaciteiten. Daarom is het zinvol om rekening te houden met de scores op een intelligentietest. Opdenakker en Van Damme (2000a) bijvoorbeeld hanteren de numerieke intelligentie ter correctie van schoolverschillen in wiskundeprestaties en verbale intelligentie ter correctie van prestaties Nederlands. In verschillende studies in Londense secundaire scholen werd als covariaat de score op een test voor verbaal redeneren gebruikt (Goldstein & Sammons, 1997; Goldstein, Rasbash, Yang, Woodhouse, Pan, Nuttall, & Thomas, 1993; Nuttall, Goldstein, Prosser, & Rasbash, 1989; Rutter et al., 1979; Sammons, 1995; Thomas, Sammons, Mortimore, & Smees, 1997a, 1997b)3. In de meeste landen zijn er grote verschillen tussen scholen voor wat betreft het percentage migranten of anderstalige leerlingen (Driessen, 2002; Grisay, 1996). Om scholen op een eerlijke manier met elkaar te vergelijken moet er dus rekening gehouden worden met leerlingkenmerken zoals etnische afkomst of thuistaal. Meerdere studies stellen vast dat deze De 25% hoogst scorende leerlingen zitten in 'VR band1', de 25% laagst scorenden in 'VR band 3' en de overige 50% in VR band 2 (zie Nuttall et al., 1989) waarbij 'VR' staat voor 'Verbal Reasoning'. Hoofdstuk 1 Onderwijseffectiviteitsonderzoek Bieke De Fraine 22 Doctoraatsproefschrift mei 2003 3 leerlingvariabelen samengaan met schoolse prestaties. Bosker en Hofman (1994) stelden bijvoorbeeld vast dat leerlingen uit een etnische minderheidsgroep vaker schoolverlaters zijn dan de overige leerlingen. Toch dienen deze vaststellingen genuanceerd te worden. Wanneer het sociaal-economisch thuismilieu in rekening wordt gebracht, blijkt het verband tussen etnische afkomst en prestaties veel kleiner (Haque & Bell, 2001; Sammons, 1995). En wanneer rekening gehouden wordt met aanvangsprestaties boeken leerlingen uit etnische minderheden vaak een grotere vooruitgang dan de autochtone leerlingen (Haque & Bell, 2001; Nuttall et al., 1989; Thomas et al., 1997b). Een aantal onderwijsuitkomsten hangt samen met het geslacht van de leerling. Jongens blijven vaker zitten en zijn vaker voortijdige schoolverlaters dan meisjes (Van de gaer, Van Damme & De Munter, 2001). Anderzijds kiezen jongens meer kansrijke vakkenpakketten dan meisjes (Bosker, 1990; Bosker & van der Velden, 1989). En meestal wordt vastgesteld dat jongens beter zijn in wiskunde en wetenschappen en dat meisjes beter zijn in talen (zie o.m. Harker & Nash, 1996; Van de gaer et al., 2001). Het geslacht is daarnaast vaak een sterke predictor van niet-cognitieve effectmaten (Brutsaert & Bracke, 1994; Grisay, 1996). In sommige landen zijn er enkel gemengde scholen, in andere landen bestaan er wel single-sex-scholen. Zelfs wanneer er geen rekruteringsverschillen naar geslacht bestaan (zie bv. Grisay, 1996) is het toch zinvol om dit leerlingkenmerk in het onderzoek te betrekken omdat scholen bijvoorbeeld een ander effect kunnen hebben op jongens dan op meisjes. Vaak wordt er rekening mee gehouden of de leerling reeds achterstand opliep in het onderwijs. Deze variabele wordt meestal geoperationaliseerd als de leeftijd bij aanvang van een bepaalde onderwijsfase. Meestal wordt een negatieve samenhang vastgesteld: leerlingen die bij aanvang ouder zijn, presteren minder goed. De ene school telt meer leerlingen die achterop zijn dan de andere, en het is goed ook daarvoor te corrigeren. In een Brits onderzoek (Thomas, Madaus, Raczek, & Smees, 1998) verschilde de gemiddelde leeftijd van de schoolpopulatie soms wel zes maanden. Ook interacties tussen leerlingkenmerken kunnen een verklaring bieden voor resultaatsverschillen (Aitkin & Zuzovsky, 1994). Grisay (1996) bijvoorbeeld stelde vast dat het gevoel de schoolse taken aan te kunnen positief beïnvloed wordt door de mate van ondersteuning door de ouders, maar dat dit verband sterker is bij jongens dan bij meisjes. Bij het bepalen van schooleffecten kan rekening gehouden worden met de voorafgaande scholing. De lagere school waar de leerling school liep kan een langdurende invloed hebben op de resultaten in het secundair onderwijs (Goldstein, 1995; Goldstein & Sammons, 1997; Rasbash & Goldstein, 1994; Sammons, Nuttall, Cuttance, & Thomas, 1995; Thomas, 2001). Al Hoofdstuk 1 Onderwijseffectiviteitsonderzoek Bieke De Fraine 23 Doctoraatsproefschrift mei 2003 blijkt in de meeste onderzoeken (behalve bij Goldstein en Sammons) dat het effect van de lagere school kleiner is dan dat van de secundaire school. Dit alles kadert binnen de vraag naar de continuïteit van schooleffecten. Scholen bevinden zich in een specifieke context (verstedelijkingsgraad, gemiddelde socioeconomische status van het leerlingenpubliek, ...) die een invloed kan hebben op de resultaten van leerlingen, maar waarvoor een school niet verantwoordelijk gesteld kan worden. Sommigen menen daarom dat er behalve voor leerlingkenmerken ook gecorrigeerd moeten worden voor contextkenmerken (De Fraine et al., 2002; Harker & Nash, 1996; Raudenbush & Willms, 1995; Strand, 1998; Willms, 1992; Willms & Raudenbush, 1989). In verband daarmee wordt een onderscheid gemaakt tussen twee soorten schooleffecten. Effecten van het A-type zijn gecorrigeerd voor aanvangs- en/of achtergrondkenmerken van leerlingen en bij type B-effecten wordt daarenboven ook rekening gehouden met de schoolcontext. In sommige gevallen is de correctie voor instroomverschillen maar een kleine ingreep omdat de segregatie tussen de scholen gering is. Maar wanneer scholen sterk verschillen qua leerlingenpubliek is de correctie essentieel. In Vlaams onderzoek waren klas- en schoolverschillen in prestaties voor ongeveer 1/2 tot 3/4 toe te schrijven aan leerlingkenmerken (De Fraine, 2000; Opdenakker & Van Damme, 2000a; Opdenakker et al., 2002). Thomas (2001) onderzocht datasets uit verschillende landen en regio's en gemiddeld verklaren de rekruterings- en contextverschillen 77.3% van de schoolvariantie in prestaties. Met andere woorden: een groot deel van de bruto schooleffecten zijn toe te schrijven aan factoren buiten de school. Maar het belang van de correctie is afhankelijk van het effectiviteitscriterium. De schooleffecten op prestaties hangen sterk samen met rekruteringsverschillen dan de effecten op nietcognitieve maten (Thomas, 2001). Sommige onderzoekers stellen vast dat de correctie voor leerling- (en context-)kenmerken ingrijpender is voor taal dan voor wiskunde en dat zulke correctie de kleinste impact heeft op wetenschappen (Strand, 1998; Thomas et al., 1998). De verschillen tussen de drie vakken reflecteren volgens beide onderzoekers het relatieve gewicht van de invloed van de thuissituatie en van de schoolsituatie. Engels wordt vooral thuis geleerd, wetenschappen wordt bijna exclusief op school geleerd en wiskunde neemt daarin een tussenpositie in. In deze paragraaf werd verduidelijkt dat verschillen tussen klassen en verschillen tussen scholen gecorrigeerd moeten worden voor rekruteringsverschillen. In de volgende paragraaf gaan we na hoe groot die verschillen tussen klassen en tussen scholen zijn. Achtergrondkenmerken van leerlingen en ouders Voor de meting van de sociale en demografische achtergrondkenmerken van leerlingen en ouders maken we gebruik van een aantal verschillende indicatoren, die deel uitmaken van de PISA-dataset. Vele hiervan zijn schalen, gebaseerd op verschillende items uit de vragenlijst en zijn gestandaardiseerd met een gemiddelde van 0 en een standaarddeviatie van 1. Van al deze achtergrondkenmerken wordt in de literatuur verondersteld dat zij bijdragen tot betere schoolprestaties. Teneinde te voorkomen dat een effect van openbare en private scholen verward wordt met verschillen tussen de leerlingen van die scholen, wordt in de analyses met deze kenmerken rekening gehouden. Hoewel de leeftijd in principe constant is in de dataset (de meting is immers alleen gedaan onder vijftienjarigen) zullen we toch controleren voor leeftijd in maanden, omdat de kleine variatie hierin toch invloed kan hebben. Daarnaast controleren we voor geslacht en schoolniveau. Als indicatoren voor sociale herkomst gebruiken we in de eerste plaats de beroepsstatus van beide ouders, gemeten volgens de internationale sociaal-economische index (ISEI) (Ganzeboom et al., 1992), en het opleidingsniveau van beide ouders, gemeten volgens de ISCED-schaal (OECD, 1999). Daarnaast wordt materiële rijkdom opgenomen als indicator van sociale herkomst. Deze variabele is indirect gemeten: leerlingen is gevraagd naar de aanwezigheid van een afwasmachine, televisie, mobiele telefoon, auto, computer en internetverbinding bij hen thuis. Ook worden kenmerken van de familiestructuur meegenomen als indicatoren van sociale herkomst: naast het aantal broers en zussen wordt onderscheid gemaakt tussen kerngezin (referentiecategorie), eenoudergezinnen, gezinnen met ouder en stiefouder, en andere familievormen. In navolging van theorieën over cultureel kapitaal (Bourdieu, 1983) wordt ook het bezit van cultuur (klassieke literatuur, poëzie, kunstwerken in huis) opgenomen als indicator voor sociaal milieu. De culturele activiteiten van de leerling is de combinatie van het aantal malen bezoek aan musea, kunstgaleries, theater, klassieke muziek concerten of ballet. De ouderlijke academische belangstelling-schaal combineert antwoorden van de leerlingen over hoe vaak zij met hun ouders praten over politieke en sociale kwesties, boeken, films en televisieprogramma’s. Het praten met ouders over school, het gezamenlijk met hen aan tafel eten, en de tijd besteed aan met hen praten vormen de ouderlijke sociale belangstelling. De onderwijshulpbronnen thuis zijn een combinatie van het hebben van een eigen bureau, een rustige plek om te studeren, het bezit van woordenboeken, handboeken en een rekenmachine. S O C I A A L -E C O N O M I S C H E S TAT U S De sociaal economische status (SES) kent minstens drie componenten, en wel de door de ouders/verzorgers gevolgde opleiding, het door hen uitgeoefende beroep, en de hoogte van hun inkomen. Naar dit laatste is in het Nederlandse onderwijsonderzoek niet vaak gevraagd. Doorgaans worden het niveau van de opleiding en van het beroep als indicatoren voor SES gebruikt. Een redelijk stabiel resultaat in Nederland is dat het niveau van de opleiding hoger met de onderwijspositie correleert dan het niveau van het beroep, en dat dit laatste geen extra voorspellende waarde heeft (vooral vanwege de redelijk hoge correlatie tussen beide variabelen). De omvang van het SES effect hangt sterk af van de gekozen analyse strategie. Wanneer in het voortgezet onderwijs gekeken wordt naar de correlaties van diverse variabelen met de onderwijspositie na een bepaald aantal jaren, blijkt het niveau van de opleiding van de ouders er zeker toe te doen. Maar wanneer bijvoorbeeld gecontroleerd wordt voor het advies, verdwijnt deze invloed voor een groot deel. Dit zou betekenen dat de invloed van SES zich vooral in de periode op de basisschool afspeelt. Een stap verder is om naar variabelen te kijken die duidelijk met het niveau van de opleiding van de ouders samenhangen en die een meer inhoudelijke verklaring kunnen geven voor de invloed. Dit leidt dan tot de introductie van de begrippen ‘cultureel kapitaal’ en ‘sociaal kapitaal’. Voor VOCL’93 worden dergelijke analyses beschreven in het rapport ‘Achtergrond- en gezinskenmerken van leerlingen en opbrengsten van het voortgezet onderwijs’ (Van der Werf, Kuyper & Lubbers, 1999). Ook na opname van variabelen die deze twee begrippen beogen te operationaliseren (en van het advies), blijft er een zelfstandige invloed van SES. Deze informatie is te vinden in tabellen 5.3 en 5.4 van het genoemde rapport. In datzelfde rapport staan ook analyses beschreven met de scores op tegen het eind van derde leerjaar afgenomen toetsen (tekstbegrip Nederlands, wiskunde en ‘algemene vaardigheden’) als criterium variabelen (tabel 5.1). Na opname van dezelfde variabelen blijkt SES niet van invloed te zijn op de toetsscores. Dit zou er op kunnen wijzen dat SES vooral van invloed is op bepaalde keuzen binnen de schoolloopbaan. Het valt daarbij niet zonder meer uit te maken of het keuzen door de (ouders van de) leerlingen zelf zijn, of keuzen over de leerlingen. In het laatste geval zou er sprake kunnen zijn van ‘SES-specifieke bejegening’. In de bovenbouwstudie van VOCL’89 is gevonden dat de leerlingen met een lagere SES gemiddeld minder ambitieus zijn in het niveau van de beoogde vervolgopleiding dan de leerlingen met een hogere SES. Dit kwam tot uitdrukking in de relatieve voorkeur voor het HBO versus het mbo bij de leerlingen in havo-5 en voor het WO versus het HBO bij leerlingen in vwo-5. Dit resultaat is gerepliceerd in de bovenbouwstudie van VOCL’93 (Kuyper, Van der Werf & Lubbers, 1999). In het rapport ‘Tussen basisvorming en studiehuis’ staat hierover: “De rol van de SES-variabele hoogste opleiding is opmerkelijk. Deze variabele vertoont de sterkste samenhang met zowel het type vervolgonderwijs dat de havo-leerlingen willen gaan volgen (.19) als met het type vervolgonderwijs dat de vwo-leerlingen willen gaan volgen (.23).” (op. cit. p.129), en: “Dus zowel in het havo als het vwo hebben jongens en leerlingen uit hogere milieus een grotere voorkeur voor de hogere opleidingstypen. Dit is ook in VOCL’89 gevonden.” (op. cit. p. 130). 65 Ten slotte is het relevant te wijzen op het vrijwel afgeronde rapport over de analyses van het interne rendement van VOCL’89 (‘Het interne rendement van het voortgezet onderwijs. Tweede deelrapport’; Van der Werf, Lubbers & Kuyper, 2001). Hierin is onder andere binnen elk van de negen adviescategorieën het behaalde diploma, ongeacht de benodigde tijdsduur, uitgesplitst naar zes SES-categorieën. Het algemene patroon dat zeer duidelijk uit de betreffende tabel naar voren komt, is dat in elke adviescategorie de percentages leerlingen met relatieve opstroom en strikte opstroom toenemen naarmate de SES hoger is, en de percentages relatieve afstroom en strikte afstroom afnemen naarmate de SES hoger is. Dergelijke uitkomsten worden doorgaans geïnterpreteerd in termen van ‘ongelijke (onderwijs)kansen voor leerlingen uit de lagere sociaal economische milieus’, waarbij al dan niet expliciet (beschuldigend) naar het onderwijsstelsel wordt gewezen. Ik wil hier een enigszins andere denkwijze tegenover stellen: is er niet veeleer sprake van een ongelijke benutting van kansen door leerlingen uit verschillende milieus? Zoals vaker het geval is, gaat het er niet zozeer om of de ene dan wel de andere interpretatie juist is, maar om de mate waarin elk van beide interpretaties dat zijn. Inventarisatie van het verloop van leerlingstromen in het voortgezet onderwijs ETNISCHEACHTERGROND Over de ongunstige schoolloopbanen van de leerlingen met bepaalde etnische achtergronden is veel onderzoek gedaan. Er bestaat in Nederland natuurlijk een zeer sterke samenhang tussen etnische achtergrond en SES. Dit heeft geleid tot een discussie welk van beide variabelen doorslaggevend is. In de context van loopbanen in het voortgezet onderwijs moet uiteraard weer rekening worden gehouden met het advies. Het hierboven genoemde rapport over de achtergrondkenmerken in VOCL’93 levert het tegen-intuïtieve resultaat dat de allochtone leerlingen het, gecontroleerd voor advies, eerder beter dan slechter lijken te doen. Zowel de variabele die het onderscheid ‘autochtoon - allochtoon’ aangeeft, als de aparte variabelen voor de diverse etnische groepen hebben (in twee aparte analyses) positieve regressie coëfficiënten - hetgeen wijst op een gunstiger schoolloopbaan. De meest waarschijnlijke verklaring voor dit verschijnsel is dat deze leerlingen overwegend lage adviezen hadden. Zoals in de analyse van het advies-specifieke rendement naar voren is gekomen, is dat hoger voor de lagere advies categorieën. De significante verschillen treden op voor de overall variabele ‘autochtoon versus allochtoon’ en voor de groepen ‘Aziatisch’ en ‘overig’. Overigens is in deze analyses ook SES opgenomen, zodat het om een onafhankelijke bijdrage van de etnische groep(en) gaat. Deze informatie is eveneens te vinden in tabellen 5.3 en 5.4 van het rapport van Van der Werf, Kuyper & Lubbers (1999). Zoals opgemerkt, worden in dat rapport ook de toetsscores op tekstbegrip Nederlands, wiskunde en algemene vaardigheden geanalyseerd. Uit deze analyses (tabel 5.1 van het rapport) komt duidelijk naar voren dat de allochtone leerlingen in leerjaar 3, gecontroleerd voor advies, op elk van de drie toetsen gemiddeld lagere scores hebben behaald dan de autochtone leerlingen. Dit geldt zowel voor het overall onderscheid ‘autochtoon versus allochtoon’ als voor elk van de afzonderlijke allochtone groepen, zij het dat het verschil voor niet alle groepen significant is. Op het patroon is een kleine uitzondering. De Aziatische leerlingen hebben op tekstbegrip Nederlands een positieve regressie coëfficiënt, en verschillen op de andere twee toetsen ook het minst van de Nederlandse leerlingen. De meeste significante verschillen doen zich opmerkelijk genoeg voor op de toets ‘algemene vaardigheden’. [Dit zou kunnen wijzen op een culturele bias.] Ook in het rapport ‘Onderwijsresultaten van VOCL’89 en VOCL’93 leerlingen’ (Van der Werf, Lubbers & Kuyper, 1999) worden de resultaten op deze toetsen geanalyseerd. Uit tabellen 3.6, 4.7 en 4.8 blijkt dat de allochtone leerlingen (niet onderscheiden naar subgroepen) in elk van de in het derde jaar aanwezige klastypen (naast ivbo, vbo, 66 Onderwijsraad, november 2001 mavo, havo en vwo ook vbo/mavo en havo/vwo) gemiddeld lagere scores hebben behaald. De combinatie van duidelijk lagere prestaties in het derde leerjaar op gestandaardiseerde toetsen en een gunstiger doorstroom op de leerjarenladder wekt het vermoeden van ‘etnisch-specifieke bejegening’. Het genoemde rapport over het interne rendement in VOCL’89 van Van der Werf, Lubbers & Kuyper (2001) geeft ook aardige informatie over het behaalde diploma, uitgesplitst naar etnische achtergrond binnen elke adviescategorie. INTELLIGENTIE Haast per definitie dient intelligentie samen te hangen met het succes in het onderwijs. Er zou moeten gelden - in ieder geval onder de ‘ceteris paribus’ voorwaarde - dat meer intelligente leerlingen in vergelijking met minder intelligente leerlingen: a) moeilijker dingen kunnen leren, b) hetzelfde in minder tijd kunnen leren, en c) in dezelfde tijd meer kunnen leren. Het begrip ‘intelligentie’ leidt echter geregeld tot controversen. Nog altijd speelt de ‘nature versus nurture’ discussie. De mate waarin intelligentie erfelijk is, hoewel theoretisch zeer interessant, doet in de huidige context niet ter zake. De praktische (?) vraag is of de op een bepaalde leeftijd gemeten intelligentie een belangrijke voorspeller is. In VOCL’89 en VOCL’93 is met een nauwelijks geschikt gebleken intelligentietest gewerkt (de PSB) - of eigenlijk met slechts twee non-verbale subtests ervan. Het is dan niet verwonderlijk dat intelligentie nauwelijks voorspellende waarde blijkt te hebben, als ook het advies en de entreetoetsen bij de voorspelling meedoen. In VOCL’99 is gekozen voor de GIVO (Groninger Intelligentietest voor Voortgezet Onderwijs), een ‘breed spectrum’ test die speciaal voor het voortgezet onderwijs is ontwikkeld. Uit voortgangsrapportages aan een school die bij de ontwikkeling ervan betrokken is geweest, komt naar voren dat de (totaalscore op de) GIVO het schoolloopbaan succes ongeveer net zo goed voorspelt als het advies of de Cito-eindtoets (Van Dijk, 2000). De in deze paragraaf besproken achtergrondkenmerken vertonen alle vier een samenhang met de schoolloopbaan. Aangezien ze vrijwel ‘vast’ zijn, is het belang ervan in de huidige context beperkt. Een uitzondering zou het ‘nurture’ deel van intelligentie kunnen zijn. Ook op wat latere leeftijd kan de met tests gemeten intelligentie (in ieder geval tijdelijk) worden verhoogd. Het is echter niet aannemelijk dat dat voor leerlingen de meest aangewezen weg is om de kans op succes in het voortgezet onderwijs te vergroten. Het loont vrijwel zeker meer om dezelfde tijd aan te wenden voor het goed leren van proefwerken. De consistentie tussen vakken blijkt zeer hoog te zijn tussen Nederlands en Wiskunde wordt een Tussen vakken, Binnen vakken Cognitieve en niet cognitieve effectiviteitscriteria Binnen niet cognitieve effectiviteitscriteria. Omzetten van de variabelen uit de dataset Immigranten: omgezet in een dummyvariabele eerst categorische met 3 categorieên, referentie is native, 2 dummyvariabelen één die aanstaat voor eerste generatie DIMMIG1 en één die aanstaat voor de 2de generatie DIMMIG2 Grade met dummyvariabele waarbij de standaardcategorie gelijk is aan 10 dit is immers Immigration status Cumulative Frequency Valid Native Percent Valid Percent Percent 4737 92,4 93,3 93,3 Second-Generation 177 3,5 3,5 96,8 First-Generation 161 3,1 3,2 100,0 5075 99,0 100,0 Total Missing N/A 5 ,1 Missing 44 ,9 Total 49 1,0 5124 100,0 Total Dummy staat aan voor eerste generatie Cumulative Frequency Valid Valid Percent Percent 0 4914 95,9 96,8 96,8 1 161 3,1 3,2 100,0 5075 99,0 100,0 49 1,0 5124 100,0 Total Missing Percent System Total Dummy staat aan voor tweede generatie Cumulative Frequency Valid Valid Percent Percent 0 4898 95,6 96,5 96,5 1 177 3,5 3,5 100,0 5075 99,0 100,0 49 1,0 5124 100,0 Total Missing Percent System Total Grade met dummyvariabele waarbij de standaardcategorie gelijk is aan 10 dit is immers de categorie die het meeste voorkomt. We maken dummies aan voor 7,8,9,11 Grade Q1 Cumulative Frequency Valid 7 Percent 2 ,0 Valid Percent ,0 Percent ,0 8 105 2,0 2,1 2,1 9 1198 23,4 23,4 25,5 10 3779 73,8 73,8 99,3 11 37 ,7 Total Missing ,7 5121 System 100,0 99,9 100,0 3 ,1 Total 5124 100,0 Leeftijd in maanden Age of student Cumulative Frequency Valid Percent Valid Percent Percent 15.33 148 2,9 2,9 2,9 15.42 388 7,6 7,6 10,5 15.5 382 7,5 7,5 17,9 15.58 426 8,3 8,3 26,2 15.67 432 8,4 8,4 34,7 15.75 426 8,3 8,3 43,0 15.83 445 8,7 8,7 51,7 15.92 425 8,3 8,3 60,0 16 424 8,3 8,3 68,2 16.08 458 8,9 8,9 77,2 16.17 414 8,1 8,1 85,2 16.25 443 8,6 8,6 93,9 16.33 313 6,1 6,1 100,0 Total 5124 100,0 100,0 Leeftijd in maanden Cumulative Frequency Valid Percent Valid Percent Percent 184 148 2,9 2,9 2,9 185 388 7,6 7,6 10,5 186 382 7,5 7,5 17,9 187 426 8,3 8,3 26,2 188 432 8,4 8,4 34,7 189 426 8,3 8,3 43,0 190 445 8,7 8,7 51,7 191 425 8,3 8,3 60,0 192 424 8,3 8,3 68,2 193 458 8,9 8,9 77,2 194 414 8,1 8,1 85,2 195 443 8,6 8,6 93,9 196 313 6,1 6,1 100,0 Total 5124 100,0 100,0 Aanpassen naar onderwijsvorm aanmaken van een dummyvariabele Unique national study programme code Cumulative Frequency Valid Percent Valid Percent Percent BEL: (FIRST YEAR A OF FIRST STAGE OF) GENERAL EDUCATION 2 ,0 ,0 ,0 BEL: SECOND YEAR OF FIRST STAGE PREPARING FOR 42 ,8 ,8 34 ,7 ,7 ,9 VOCATIONAL SEC. EDUC. BEL: SECOND YEAR OF FIRST STAGE PREPARING FOR REGULAR SEC. 1,5 EDUC. BEL: SECOND & THIRD STAGE REGULAR 2296 44,8 44,8 46,3 1540 30,1 30,1 76,4 SECONDARY EDUCATION BEL: SECOND & THIRD STAGE TECHNICAL SECONDARY EDUCATION BEL: SECOND & THIRD STAGE ARTISTIC 45 ,9 ,9 77,3 SECONDARY EDUCATION BEL: SECOND & THIRD STAGE VOCATIONAL 1008 19,7 19,7 96,9 SECONDARY EDUCATION BEL: PART-TIME VOCATIONAL SEC. EDUC. FOCUSED ON THE 32 ,6 ,6 97,6 LABOUR MARKET BEL: SPECIAL SEC. EDUC. - LOWER SEC. (TRAINING 120 2,3 2,3 99,9 FORM 3 / FIRST 3 YEARS) BEL: SPECIAL SEC. EDUC. - UPPER SEC. (TRAINING 5 ,1 ,1 100,0 FORM 3 / YEARS 4 AND 5) Total 5124 100,0 100,0 Taal referentiecate Ondanks de betrekkelijk smalle marges waarbinnen het bezoeken van een bepaalde school en het daar gegeven onderwijs invloed heeft op de leerprestaties is hiermee toch het interessegebied van het onderwijseffectiviteitsonderzoek aangegeven. In de onderzoekspraktijk betekent dit dat gezocht wordt naar de "added value", oftewel de toegevoegde waarde van manipuleerbare school- en klassecondities, ongeacht de effecten van een al dan niet gunstige uitgangssituatie van de leerlingen. In onderzoektechnische termen wordt dit uitgedrukt als het bepalen van effecten, terwijl gecontroleerd wordt voor relevante achtergrondkenmerken van leerlingen. Globaal gezegd komt het onderwijseffectiviteitsonderzoek dus neer op het meten van leerprestaties op enig tijdstip in de schoolcarrière, het meten van achtergrondkenmerken en prestaties op een eerder tijdstip en het relateren van de voor achtergrondkenmerken en beginprestaties gecontro2.2.1 De grootte en betekenis van schooleffecten Door Scheerens en Bosker (1997) wordt, op basis van een meta-analyse van 89 onderzoeken een netto effectgrootte voor de verschillen tussen scholen van .30 gevonden. De coëfficiënt van de effectgrootte is gebaseerd op een in meta-analyses gebruikelijke maat d, die gedefinieerd is als de wortel uit de intra-klassecorrelatie (dat is de ratio van de tussenschoolse en de totale variantie) gedeeld door 1 - de intra-klassecorrelatie). Het feit dat er gesproken wordt van een "netto" effectgrootte wil zeggen dat niet de "ruwe" schoolgemiddelden, maar de voor beginkenmerken van leerlingen gecorrigeerde gemiddelden tussen scholen gebruikt zijn bij de berekening van de intra-klassecorrelatie. Afgemeten aan de maatstaven die Cohen (1969) aanlegt om kleine, gemiddelde en grote effecten te onderscheiden, gaat het hierbij om een klein tot gemiddeld effect. Uitgedrukt in de in de schooleffectiviteitsliteratuur meer gebruikelijke aanduiding van het schooleffect als de proportie van de variantie tussen leerlingen in leerprestaties die gebonden wordt door de factor school is dit een waarde van 9%. Bij de praktische interpretatie van de gevonden effectgroottes moet in aanmerking worden genomen dat er bij de schatting van het effect van een school sprake is van aanzienlijke standaardmeetfouten, hetgeen betekent dat de schatting van een gemiddelde schoolscore door tamelijk brede onzekerheidsmarges (betrouwbaarheidsintervallen) worden omgeven. Gegeven deze onzekerheidsmarges zijn alleen verschillen tussen scholen aan de uiteinden van de verdeling van gemiddelde scores significant. Zie ook Goldstein, 1996. Voor de praktijk die men in Engeland toepast, het plaatsen van scholen op ranglijsten, zogenoemde "league tables", is dit een uiterst storende conclusie, omdat men - zelfs bij het gebruik van "value-added" effectmaten - geen betrouwbaar onderscheid kan maken binnen het grote middengebied van scholen. Wanneer men echter een vergelijking maakt tussen de 10% hoogst scorende en 10% laagst scorende scholen, dan zijn er wel degelijk belangrijke maatschappelijke implicaties. In Nederland komt het verschil tussen de 10% hoogst scorende en de 10% laagst scorende scholen neer 15 op een waarde van .65 van een standaarddeviatie. Dit verschil - gemeten aan het eind van de basisschool - correspondeert met een mavo/lbo-advies in de minst effectieve scholen, tegenover een havo/vwo-advies in de meest effectieve scholen (waarbij het dus gaat om een vergelijking van leerlingen die qua beginniveau niet verschillen). Verder geldt dat men in feite een netto-schooleffect zou moeten vermenigvuldigen met het aantal leerlingen op een school; immers het maatschappelijk rendement van het bezocht hebben van een effectieve school komt in principe2 ten goede aan alle leerlingen van die school. Tenslotte is er bij de interpretaties van de betekenis van de verschillen tussen scholen nog de kanttekening te maken dat binnen een over het algemeen redelijk functionerend stelsel van basisscholen zoals in Nederland (vgl. de rapportage van de CEB, 1994) er kennelijk sprake is van een betrekkelijk smalle marge, waarbinnen spontaan in de praktijk voorkomende verschillen in beheersbare procescondities effect sorteren. Desalniettemin kunnen de marges belangrijk genoeg worden geacht om nader te bepalen waardoor ze veroorzaakt worden. 2.2.2 De reikwijdte en generaliseerbaarheid van schooleffectsindices In het onderwijseffectiviteitsonderzoek worden in feite per schoolvak aparte causale modellen getoetst. Tegelijkertijd heeft het concept "schooleffectiviteit" een bredere pretentie. De impliciete assumptie is dat een effectieve school niet alleen goede resultaten laat zien voor één schoolvak, maar voor het hele curriculum, of in ieder geval voor alle kernvakken. Tevens is de impliciete aanname dat een school niet alleen gedurende één schooljaar effectief is, maar dat blijvend is. En tenslotte is het de vraag of men de effectiviteit van een (basis)school uitsluitend moet afmeten aan de prestaties in het laatste leerjaar, dan wel tevens verwacht dat een effectieve school ook goed scoort op het niveau van, bijvoorbeeld, groep 4. Al deze vragen zijn in principe door middel van empirisch onderzoek te beantwoorden. Scheerens (1993) duidt dit soort onderzoek Aannemende dat de school niet differentieel effectief is, d.w.z. even effectief voor begaafde leerlingen als voor minder begaafde leerlingen. 2 16 aan als "funderend". Op basis van een recent overzicht van Scheerens & Bosker (1997, hfst. 3) geeft tabel 1 een globaal overzicht. Tabel 1: Overzicht van stabiliteits- en consistentie-indices, naar Scheerens & Bosker, 1997, hfst. 3 type consistentie/generaliseerbaarheid gemiddelde correlatie stabiliteit eindscore b.o. rekenen en taal (tijdsinterval 1 à 2 jaar r = .70 (range .34 - .87) consistentie over leerjaren binnen scholen (rekenen en taal) r = .50 (range .20 - .69) consistentie over vakken (taal vs. rekenen) r = .70 (range .59 - .83) Scholen bleken verder stabieler in effectiviteit voor leerlingen met een lage socio-economische status dan voor leerlingen met een hogere socioeconomische status. In navolging van Scheerens en Bosker (ibid) zijn de volgende conclusies te formuleren inzake de reikwijdte en generaliseerbaarheid van schooleffectsindices: 1) Bij relatief korte tijdsintervallen (1 à 2 jaar) zijn schooleffecten gemeten aan het eind van de opleiding betrekkelijk stabiel. 2) Er is een betrekkelijk lage consistentie in effecten wanneer verschillende leerjaren worden vergeleken. 3) De consistentie tussen vakken is hoger in het basisonderwijs dan in het voortgezet onderwijs. Zowel de betrekkelijk lage consistentie tussen leerjaren in het basisonderwijs en de betrekkelijk lage consistentie tussen vakken in het voortgezet onderwijs wijzen op het belang van de invloed van de leerkracht. Scheerens en Bosker merken op dat de conclusie dat leerkrachteffecten sterker zijn dan schooleffecten vrijwel onontkoombaar is. 17 Deze beschouwing over fundamentele vragen betreffende het concept schooleffectiviteit, in de zin van vragen over de grootte van effecten en de reikwijdte van deze effecten voert tot de conclusie dat bij de interpretatie van de onderzoeksuitkomsten enige voorzichtigheid geboden is. De gegevens over de grootte van schooleffecten laten zien dat een realistische verbeteringstarget eruit zou kunnen bestaan de 10 à 15% van de scholen aan het laagst scorende uiteinde van de verdeling op het niveau van de "gemiddelde" school te brengen. De uitkomsten van het onderzoek naar stabiliteit en consistentie van schooleffecten wijzen uit dat schooleffectiviteit niet zondermeer als een integraal kenmerk mag worden beschouwd, maar in niet onbelangrijke mate berust op sub-systemen binnen de school, zoals klassen en leerkrachten. Deze constatering biedt steun voor de gedachte dat beleidsmaatregelen, gericht op kwaliteitsverbetering, zich niet tot het niveau van het schoolmanagement zouden moeten beperken, maar direct of indirect de leerkrachten moeten bereike