Categories
Research

TALIS 2013

TALIS 2013 has been released. Another very interesting and extensive study by the OECD. I will certainly take a closer look at the dataset. Just as a quick thing I did this (nothing fancy). I downloaded the data, inserted it into SPSS, looked up

 

teachconstr

on p. 217 and then in the dataset

spss

And then calculated the means for every country:

spssbeliefs

Categories
Education Research

Basale schrijfvaardigheid

On this blog I try to primarily write in English. However, in this case it makes more sense to write this lengthy post in Dutch, as it concerns a Dutch thesis (written in Dutch) that has caused a stir in the Netherlands.

phdIn deze blogpost heb ik allerlei observaties en aantekeningen verzameld over een proefschrift over schrijven. Het leek me zonde om gewoon weg te gooien, hoewel er mensen zijn die mijn insteek onbenullig en schadelijk zullen vinden. Ik ga niet weken zwoegen op optimaal taalgebruik, trouwens. What you see is what you get. Misschien een van de auteurs van het proefschrift zelf, want tot nu toe heeft deze zelf ook twee blogposts over de media-aandacht geschreven. In een liet hij personen die de lage N aanvielen weten dat ze geen verstand van statistiek hadden, in een ander werden Galilei, Einstein en Hitler, alsmede de CV van een journalist er bij gehaald om aan te tonen dat het commentaar nergens op sloeg. DEZE BLOGPOST gaat daar niet over, die gaat over het proefschrift, over het proces schreef ik een ANDERE BLOGPOST.

Het proefschrift is hier te vinden. Het persbericht van 28 april 2014 hier.

Laat ik eerst beginnen, dat wordt straks toch vergeten, mijn waardering uit te spreken voor alle uitgebreide reacties van @mikvanes. Er is veel in de strekking van de reacties (allerlei locaties, twitter, BON forum) die mij aanspreekt: kennis verkrijgen is hard werken, en inderdaad moet het effectief zijn. Ik vind de gebalanceerde benadering van ICT inzet (met feedback) sterk; ik zie daar ook de voordelen van. Tevens zijn de hoofdstukken over beoordelaars e.d. interessant. Ook geloof ik dat de empirische benadering van de vraagstelling te prefereren over een theoretische: het proefschrift analyseert een probleem en probeert met een interventie een oplossing aan te dragen. Wat in de empirie echter ook van belang is, is dat je kijkt naar een nul-hypothese, en dat je vervolgens kijkt of er genoeg aanwijzing is dat je de nul-hypothese verwerpt. Sterker nog, dat is de kern van het verhaal.

Ik maak voornamelijk gebruik van de tekst in het proefschrift. Daar waar een van de auteurs ergens reageerde of toelichting gaf (en ik weet er van) dan zal ik dat meenemen. Waarbij ik wel eigenlijk vind dat het dan in het proefschrift had moeten staan. Wat opvalt in het persbericht, veelal de eerste kennismaking van de buitenwereld met een stuk schrijven, zijn twee zaken -waarvan later gezegd lijkt te worden dat de buitenwacht daar zich te veel op richtte. (i) Het is slecht gesteld met de schrijfvaardigheid van eerstejaars hbostudenten en universitaire docenten, (ii) Er is een softwareprogramma die schrijfvaardigheid verbetert. Er is door sommigen geopperd dat je ook niet op persberichten af moet gaan; het gaat immers om de inhoud, het proefschrift. Daarin staan echter even stellige uitspraken. Neem pagina 113:

Hier begint het: als ik dit lees verwacht ik dat een voor de ‘Nederlandse eerstejaars-studenten- representatieve steekproef is genomen. Bij het vermelden van het effect wordt gewag gemaakt van het feit dat er een klassieke controle/experimentele groep design is gebruikt. Daar zal ik dan kijken naar de details van die opzet. Dit betreft met name hoofdstuk 4 en 6. Ook de andere hoofdstukken heb ik echter gelezen en daar zeg ik ook nog wat over.

Representativiteit van de steekproef

De auteur was niet in mild in zijn blogpost met de bewering dat de criticasters van het onderzoek geen kaas van statistiek hadden gegeten. Uiteraard ben ik het eens met de opmerking dat representativiteit en steekproefgrootte twee deels gescheiden zaken zijn. Jij zegt “Bij steekproeven zijn twee zaken belangrijk in deze volgorde: 1. hoe ze geselecteerd zijn,  2. hoe groot ze zijn.”. Eens. Ze zijn echter wel gerelateerd.

Laten ik beginnen met de representativiteit van de steekproef in hoofdstuk 4.

  1. De steekproef is NIET aselect maar stratified random: er zijn groepen werkjes gekozen en binnen die groepen werkjes zijn aselect werkjes getrokken. Binnen de strata is gekozen voor diverse soorten schrijfwerk. Het type documenten dat gekozen is: hbo-light-in-werkcollege (ik noem deze groep 1), hbo-light-thuis (groep 2), hbo-project-intro (groep 3) en universiteit-taalbeheersing (groep 4).
  2. De steekproef is random binnen de strata, maar de keuze voor respectievelijk 5,5,10 en 10 is dat niet. Dit valt te zien als je kans berekent bij volledig random 30 op 159 documenten, en de verschillende strata:
  3.   pop steekproef kans
    Groep 2 31 5 0.16
    Groep 3 56 10 0.18
    Groep 1 40 5 0.13
    Groep 4 32 10 0.31
    Totaal 159 30 0.19

    De proportie universitaire teksten in hoger dan random, hbo lager. Nou zou dit zelfs kunnen betekenen dat er nog sterkere aanwijzingen zijn dat hbo studenten slechter schrijven dan universitaire studenten, immers de hoge proportie uni studenten ‘dempt’ die van de hbo studenten. Daarom had ik het beter begrepen als vermeld was dat het niet aselect was. Daarbij is dan geen rekening gehouden met het feit dat uit de beschrijving van de random steekproef af leiden valt dat sommige studenten in zowel groep 3 of (groep 1/groep 2) kunnen zitten(?).

  4. Ook statistisch gezien is het van belang dat rekening wordt gehouden met strata omdat stratified random sampling nogal eens leidt tot het onderschatten van de standaardfout
  5. Op p. 113 zeggen de auteurs, zoals in de tweet ook vermeld, dat “Het tweede belangrijke resultaat van het foutenonderzoek is dat Nederlandse eerstejaarsstudenten zeer grote aantallen bevestigde fouten PHW in hun Nederlandstalige schrijfproducten blijken te produceren.”. De auteurs doen uitspraken over ‘Nederlandse eerstejaarsstudenten’ en besteden bijna geen aandacht aan het feit hoe die 30 schrijfwerkjes representatief zijn voor die groep. Later lijkt de argumentatie bijna te zijn dat dit niet nodig is want (i) random, (ii) geen aanwijzing dat het bij andere opleidingen, steden enz. anders ligt. Dat laatste moet naar mijn mening onderbouwd worden.
  6. Overigens neem ik ook aan dat de opleiding CIW flink gegroeid is sinds 2007-2008 omdat 32 studenten voor de hele populatie niet veel is. In de studiekeuzemonitor zie ik nu ca. 140 studenten? Was de opleiding net nieuw? Of was die groter maar zijn dit representatieve groepen? Mijn lijn moge duidelijk zijn: ik verwacht meer informatie over dat ene punt representativiteit. Of preciezere formulering. Hier staat nu “Onze ‘steekproef’ zou dus representatief moeten zijn voor in ieder geval die 159 studenten.”, gezien de strata (zie hierboven) is dat de vraag maar het is in ieder geval heel wat preciezer naar mijn mening dan “Deze uitkomsten bevestigen eerdere berichten over de tekortschietende schrijfvaardigheid van eerstejaarsstudenten.” (p.112). en de eerder geciteerde zin op p. 113. Kortom, die precieze formulering had naar mijn mening consequent moeten zijn gebruikt.
  7. Binnen de groepen (strata) is ook nog eens sprake van een verscheidenheid aan schrijfomstandigheden: sommige mogen thuis worden gemaakt, andere niet. Ook is de ‘aard’ van de teksten verschillend. Of dat uitmaakt weet ik niet maar een korte analyse had niet misstaan. Bijvoorbeeld ten aanzien van de lengte van de teksten. Als op p. 104 wordt gemeld dat een kortere tekst meer fouten per honderd woorden lijkt te bevatten, dan moet je naar mijn mening uitsluiten dat de teksttypen die hbo en uni studenten schreven ongelijk waren.Een voorbeeld. Stel hbo studenten schreven gemiddeld 200 woorden met 60 fouten. Universitaire studenten 400 woorden met 80 fouten. De auteurs stellen terecht dat het natuurlijk niet ‘eerlijk’ zou zijn om te zeggen dat universitaire studenten slechter schrijven (80 fouten versus 60) omdat ze namelijk ook meer schrijven. Vandaar dat de auteurs zeggen: we gebruiken fouten per honderd woorden. Dat wordt dan respectievelijk 30 PHW versus 20 PHW, de hbo studenten doen het nu slechter dan de universitaire studenten. Maar ook met die conclusie moet je oppassen, immers de hbo studenten schreven gemiddeld veel korter en zullen dus niet alleen minder fouten in absolute zin hebben gemaakt, maar waarschijnlijk meer per honderd woorden. Om goed te vergelijken moet je naar mijn mening qua tekstlengte vergelijkbare groepen hebben. Dit wordt verder niet toegelicht.

    Zeggen dat het logisch is dat hbo studenten korter schrijven omdat ze slechter in schrijven zijn is volgens mij een cirkelredenering. Dat wist je namelijk niet op moment van het nemen van de steekproef. De twee te vergelijken groepen moeten vergelijkbaar zijn, en hoewel ik het eens ben met de constatering dat er (te) veel fouten ten opzichte van, zeg een baseline van 10 fouten (of zeg 0), gemaakt worden, wordt er ook een vergelijking hbo versus uni gemaakt.

  8. De aanname dat de opleidingen CIW (Communicatie- en Informatiewetenschappen) en IBL (International Business and Languages) wel talig zullen zijn omdat ze over talen gaan, vind ik ook niet zo overtuigend. Is de redenering dat als zij al veel fouten maken, anderen dat ook wel zullen doen. De generalisatie naar andere opleidingen is niet sterk. Zo kan CIW gekozen worden met alle profielen, IBL ook vermoed ik, los van het HBO/WO verschil. Een passage over de representativiteit van deze opleidingen voor ‘eerstejaars’ was wel degelijk terecht geweest. Ik ben het dus niet eens met “Maar of dat allemaal echt waarschijnlijk is…” in de statistiek blogpost. Al had het maar zijn beschreven en daarna gezegd “Dus nemen wij aan dat…”. Maar het staat er volgens mij niet.

Mijn deelconclusie: de auteur(s) hebben niet goed duidelijk gemaakt dat de steekproef representatief genoeg is. Sommige uitspraken in het proefschrift kunnen naar mijn mening niet gedaan worden.

Grootte van de steekproef en vergelijken groepen

Dan de steekproefgrootte. Het klopt dat als een steekproef representatief is je met lagere N kunt volstaan dan sommigen denken. Nou vind ik de stelling dat de steekproef representatief is, vanwege voornoemde redenen niet zo overtuigend. Echter ook de stelling dat “De grootte van de steekproef is niet zo belangrijk, omdat we die via de standaardfout kunnen vertalen in een betrouwbaarheidsinterval.” (blog, laatste zin). Inderdaad, het is juist die standaardfout die de onzekerheid in de bevindingen weergeeft, en daarmee niet uitgaat van een absolute waarheid. Ik mis alleen een beschouwing van die onzekerheid. Zoals gezegd is het volgens mij zo dat de ‘stratified’ aanpak met verschillende kansen in de strata de standaardfout beinvloedt. Bij lage N moet je ook nog eens oppassen met biased/unbiased estimators van de standaardfout. Het is dus wel degelijk zo dat, zoals ook in de blog staat “Een heel grote, aselect getrokken steekproef is natuurlijk betrouwbaarder dan een kleine steekproef.”. Volgens is dat ook wat steeds betoogd is, samen met het bevragen van de representativiteit. Op twitter ging de discussie wat verder, bijvoorbeeld dat zelfs met N=2 een representatieve sample *kan* worden verkregen. Nou *kan* dat inderdaad maar aangezien je niets weet over de distributie van de populatie zal een dergelijk kleine sample een hoge mate van onzekerheid bevatten. Niet alleen zal de N-1 versie van de SD de SD van de populatie (en SE) licht onderschatten, bij gebruik van de t-test kunnen SD en SE volgens mij onderschat worden. Ook al omdat de standaardfout naar sd/wortel(N) nadert voor N voldoende groot.

Op p. 108 worden hbo en uni groep vergeleken. De eerste constatering is dat er PHW wordt gebruikt. Lijkt me prima. De sprong naar 1 A4 vind ik wederom onnodig. Het geeft een vertekend beeld van steekproef die weinig teksten van 500 woorden bevat (immers, gemiddelde veel lager). Dan de t-test. Ik mis degrees of freedom en t-waarde (plus effect size wordt meestal gemeld). Ik ga er maar van uit dat de groepen ongeveer normaal verdeeld zijn. Als N>30 dan hoeft dat niet (al blijf ik het testen) vanwege neigen naar normaal maar hier leek me dat wel logisch. Levene wordt niet meteen genoemd maar verderop. Ik ken die ook als controle of aanname ‘Homogeneity of Variance’ voor de t-test klopt. Aangezien p<.004 wordt de nul-hypothese dat ze gelijk zijn verworpen. De t-test is vrij robuust, maar ook dit wordt niet verder toegelicht. Nou is p<.001 vrij sterk maar ook hier weer: ik mis info. Met een non-parametrische test had je wellicht het zelfde resultaat gekregen.

Per honderd woorden of per A4

Ook niet helemaal precies is het omrekenen naar fouten per A4. Als de opdracht is om 500 woorden te schrijven, is het simpelweg opvallend als de range 135 tot 565 is met gemiddelde 279 en een sd van 104 woorden. Dat roept nog meer de vraag op of er (i) verschil was binnen de vergeleken groepen, zie punt 7 bij de steekproef,  (ii) het handig is om naar 1 A4 om te rekenen, ook als daar ‘wat beter valt bij voor te stellen’ (in een tweet geantwoord).

Het beoordelen van fouten

Het berekenen van de fouten geschiedde zo ik begrepen heb op basis van ‘twee beoordelaars waren het eens’, zg. ‘bevestigde fouten’. Hoe je met die definitie op p.100 opeens kunt spreken over ‘kloppende en niet-kloppende fouten’ lijkt me raar. Wie bepaalt dat ze kloppen als de definitie zegt ‘twee zijn het eens’? Maar goed, die passage is netjes en interessant en concludeert aan het einde dat –ongeacht het feit dat er een mate van overeenstemming is- vooral het AANTAL FOUTEN PER HONDERD WOORDEN (PHW) sterk gecorreleerd is.

Wel knaagt ‘bevestigde fouten’ een beetje. Het is een originele insteek,  maar gebruik makend van interbeoordelaars aspect heb je vanwege je definitie altijd te maken met 100% overeenkomst. Immers, 2 of meer moeten een fout bevestigen. Op pagina 101 staat een illustratieve lijst. Als ik het goed begrijp is beoordelaar 4 (b4) volgens het traditionele interbeoordelaars criterium het meest betrouwbaar. Immers, de auteurs hebben een criterium dat maakt dat een fout ‘bevestigd’ wordt en 87% van de door b4 gesignaleerde fouten wordt uiteindelijk ook bevestigd. Echter, die fouten zijn maar 46% van alle bevestigde fouten. Is dit geen cirkelredenering? Immers, de fouten van een beoordelaar maken deel uit van de definitie van een fout en vervolgens wordt de betrouwbaarheid uitgedrukt in een correlatie tussen alle fouten van een beoordelaar en wat uiteindelijk overblijft als bevestigde fout. 3980 fouten, 2400 verschillende. 1411 van maar 1 beoordelaar, 989 bevestigd door een andere beoordelaar. Op pagina 99 wordt ook gemeld dat tweederde van de fouten van een beoordelaar gemiddeld bevestigd werden. Maar dat hangt toch sterk af van het aantal beoordelaars? Immers, als je meer beoordelaars hebt, is de kans groter, bij 2/3 individueel bevestigend, dat er wel een beoordelaar tussen zit die een fout bevestigt.

Uit de tabel op p. 106 en de bijlage op http://dl.dropboxusercontent.com/u/6861883/Bijlagen%203%2C%205%20en%206.pdf met soorten fouten blijkt overigens ook dat het type fouten een in mijn ogen soms gekke mix van taal- en stijlfouten bevat. Wat is ‘verkeerd woord’? Wanneer is een woord verkeerd? Wanneer loopt een zin niet? Wat is een alinea indeling? Wat is een overbodige zin? Nou snap ik op zich wel dat een moedig poging wordt gedaan om een subjectieve waardering –ik bedoel dus niet een echte spelfout maar een stijlfout- objectiever te maken door het criteria “bevestigde fouten” te hanteren De discussie erover lijkt me gerechtvaardigd. Vervolgens wordt ook gezegd dat er verschillend over fouten werd nagedacht (daarmee wordt eigenlijk de noviteit van de methode weer teniet gedaan) maar dat het aantal fouten per honderd woorden. (PHW). Kortom, een originele aanpak maar niet zonder uitdagingen.

Falend onderwijs versus TAVAN

In het proefschrift staan ook stellige uitspraken over hoe het schrijfonderwijs gefaald heeft (zie de eerste tweet bijvoorbeeld). Ik kan het eens zijn met de conclusie zoals die buiten het proefschrift geformuleerd  is: “eerstejaars studenten leren in het voorafgaande onderwijs niet foutloos te schrijven. We zeggen niet dat het vroeger beter was. We kunnen alleen constateren dat foutloos schrijven nu in ieder geval niet in het voorafgaande onderwijs geleerd wordt.”. Maar dat klopt alleen als 0 fouten(foutloos)  alleen als effectief gezien wordt. Daar kan ik wel in meegaan: 0 fouten is perfect en je kunt er niets meer aan verbeteren (maar: zie de passage over fouten). Ik vind het alleen wel een onhaalbare eis: als 0 fout ‘effectief’ is dan kun je niet zeggen dat 20% minder fouten voor je eigen interventie effectief is voor het een en dan andere neerzetten als ‘falend’ omdat de 0 fout niet gehaald wordt. Effectiviteit meet je door te vergelijken hoe het was (pre) en hoe het werd (post) en die uitspraken kun je NIET doen over andere/huidige methoden. Een doelstelling van 0 fouten haalt  TAVAN helaas ook niet. De tekst van het proefschrift is naar mijn mening minder zorgvuldig met zinnen als “Kennelijk is het voorafgaande onderwijs op dit punt niet effectief geweest” (p. 113). Volgens de ‘0 fouten benchmark’ is TAVAN dat ook niet, toch wordt daar het standpunt gehuldigd dat het effectief is. Ik vind dat daar de goal posts verplaatst worden tussen hoofdstuk 4 en hoofdstuk 6: of je zegt “we weten niet hoe het voorgaande onderwijs was dus lastig te zeggen of het effectief was of niet”, of je zegt “0 is de benchmark (of zelfs 10 maar dat is al meer arbitrair want is dat per A4, per honderd woorden)” en houdt ook TAVAN er aan. Ik denk dat wat me stoort hier weer die nadruk is de “het huidige onderwijs is slecht, kijk maar” claim, die toch wel onder het hele proefschrift ligt. Die vergelijking is simpelweg niet te maken. Minder fouten door TAVAN kan ik best zien als voordeel, en dat wordt in hoofdstuk 6 uiteengezet (helaas weer, om dezelfde redenen als hiervoor, met erg lage N). Het wordt echter vergeleken met het ‘normale onderwijs’ in de voornoemde opleidingen. Ook kreeg de controlegroep 11 uur minder schrijfondersteuning. Daarnaast is het de ‘oude manier zoals die binnen die opleidingen werd gehanteerd’. Veralgemeniseren tot falend schrijfonderwijs kan daarom niet, op basis van deze gegevens.

Het experiment met TAVAN

Ik vond het resultaat van de experimentele groep TAVAN eerlijk gezegd wat tegenvallen: 20 uur om van 19 fouten PHW naar 15 vond ik niet zo erg veel, ook al was het een sterk effect.  Daarbij is er ook nog sprake van een controlegroep TAVA die maar liefst 11 uur minder onderwijs kreeg en werd onderwezen door andere personen. De weekverdeling (3 keer 3 met spreiding of aaneengesloten, versus de 10 keer 2) wordt ook niet beschreven. De keuze voor ‘verbeterteksten’ vond ik opvallend, zeker gezien de argumentatie “Verder zouden bij een volledige open opdracht ook onnodig inhoudelijke verschillen ontstaan tussen de teksten die zouden kunnen doorwerken in de beoordeling op aantal fouten PHW.” (p. 194). Immers, dat was toch ook zo in het foutenonderzoek? Weten we zeker dat fouten verbeteren hetzelfde is als foutloos schrijven? De analyse van dropout had wel wat uitgebreider gekund als maar 38 studenten van de 60 beoogde overblijven.

De tool TAVAN

Een echte indruk van de tool krijg ik niet, dus kan alleen afgaan op de beschrijvingen. Ik vrees dat in veel ELO’s en particuliere sites iets soortgelijks, dan bedoel ik vragen die precies moeten matchen en dan bescheiden feedback, al zeer veel voorkomt. De originele slag is om het aan te wenden voor schrijfonderwijs. Daarom vrees ik dat het met dat idee erg makkelijk zal zijn om iets soortgelijks te maken, ook voor goedbedoelende amateurs. Sterker nog, uit eigen ervaring weet ik dat dit al volop gebeurt op VO scholen.

Overige hoofdstukken

De literatuur in hoofdstuk 2 is naar mijn mening onevenwichtig met 20 pagina’s die laten zien dat het schrijfonderwijs ondergewaardeerd werd en 3 pagina’s positief onderzoek erover. Of eigenlijk anders: dat het onderzoek naar het schrijfonderwijs niet op evidentie is gebaseerd (zie bijv. p. 33).  In mijn beleving doen de auteurs daarmee eigenlijk wat ik doe in deze blog: onderzoek methodologisch bekritiseren(al lijkt er soms een ondertoon in te zetten dat de desbetreffende onderzoekers in het verleden ook wilden dat schrijven er slecht van af zou komen). Het gevolg is weliswaar interessant leesmateriaal, maar ik vind het opvallend dat dergelijke kritiek op eigen werk vervolgens met vitriool beantwoord wordt. Ik denk dat het proefschrift aan kracht zou hebben gewonnen als dit hoofdstuk evenwichtiger was.

Wat me opviel in hoofdstuk 5 is dat er bij de beoordeling van de methodes, behoudens het opnieuw bekijken van 2 methodes door de medeauteur, geen gebruik wordt gemaakt van een onafhankelijke tweede beoordelaar. Ook valt het op dat de beoordeling gebruik maakt van de typen fouten; iets waar de auteurs zelf over zeiden dat er moeilijk conclusies over getrokken konden worden.

Hoofdstuk 7 koppelt de holistische beoordeling aan PHW voor zowel expert- als studentbeoordelaars. Een interessant hoofdstuk. Ook hoofdstuk 8 heeft een mooie reeks literatuur plus overzicht van meetmanieren voor schrijven en bevestigt nogmaals dat fouten PHW in een tekst correleert met de TAVAN score en de holistische beoordeling. Ook interessant, al zou ik wel voorzichtig zijn met causale conclusies, maar ook of ze daarmee even betrouwbaar zijn. Ook hoofdstuk 9, over betrouwbaarheid is interessant; vaak een onderwerp dat niet genoeg beschouwd wordt.

Samengevat

Dit onderzoek heeft veel losgemaakt en dat is knap. Het is goed dat er stevig onderzoek wordt gedaan naar iets wat beschouwd wordt als een belangrijke vaardigheid: het schrijven. In dat opzicht is het proefschrift een aanwinst. Ik vind met name de tweede helft vrij sterk. De eerste helft vind ik echter erg onnauwkeurig formuleren. Van de kritiek die ik las ging het meeste over de harde conclusies op basis van de steekproef. Ik post nogmaals:

Welnu, (i) zowel proefschrift als persbericht generaliseren met een stevige uitspraak, (ii) op basis van de steekproef (en grootte ervan) is er maar beperkte evidentie dat ‘Nederlandse eerstejaars studenten’ slecht zijn in schrijven, (iii) of het schrijfonderwijs faalt kan daarmee ook niet gezegd worden, behalve als men stelt ‘het moet 0 fout zijn’, (iv) de tool TAVAN vermindert het aantal fouten van 19 naar 15 per honderd woorden maar hoe veel beter dan ‘de oude situatie’ is lastig te zeggen omdat het gaat om een specifiek ander programma dat 11 uur minder schrijfonderwijs geniet.

Let wel, ik zeg NIET dat het schrijven van studenten misschien wel niet zo slecht *is*. Misschien wel. Ik verbaas me, op basis van mijn eigen ervaring, over gebrekkige schrijfvaardigheid van vele mensen. Het gaat simpelweg over het proefschrift dat hier voor ligt. Alle begrip dat je bij sociale wetenschap niet met alles rekening kunt houden; je kunt niet in alle steden voor alle opleidingen al het schrijfwerk beoordelen (alleen al: welke opdracht hebben ze allemaal gekregen?). Je maakt keuzes. Die keuzes rechtvaardig je. Tenslotte formuleer je conclusies en uitspraken die passen bij die evidentie. Daarbij hoef je jezelf niet weg te cijferen, maar simpelweg stellen ‘ze schrijven slecht en door TAVAN wordt het beter’ is naar mijn mening wel erg kort door de bocht. DAT was de aanleiding voor mijn reactie(s), niet meer en niet minder.

 

 

Categories
Education Research

Hoe een schrijfonderzoek de gemoederen bezig hield

On this blog I try to primarily write in English. However, in this case it makes more sense to write this lengthy post in Dutch, as it concerns a Dutch thesis (written in Dutch) that has caused a stir in the Netherlands.

awriteDeze blogpost zou eigenlijk helemaal niet geschreven worden. Na talloze reacties van een van de auteurs van het proefschrift -niet altijd naar tevredenheid maar het waren antwoorden- plus diverse stukjes in de media vond ik het eigenlijk wel best. Maar het bleef maar doorgaan, dat volharden in stellige uitspraken. Maar vooral ook: een opzienbarend proces. Dus toch maar twee blogposts. Deze gaat over het proces, een ander over het proefschrift zelf (en inhoudelijke antwoorden op die punten).

Eerst het proefschrift. Dat is hier te vinden. Het persbericht van 28 april 2014 hier. Wat opvalt in het persbericht, veelal de eerste kennismaking van de buitenwereld met een stuk schrijven, Twee zaken -waarvan later gezegd lijkt te worden dat de buitenwacht daar zich te veel op richtte- vielen meteen op: (i) het is slecht gesteld met de schrijfvaardigheid van eerstejaars hbostudenten en universitaire docenten, (ii) er is een softwareprogramma die schrijfvaardigheid verbetert. Er is door sommigen geopperd dat je ook niet op persberichten af moet gaan; het gaat immers om de inhoud, het proefschrift. Daarin staan echter even stellige uitspraken. Neem pagina 113:

Het is heel redelijk om je bij een dergelijke tekst of  persbericht af te vragen of een proefschrift voldoende basis biedt voor die conclusies. natuurlijk kun je simpelweg zeggen ‘anders had het nooit zijn geaccepteerd’ (dat zou later ook genoemd worden) maar gezien het grote aantal werken dat wel degelijk geaccepteerd wordt maar waar wel wat kanttekeningen bij te maken valt, is dat een weinig wetenschappelijke houding. Wat in ieder geval meteen in het oog springt is de relatief lage N. Iets wat de auteurs blijkbaar ook zien als iets wat bekritiseerd kan worden, anders neem je niet in een persbericht op dat “‘Het zijn kleine steekproeven, maar wel aselect getrokken. Voor ons doel zijn ze voldoende nauwkeurig.“.

Op 29 april 2014 las ik zelf voor het eerst over het onderzoek. Ondertussen begon de tamtam te lopen met meer berichten. De teneur steeds hetzelfde: schrijvaardigheid studenten slecht, en er is een tool die harstikke goed werkt. Dat laatste vond ik interessant omdat ik zelf gewerkt heb aan programma’s voor algebra en zelfs binnen die omgeving wat met schrijfopdrachten gewerkt heb. Aangezien ik enkele delen van het proefschrift ondertussen al had gelezen wees ik enkelen op de precieze formulering. Ik vroeg me af hoe de auteurs zo makkelijk generaliseerden.

Op 30 april twitterde ik het volkskrant artikel, en liet dat wederom gepaard gaan met opmerkingen over de steekproef. Er waren natuurlijk meer reacties dus ik weet niet in hoeverre het stuk dat vervolgens verscheen, op mij sloeg. Vast niet veel, want ik moet me niets verbeelden en de kritiek op de lage N klonk veelvuldig. Deze blogpost van een van de auteurs verscheen op 1 mei 2014. De strekking is helder: kritiek op de N komt neer op statistiek niet begrijpen. Nou staat er wel terecht in dat de steekproefgrootte niet per se zegt wat zegt over representativiteit. Klopt, ze hebben echter wel met elkaar te maken. Het stuk is ook wat tegenstrijdig, aangezien tegen het einde gezegd wordt dat studierichting, plaats enzovoorts wel degelijk een invloed *kunnen* hebben. Het wordt ietwat gebagatelliseerd door woordjes als “net ietsjes anders”. Naar mijn mening is het de taak van de schrijver om duidelijk te maken waarom de steekproef representatief is. Dat is, behalve een beroep op ‘aselect’ (dat dit niet zo is, zie de andere blogpost met inhoudelijke punten), niet gebeurd. Helder was de boodschap: ‘jullie begrijpen statistiek niet en ik kan best generaliseren naar Nederlandse eerstejaars studenten’ (dat staat in het proefschrift namelijk).

Het moge duidelijk zijn dat ik kritisch bleef. De eerste aanvaring op twitter was met een bekende van een van de auteurs. Ik had al eens zijdelings opgemerkt-na eerste lezing van de eerste hoofdstukken van het proefschrift- dat deze hoofdstuk twee wel zou kunnen waarderen.

Dat bleek ook het geval te zijn want deze zag hierin bevestiging van een eigen project op het vlak van rekenen (later zal blijken dat de auteur van het proefschrift dankbaar gebruik zal maken van die observatie om kritiek weg te verklaren). Ik zie OOK parallellen, bijvoorbeeld in onderscheid proces-product, maar dat betekent niet dat je andere punten niet meer kunt benoemen. Op twitter escaleerde het en ook op andere manieren is mij te verstaan gegeven dat “Pseudokritiek in de trant van belachelijk maken van n=30 zonder enig benul waar het eigenlijk over gaat, tast dat vertrouwen aan, is buitengewoon schadelijk, en moet bestreden worden.”. Alsjeblieft, en dat allemaal in 1 zin. Hier wordt getapt uit een vaatje dat later ook door een van de auteurs vaker gebruikt gaat worden: je hebt het niet gelezen of je snapt er gewoon niets van. Een van de auteurs van het proefschrift reageerde overigens zeer goed via twitter; het leek alleen alsof mijn punten niet aankwamen. Ook de positieve punten niet trouwens. Dat kan natuurlijk, niets aan de hand hoor.

En het ging door… in de Volkskrant verscheen een artikel WAAR/NIET WAAR. Er staan uitspraken in die best hard zijn. Die zijn voor rekening van diegenen die ze deden. Maar ook inhoudelijke punten ten aanzien van de steekproef en tekstlengte. Uiteraard weer een blogpost als reactie. Maar deze post is anders dan de eerder geposte. Daar heb ik nog een kopie van maar ik houd me aan de auteurswet 😉 De originele post bevatte een merkwaardige introductie over Galilei, Einstein en Hitler. Op mij kwam het over als een typering van twee soorten culturen waarbij sommige (briljante) mensen gekruisigd worden en op de brandstapel eindigen omdat anderen in hun absolute waarheid geloven. Ik kan alleen maar gissen hoe de schrijver dat bedoelde maar kies is anders. Gelukkig is een deel van die post nu verwijderd, en de rest (Galilei) naar het einde verplaatst. De teneur blijft dat deze empirische aanpak op basis van waarneming al eeuwen lang onder vuur ligt. Bij de wijzigingen in de post verdwenen ook de commentaren, van ondergetekende, maar ook van Carel Jansen over ter beschikking stellen van de data. Ondertussen zie ik dat heel veel van de post veranderd is. Soepel gaan weerleggingen van (mijn parafrasering) ‘niet gelezen’, ‘je bent baas van een instituut dat rekenen vernielde’, ‘onbenulligheid’ naar Galilei.

Laat ik duidelijk over de Volkskrant zijn: zoals later zal blijken valt er wel degelijk veel aan te merken over het proces dat de Volkskrant volgde in haar publicaties. Het persbericht had serieuzer bekeken moeten worden, wellicht was de rubriek WAAR/NIET WAAR er dan niet geweest en de hele circus er om heen ook niet. Maar daarom terug naar de inhoud: in het laatste stuk stelt zelfs de promotor dat generaliseren misschien wel lastig is. Zie:

Nou, daar ging het commentaar toch ook vooral over!

Ik snap werkelijk niet waarom de taal in het proefschrift dan niet wat ‘voorzichtiger’ was en al helemaal niet dat in de weken erna niemand heeft willen aangeven dat dit misschien wel verstandig zou zijn geweest. Hoe een simpele vraag leidt tot een waterval van reacties. Ja, inclusief deze blogpost. Terug naar het begin: ik heb me afgevraagd of het slim was om deze twee posts te schrijven; het kan immers olie op het vuur zijn. Ik deed het toch. Heb ik in ieder geval ‘closure’ 😉

 

Categories
Uncategorized

#AERA14

aeraI’m at AERA 2014 and will be trying to liveblog on twitter.

Categories
ICT Math Education Tools

Wuzzit trouble for Android

Since begin November there is an Android version of Wuzzit trouble in the Play store. I assume it’s the same as the iOS one. A blog post about the game is here.

awuz

Categories
ICT Math Education MathEd Tools

Graphical calculator vs Online

Inspired by this blogpost: The CASIO graphical calculator FX-9860G SD emulator, still in use is some classrooms in the Netherlands, on the left for y=sin(1/x), an online tool on the right. Both resized to a width of 263 px, ratios kept the same.

sindcxd8hsphz

QED

(Of course TI would argue that you therefore need the TI-nspire CX full color with a whopping 320 by 240 pixels, and other features comparable to an old Nokia phone. But hey, that’s just me, it’s all about the pedagogy!)

 

Categories
Entertainment Movies

Movie top 100

film-158937_640

Ported from ‘hyves’. Some missing.

1.Dancer in the Dark (Lars von Trier, 2000)
2.A Clockwork Orange (Stanley Kubrick, 1971)
3.La Double Vie de Veronique (Krzysztof Kieslowski, 1991)
4.Dangerous Liaisons (Stephen Frears, 1988)
5.Magnolia (Paul Thomas Anderson, 1999)
6.Amadeus (Milos Forman, 1982)
7.The Adventures of Priscilla, Queen of the Desert (Stephan Elliott, 1994)
8.The Remains of the Day (James Ivory, 1993)
9.The Sheltering Sky (Bernardo Bertolucci, 1990)
10.Lawrence of Arabia (David Lean, 1962)
11.Pulp Fiction (Quentin Tarantino, 1994)
12.Prick Up Uour Ears (Stephen Frears, 1987)
13.21 Grams (Alejandro González Iñárritu, 2003)
14.Magnolia (Paul Thomas Anderson, 1999)
15.Se7en (David Fincher, 1995)
16.Kill Bill Volume: 1 (Quentin Tarantino, 2003)
17.Man on the Moon (Milos Forman, 1999)
18.Shadowlands (Richard Attenborough, 1993)
19.American Beauty (Sam Mendes, 1999)
20.The Piano (Jane Campion, 1993)
21.Leaving Las Vegas (Mike Figgis, 1995)
22.Kill Bill Volume: 2 (Quentin Tarantino, 2004)
23.The Pianist (Roman Polanski, 2002)
24.Aliens (James Cameron, 1986)
25.High Fidelity (Stephen Frears, 2000)
26.Almost Famous (Cameron Crowe, 2001)
27.Das Experiment (Oliver Hirschbiegel, 2001)
28.Festen (Thomas Vinterberg, 1998)
29.Good Will Hunting (Gus Van Sant, 1997)
30.Dead Poets Society (Peter Weir, 1989)
31.Monty Python And The Holy Grail (Terry Jones en Terry Gilliam, 1975)
32.Trainspotting (Danny Boyle, 1996)
33.Le Fabuleux Destin D’Amélie Poulain (Jean-Pierre Jeunet, 2001)
34.Face/off (John Woo, 1997)
35.Made in Britain (Alan Clarke, 1982)
36.Sid and Nancy (Alex Cox, 1986)
37.Cidade de Deus (Fernando Mereilles, 2002)
38.The Godfather: Part II (Francis Ford Coppola, 1974)
39.V for vendetta (James McTeigue, 2005)
40.The Mission (Roland Joffé, 1986)
41.Breaking the Waves (Lars von Trier, 1996)
42.The Truman Show (Peter Weir, 1998)
43.Wild at Heart (David Lynch, 1990)
44.The Crying Game (Neil Jordan, 1992)
45.Da hong deng long gao gao gua (Raise the red lantern) (Yimou Zhang, 1991)
46.Wo hu cang long (Crouching tiger, hidden dragon) (Ang Lee, 2000)
47.Bowling for Columbine (Michael Moore, 2002)
48.Blade Runner (Ridley Scott, 1982)
49.Léon (Luc Besson, 1994)
50.The Talented Mr. Ripley (Anthony Minghella, 1999)
51.The beach (Danny Boyle, 2000)
52.Snatch (Guy Ritchie, 2000)
53.Forrest Gump (Robert Zemeckis, 1994)
54.An Angel At My Table (Jane Campion, 1990)
55.Saving Private Ryan (Steven Spielberg, 1998)
56.Die Hard (John McTiernan, 1988)
57.Being John Malkovich (Spike Jonze, 1999)
58.Ben Hur (William Wyler, 1959)
59.Lola Rennt (Tom Tykwer, 1998)
60.Silence of the Lambs (Jonathan Demme, 1991)
61.Tess (Roman Polanski, 1979)
62.Hannibal (Ridley Scott, 2001)
63.The Green Mile (Frank Darabont, 1999)
64.Pi (Darren Aronofsky, 1998)
65.As Good as It Gets (James L. Brooks, 1997)
66.The Shawshank Redemption (Frank Darabont, 1994)
67.Goodbye Lenin (Wolfgang Becker, 2003)
68.Jude (Michael Winterbottom, 1996)
69.The Color Purple (Steven Spielberg, 1985)
70.Fight Club (David Fincher, 1999)
71.Eyes Wide Shut (Stanley Kubrick, 1999)
72.The Elephant Man (David Lynch, 1980)
73.Rain Man (Barry Levinson, 1988)
74.American History X (Tony Kaye, 1998)
75.Fear and Loathing in Las Vegas (Terry Gilliam, 1998)
76.Edward Scissorhands (Tim Burton, 1990)
77.The Godfather (Francis Ford Coppola, 1972)
78.The Godfather: Part III (Francis Ford Coppola, 1990)
79.Russian Ark (Aleksandr Sokurov, 2002)
80.About Schmidt (Alexander Payne, 2002)
81.The Blair Witch Project (Daniel Myrick & Eduardo Sánchez, 1999)
82.Finding Nemo (Andrew Stanton & Lee Unkrich, 2003)
83.A Bug’s Life (John Lasseter & Andrew Stanton, 1998)
84.The Game (David Fincher, 1997)
85.Falling Down (Joel Shumacher, 1993)
86.The War of the Roses (Danny DeVito, 1989)
87.Romancing the Stone (Robert Zemeckis, 1984)
88.Life of Brian (Terry Jones, 1979)
89.Once Upon A Time in America (Sergio Leone, 1984)
90.Fahrenheit 911 (Michael Moore, 2004)
91.The last emperor (Bernardo Bertolucci, 1987)
92.Goodfellas (Martin Scorsese, 1990)
93.Groundhog Day (Harold Ramis, 1993)
94.Alien (Ridley Scott, 1979)
95.The Manchurian Candidate (Jonathan Demme, 2004)
96.The Shining (Stanley Kubrick, 1980)
97.The China Syndrome (James Bridges, 1979)
98.Unbreakable (M. Night Shyamalan, 2000)
99.Cape Fear (Martin Scorsese, 1991)
100.One Flew Over A Cookoo’s Nest (Milos Forman, 1975)

Categories
Education Research

Unclear definition of MOOCs

moocIf I would write a blog post every time I do some positive or negative critique on Twitter I would have a day job doing it. It’s just too time-consuming to write them all the time. But recently, after a dialogue on the ALT mailing list, I think I need to write something on….. MOOCs again. It was sparked by a useless discussion on acronyms like MOOCs and SPOCs and what there purported differences are. I responded:

We need a MOCUA a Massive Online Course on Useless Acronyms.
Sorry. Got carried away there.

Then today I read a tweet on ‘research about MOOCs’. Yes, research would be great, but please don’t let it touch the -in my opinion- uninteresting field of xMOOCs and cMOOCs definitions (see this post where I wrote about it). And if you would construct a new framework then let it be a solid one with clear definitions. Needless to say the paper that was referenced (here) could perhaps have been better. Some comments:

  • No-one would argue that quality and learning are important but to me the paper feekfragmented sources were glued together.
  • The section with the history and background on MOOCs is ok, but far from new.
  • Then the main part of the paper starts, aimed at classifying MOOCs, and ending with a 12 dimension classification for MOOCs (note that there are typos in this paper, it says ten dimensions).  The 12 dimensions are: the degree of openness, the scale of participation (massification), the amount of use of multimedia, the amount of communication, the extent to which collaboration is included, the type of learner pathway (from learner centred to teacher-centred and highly structured), the level of quality assurance, the extent to which reflection is encouraged, the level of assessment,how informal or formal it is ,autonomy, and diversity. The paper then continues to exemplify the framework by categorizing five MOOCs.
  • The categories are far from clear:
    • Openness. What is meant by this. Further in the paper ‘open source’ and ‘creative commons’  are mentioned but looking at the CCK MOOC I see ‘Second Life’, Elluminate  and ‘uStream’ which aren’t open source as far as I know. Encouragement of sharing through creative commons is good, but is it open if you ‘just’  encourage. Another high scorer used Google Apps. And what is the role of Open Standards? Some courses score ‘medium’  but why. To me one of the courses (OE) seemed open, hosted on Canvas. (Another sloppy mistake here with Audacity instead of Udacity)
    • The massiveness seems more clear. I suspect it’s based on number of enrollments, but this is not explained clearly enough.
    • Use of multimedia: have instances been counted. What IS multimedia. An image? Movies? Video-conferencing? Is 10×1 minute movies just as much as 1×10 minutes?
    • Degree of communication. Forum posts? Are tweets communications? Blogs? One-way communication is communication as well (it seems so because reflective blogs further down the paper count).
    • Degree of collaboration. When are people collaborating? When they react on someone else’s forum posts? Or is more communication needed. Groupwork? Group products?
    • etc….
  • I feel these criteria are fairly arbitrary, if not in their selection, then in the way they are operationalized.
  • The paper suddenly ends with a ‘7C’s of Learning Design framework’. Conveniently 7C’s, no references, not rooted in evidence.
  • It also strikes me that many references are from blog posts. Now I fully understand that society is changing, and personally I welcome the fact that the web has so much to offer when it comes to (well written) blog posts. However, I am a bit skeptical when it comes to quoting numerous blog posts as ‘evidence’ for these developments.

In conclusion, I think ‘research’ is a bit too flattering term for a framework that’s not well defined and is not rooted in well established literature. But then again, I’m not a professor of course.

Categories
Math Education MathEd Tools

Maths iOS app: Wuzzit Trouble

wuzzit1NPR Math Guy Keith Devlin, from Stanford, recently followed up his promise from his 2011 book “Mathematics Education for a New Era”  and released a free maths game Wuzzit Trouble with his company Innertubegames. Of course, let me start by applauding the fact that someone follows up his theoretical ideas by practicing what he preaches, and releasing something as practical as a game. Naturally, I would have hoped it was released multi-platform, or even better, as a web application, but that could easily be construed as nitpicking. Apparently, there will be an Android version as well. I hope so, because I would be very weary promoting a game that only works on one brand.  After having read some positive reviews I gave the game a shot on the iPad3.

...consist of levels...
…consist of levels…

The game follows the structure we know from many apps, like Angry birds: you have levels (75 in total) that require you to solve a puzzle. The better you solve the puzzle, in this case the minimum number of moves, the more stars you earn. The story is about Wuzzits, cute characters that have to be saved. This ‘story’  is not really a story, of course, certainly not the immersive ones we know from blockbuster games like World of Warcraft or Bioshock Infinite. Maybe this isn’t really a fair comparison as these games are on a different level altogether, but that’s what you get as you mention World of Warcraft as a good practice (in the 2011 book).  In this respect I don’t think one of the statements from the 2011 book has been met: it shouldn’t really feel as if you’re doing maths. It is pretty clear that it’s about maths. No problem, I think, because maths and puzzles could be fun, anyway. The levels themselves consist of target numbers that need to be constructed by turning a cog, in the case below with 5. The cog can be turned to the left and to the right. The keys have to be collected by making the numbers by turning the cog. The stars are bonus numbers.

wuzzit9The interface is quite intuitive, and one really only needs a one page help page to get going. This is great, but also the case because the app has a limited scope: integer partitions, if there’s not a lot you can do then you don’t need a lot of instruction. In some cases the lack of maths notation has been applauded. I’m not sure about this; if players see this a maths game -and I think they will- why not introduce or use maths notation as well? I’m thinking of Dragonbox, which uses symbols but later connects them explicitly to maths syntax as well. Based on the number of moves someone needed to wuzzit5collect all the keys, the game awards you with keys, which means -in the narrative- you have rescued some Wuzzits. I didn’t really see how a lot of children would be motivated to find ‘the partition with least moves’  to win three stars. I think they’d just rather progress. I also wonder how this is different, or more interesting, than just timing exercises.

Frankly, after the positive reviews and an ambitious book, I had expected a bit more from the app; especially the scope could have been wider. At the NCETM conference I tried out Beluga learning (iOS only unfortunately) and found it much more enticing, and also Dragonbox (multiplatform, yay!).Sure, the rationale behind this game seems more grounded in a combination of procedural fluency and conceptual understanding, but at the moment just is too limited. I certainly wouldn’t yet say “Video Games Are The Perfect Way To Teach Math, Says Stanford Mathematician”. Innertubegames describes the game/app as a ‘framework’  that could easily consist of more activities, which will probably be called labs. This shows a lot of potential. I hope the makers can do their ambitions justice. Making good games is a time- and money-intensive exercise. You can have the framework but if there isn’t any money or you need a lot of time, then it would defeat the purpose of framework. As if you’ve made a search engine for five items. This will especially be a challenge if you want to put extra (mathematical) thought in the apps/games. I hope they will succeed in making some more and wish them good luck.

Categories
ICT Math Education MathEd Tools

Software for geometric proofs in secondary schools

A week ago I attended a seminar at the School of Education with visitors from Japan. One of the visitors was Professor Mikio Miyazaki. He showcased some of his work on a flowchart tool for (geometric) proofs at Schoolmath. I loved it and would love to see this integrated as widgets in the Digital Mathematical Environment, for example. I will provide an overview in some screenshots.

1. This is the entry screen. The flowchart tool is part of a larger environment that stores student information.

proof1

2. The materials are presented in a nice overview with levels. The stars do NOT denote difficulty but in how many ways you can actually proof the theorem that is presented.

proof2

3. I will choose the section on congruency. Students are presented with a geometry task and are asked to prove the theorem presented (I did not yet manage to find out what the difference between elementary mode and advanced mode is). In this particular example there are four stars, so four possible ways to prove it with the help of congruency. Students have to fill in the flowchart by choosing a strategy/action and providing angles and sides. I love the fact that I can just drag and drop angles and sides to the answer boxes and they will appear there.

proof3

proof4

4. Having filled in the flowchart the answer can be checked. One of the four stars is coloured yellow.

proof5

5. Wrong answers are provided with feedback and an indication where the mistake is:

proof6

6. Another final example:

proof7

It was interesting to hear that this project faces a challenge that many educational tools face: converting flash and java tools to HTML5 format. I’m still quite disappointed that the Apples, Adobes, Googles and Oracles of the world did not manage to provide a transition period.