Categories
Education Research

OFSTED reports

I’m working on a very-belated post on Robert Peal’s OFSTED report for Civitas. I’ve been working on OFSTED reports for quite some time, harvesting a couple of thousand of them. For a sneak preview I refer to the presentation I gave at the ICMT conference:

Categories
Education Research Research Statistical Methods

Costs and Benefits of Initial Teacher Training Routes

Only recently did i manage to read the November 2014 report published by the Institute of Fiscal Studies (but joint with the Institute of Education and NFER, funded by Nuffield) on the Costs and Benefits of Different Initial Teacher Training Routes. It is an interesting read; it would go too far to comment on all of the content, but it was striking that different media outlets chose different ‘slants’ on the report.

IFS had quite an extensive press release highlighting several aspects, while the NFER chose three of the findings. The report is an interim report from a Nuffield project (I noticed Nuffield funds the IFS for more ‘public spending’ projects).

It is fascinating to see how outsiders reported or blogged about the results. John Howson seems to emphasize the monetarization and quantification of ITT routes. I agree with him that this could turn into an issue: it’s shouldn’t solely be about numbers. However, for public justification of expenses in principle it is important to explain how public money is spent. The Public Finance website had quite a factual report, and among other points, noted how the issies around student loans and repayments. The University and College Union (UCU) also picked up this point but, in my opinion rightly so, asks attention to the longterm effects of the changing ITT landscape, and the hidden costs involved. They emphasize the threat to university education departments caused by reducing the direct allocation of training places to universities. A school-based teacher training provision prefers to highlight (and not suprisingly agree with) the result that a higher percentage of school-based ITT responded that the benefits of the route outweigh the costs. In a more extensive piece in Academies Week many of all these findings come together in one piece. It also mentions the ‘benefits’ of ITT routes. As this also got a mention in some tweets at the time, I’d thought I’d look into how this benefit (and costs of course) was determined in the report.

Chapter 4 of the report breaks down this topic. It first addresses the ‘central costs’ in 4.1, in which scholarships, bursaries, tuition fees and maintenance loans, maintenance grants, NCTL grants to schools, and NCTL contracts are taken into account. The key table is below. I was wondering who the recipients of these costs were throughout the report. For example, a bursary will be received by a trainee, a tuiton fee loan paid (back) by students but going to HEI’s etc. etc.

t42

After this the indirect costs for schools are caclulated in 4.2. Note that throughout the report focus is ‘Inner London’, but both primary and secondary education are looked at. This was done by, per term for primary and secondary education, looking at costs for mentoring, observations, lesson planning and other costs. This is where I feel the estimates become a bit vague. The estimates for the costs were obtained by asking respondents to report the time involved with the indirect costs associated with a specific trainee. This was combined with information on the pay category of the lead staff member involved, also representing the ‘opportunity costs of training’. The largest cost associated with ITT for primary schools is mentoring, with an average cost of around £39 per week. For secondary schools the highest was ‘observations’ and I was struck by the difference between routes: Teach First costs £29 per week, HEI-led £81 per week. I seriously wonder how this can be the case. It certainly explains the secondary schools differences in table 4.5 below.

t45Section 4.3 then describes the benefits. I was particularly interested how the report would calculate (monetize) the benefits. Apparently it started with a simple question: respondents were asked to report the extent to which the specific trainee in their recent experience brought a number of benefits to their school/department. These benefits, and percentages ‘strongly agree’ or ‘agree’ are reported in tables 4.7 and 4.8.

t47t48The monetary value was calculated by asking an additional question “whether the benefit for their school or department was greater than, equal to or less than the cost associated with the route, and whether this was to a ‘large’, ‘some’ or ‘small’ extent. Now, this seems somewhat subjective, maybe captured by the report’s use of the word ‘perception’.

t49

For primary, it is reported, whether it is reported that benefits outweigh the cost is related to specific benefits, especially whether the school expects to hire the trainee. This seems understandable, because you would want a large (time and money) investment not to leave the next year.

For secondary to groups of people were asked: secondary subject leaders (Departments) and secondary ITT coordinators.

t410

t411

This is all quite informative, although interpretation is difficult. It’s the subsequent monetarization that made me scratch my head. This started with assuming that net benefit was a continous variable with the answers to the question whether the benefits were less, equal or larger and the extent, as underlying property. A next assumption then is that the benefit-cost ratio has a Gamma distribution. It is argued that ‘this is reasonable’ as it is flexible and because ‘it can approximate a large range of distributions depending on the parameters.’. I find this justification unconvincing. But the assumptions continue with the assumption that respondents’ interpretation of ‘large’, ‘some’ and ‘small’ extent is similar AND that the value for each is the same above and below benefits=costs. A final assumption concerns a margin of approximation (see p.49 and appendix D of the report). Then the gamma distribution was fit to the survey results, and then draws made from the optimal gamma distribution. The draws were averaged to provide average net benefit. For the three groups, primary, seocondary subject leaders and ITT coordinators the corresponding tables are 4.16, 4.17 and 4.18:

t416

t417

These tables seem to show what these assumptions do with the results. Take Teach First, the report mentions that, for ITT coordinators, the very high average net benefit is mainly caused by higher monetary costs as reported by the ITT coordinators, but also a higher estimated benefit-cost ratio. I thought the former was very strange as table 4.6 seemed to indicate that the costs were among the lowest. I find it difficult to understand what causes the difference between these observations. This is important to understand as high costs, combined with high benefit-cost ratio, imply more benefit. The calculation of the ratio also needs to be unpicked. I somehow feel that there are far too many assumptions here for such a conclusion, especially given the nature of the original questions. One could argue that it basically is a 7-point Likert scale with benefits to large extent less than costs, to, benefits to large extent more than the costs. With assumptions that these ‘steps’ are equal, Gamma distrubution assumptions, but also that it concerns the perception of benefits-costs ratio, seems problematic to me. Appendix D further explains the procedure and it seems that the first column is the average of the calculated benefit-cost ratios (those drawn from the Gamma distribution, I presume). It makes a big difference whether values are drawn to the right of the distribution or not. Now had I taken from table 4.11, for example, that benefits>cost percentage for HEI-led ITT was comparable to, for example Teach First. I have no idea why the benefit-cost ratio is lower. Overall, given all the assumptions I think the net benefits reported in terms of ‘monetarization’ are not really sound.

 

Categories
Education Research

Was the Sutton Trust report really about myths?

I’ve tweeted quite a lot about this report and true, this blog post comes quite late after its publication. I was quite positive about the report, but did notice that the press and the blogosphere seemed to mainly focus on the two (!) pages in the report on ‘ineffective practices’ (p22-p24). The executive summary -correctly- barely mentions them. reportI think this emphasis on ‘myths’ is a shame because the first half with effectiveness models, and the second half on frameworks for capturing teaching quality, are very interesting. In addition, the section on myths is rather light-weight regarding evidence, in my opinion. The character of the report, called a ‘review of underpinning research’, is not really shown in this specific section. Sure, this doesn’t mean that ineffective practices should not be uncovered, but surely this goal is better served with some more grounding. Something that should have been easy to do, as in some cases genuine reviews are referenced.

Let me give some examples:

Use praise lavishly
Praise for students may be seen as affirming and positive, but a number of studies suggest that the wrong kinds of praise can be very harmful to learning. For example, Dweck (1999), Hattie & Timperley (2007). Stipek (2010) argues that praise that is meant to be encouraging and protective of low attaining students actually conveys a message of the teacher’s low
What evidence is used here? Firstly Hattie and Timperley: their review on p96 is much more nuanced in my opinion. There are several sources that might have been used to support the claim in the report. Dweck’s article also seems to mainly reference her own work; I would hardly call it a review. Finally Stipek, a reference which I had trouble finding because it was placed wrongly in the reference list at the D, is a website. The website is an excerpt from a 2002 book. It could very well be that the contents also is in a more formal publication, but using this source as evidence for a myth does not seem to be such a strong case.
This happens with the other points as well:
Allow learners to discover key ideas for themselves
Enthusiasm for ‘discovery learning’ is not supported by research evidence, which broadly favours direct instruction (Kirschner et al, 2006). Although learners do need to build new understanding on what they already know, if teachers want them to learn new ideas, knowledge or methods they need to teach them directly.
The Kirschner et al. paper is excellent, and published in reputable journal. It would, however, been nice if there were some more references, even when they would be sources reviewed in exactly that article.
Group learners by ability
Evidence on the effects of grouping by ability, either by allocating students to different classes, or to within-class groups, suggests that it makes very little difference to learning outcomes (Higgins et al, 2014). Although ability grouping can in theory allow teachers to target a narrower range of pace and content of lessons, it can also create an exaggerated sense of within-group homogeneity and between-group heterogeneity in the teacher’s mind (Stipek, 2010). This can result in teachers failing to make necessary accommodations for the range of different needs within a supposedly homogeneous ‘ability’ group, and over-doing their accommodations for different groups, going too fast with the high-ability groups and too slow with the low.
This section again references the Stipek website (and indirectly book). Higgins et al. from 2014 is NOT in the reference list (sloppy, there are several of these errors), I assume it’s the 2013 reference to the Learning and Teaching toolkit. Within that am I to assume the report is referring to ‘setting and streaming’? There are references here, maybe some more taken from those references could have made the evidencing more substantial.
Encourage re-reading and highlighting to memorise key ideas
This finding has already been mentioned in summarising the review by Dunlosky et al (2013). Re-reading and highlighting are among the commonest and apparently most obvious ways to memorise or revise material. They also give a satisfying –but deceptive– feeling of fluency and familiarity with the material (Brown et al, 2014). However, a range of studies have shown that testing yourself, trying to generate answers, and deliberately creating intervals between study to allow forgetting, are all more effective approaches.
The Dunlosky et al. article is a strong source. Brown et al. refers to the book ‘Make it stick’ which again might be strong, but I would say that in general I’d rather see a peer-reviewed source. There also are some common names in both (Roediger for example), which might be a good thing (triangulation) but also could mean self-citation. I also think the mention of ‘a range of studies’ should have been evidenced.
Address issues of confidence and low aspirations before you try to teach content
Teachers who are confronted with the poor motivation and confidence of low attaining students may interpret this as the cause of their low attainment and assume that it is both necessary and possible to address their motivation before attempting to teach them new material. In fact, the evidence shows that attempts to enhance motivation in this way are unlikely to achieve that end. Even if they do, the impact on subsequent learning is close to zero (Gorard, See & Davies, 2012). In fact the poor motivation of low attainers is a logical response to repeated failure. Start getting them to succeed and their motivation and confidence should increase.
This reference refers to an extensive report by the Joseph Rowntree foundation. I assume p76 and p77 are the relevant pages, and they give me the impression that here too, the findings are more nuanced than qualifying it as an ‘ineffective practice’.
Present information to learners in their preferred learning style
A belief in the importance of learning styles seems persistent, despite the prominence of critiques of this kind of advice. A recent survey found that over 90% of teachers in several countries (including the UK) agreed with the claim that “Individuals learn better when they receive information in their preferred learning style (for example, visual, auditory or kinaesthetic)” (Howard-Jones, 2014). A number of writers have tried to account for its enduring popularity (see, for example, a clear and accessible debunking of the value of learning styles by Riener and Willingham, 2010), but the psychological evidence is clear that there
are no benefits for learning from trying to present information to learners in their preferred learning style (Pashler et al, 2008; Geake, 2008; Riener and Willingham, 2010; Howard-Jones, 2014).
This section has quite some references. The Howard-Jones one is about prevailing perceptions of teachers, but indeed Pashler et al. is a strong source. I would, however, frame it differently: ‘evidence it is not effective’ is not the same as ‘no evidence that it’s effective’. It is also ironic that the aforementioned Teaching and Learning Toolkit (Higgins et al., 2014) classifies Learning Styles as “Low impact for very low cost, based on moderate evidence.”.
Ensure learners are always active, rather than listening passively, if you want them to remember
This claim is commonly presented in the form of a ‘learning pyramid’ which shows precise percentages of material that will be retained when different levels of activity are employed. These percentages have no empirical basis and are pure fiction. Memory is the residue of thought (Willingham, 2008), so if you want students to remember something you have to get them to think about it. This might be achieved by being ‘active’ or ‘passive’.
I think here two separate issues are connected. The ‘learning pyramid’ (Cone of experience?), especially the specific numbers, has been debunked. However, is it true that the header of the section ‘is commonly presented in the form of the learning pyramid’? I read no supporting evidence for this. Of course, I think I know what is referred to, but I’d rather have some more substance included.
Overall, I think this section could have had more substance. The pages, in my opinion, do not warrant the current coverage of both the press and the blogosphere. Certainly not in the sense of soundbites like ‘the Sutton Report shows that <insert ‘myth’ here>’. It also did not seem the intention of the authors, as the executive summary barely mentions them (although I thought it was strange that this article on these ineffective practices came first, only a week later followed by what does work; also the press release starts with the ineffective practices). To conclude, I think too much emphasis has been put on two pages from a much longer report by the press and the blogosphere. Not only doesn’t the total length of the ‘ineffective practices’ warrant this, the section also is quite lightweight on evidence. I think the rest of the report, which is a better mix of teaching frameworks and teaching quality, subsequently was undervalued. This does not mean ‘myths’ need not be debunked, of course. Luckily, the topic is quite fashionable, so we can be sure that more rigorous articles and books will appear. I hope, however, that this will be a case of evidence, not a case of sound-bites.
Categories
Education Research

Basale schrijfvaardigheid

On this blog I try to primarily write in English. However, in this case it makes more sense to write this lengthy post in Dutch, as it concerns a Dutch thesis (written in Dutch) that has caused a stir in the Netherlands.

phdIn deze blogpost heb ik allerlei observaties en aantekeningen verzameld over een proefschrift over schrijven. Het leek me zonde om gewoon weg te gooien, hoewel er mensen zijn die mijn insteek onbenullig en schadelijk zullen vinden. Ik ga niet weken zwoegen op optimaal taalgebruik, trouwens. What you see is what you get. Misschien een van de auteurs van het proefschrift zelf, want tot nu toe heeft deze zelf ook twee blogposts over de media-aandacht geschreven. In een liet hij personen die de lage N aanvielen weten dat ze geen verstand van statistiek hadden, in een ander werden Galilei, Einstein en Hitler, alsmede de CV van een journalist er bij gehaald om aan te tonen dat het commentaar nergens op sloeg. DEZE BLOGPOST gaat daar niet over, die gaat over het proefschrift, over het proces schreef ik een ANDERE BLOGPOST.

Het proefschrift is hier te vinden. Het persbericht van 28 april 2014 hier.

Laat ik eerst beginnen, dat wordt straks toch vergeten, mijn waardering uit te spreken voor alle uitgebreide reacties van @mikvanes. Er is veel in de strekking van de reacties (allerlei locaties, twitter, BON forum) die mij aanspreekt: kennis verkrijgen is hard werken, en inderdaad moet het effectief zijn. Ik vind de gebalanceerde benadering van ICT inzet (met feedback) sterk; ik zie daar ook de voordelen van. Tevens zijn de hoofdstukken over beoordelaars e.d. interessant. Ook geloof ik dat de empirische benadering van de vraagstelling te prefereren over een theoretische: het proefschrift analyseert een probleem en probeert met een interventie een oplossing aan te dragen. Wat in de empirie echter ook van belang is, is dat je kijkt naar een nul-hypothese, en dat je vervolgens kijkt of er genoeg aanwijzing is dat je de nul-hypothese verwerpt. Sterker nog, dat is de kern van het verhaal.

Ik maak voornamelijk gebruik van de tekst in het proefschrift. Daar waar een van de auteurs ergens reageerde of toelichting gaf (en ik weet er van) dan zal ik dat meenemen. Waarbij ik wel eigenlijk vind dat het dan in het proefschrift had moeten staan. Wat opvalt in het persbericht, veelal de eerste kennismaking van de buitenwereld met een stuk schrijven, zijn twee zaken -waarvan later gezegd lijkt te worden dat de buitenwacht daar zich te veel op richtte. (i) Het is slecht gesteld met de schrijfvaardigheid van eerstejaars hbostudenten en universitaire docenten, (ii) Er is een softwareprogramma die schrijfvaardigheid verbetert. Er is door sommigen geopperd dat je ook niet op persberichten af moet gaan; het gaat immers om de inhoud, het proefschrift. Daarin staan echter even stellige uitspraken. Neem pagina 113:

Hier begint het: als ik dit lees verwacht ik dat een voor de ‘Nederlandse eerstejaars-studenten- representatieve steekproef is genomen. Bij het vermelden van het effect wordt gewag gemaakt van het feit dat er een klassieke controle/experimentele groep design is gebruikt. Daar zal ik dan kijken naar de details van die opzet. Dit betreft met name hoofdstuk 4 en 6. Ook de andere hoofdstukken heb ik echter gelezen en daar zeg ik ook nog wat over.

Representativiteit van de steekproef

De auteur was niet in mild in zijn blogpost met de bewering dat de criticasters van het onderzoek geen kaas van statistiek hadden gegeten. Uiteraard ben ik het eens met de opmerking dat representativiteit en steekproefgrootte twee deels gescheiden zaken zijn. Jij zegt “Bij steekproeven zijn twee zaken belangrijk in deze volgorde: 1. hoe ze geselecteerd zijn,  2. hoe groot ze zijn.”. Eens. Ze zijn echter wel gerelateerd.

Laten ik beginnen met de representativiteit van de steekproef in hoofdstuk 4.

  1. De steekproef is NIET aselect maar stratified random: er zijn groepen werkjes gekozen en binnen die groepen werkjes zijn aselect werkjes getrokken. Binnen de strata is gekozen voor diverse soorten schrijfwerk. Het type documenten dat gekozen is: hbo-light-in-werkcollege (ik noem deze groep 1), hbo-light-thuis (groep 2), hbo-project-intro (groep 3) en universiteit-taalbeheersing (groep 4).
  2. De steekproef is random binnen de strata, maar de keuze voor respectievelijk 5,5,10 en 10 is dat niet. Dit valt te zien als je kans berekent bij volledig random 30 op 159 documenten, en de verschillende strata:
  3.   pop steekproef kans
    Groep 2 31 5 0.16
    Groep 3 56 10 0.18
    Groep 1 40 5 0.13
    Groep 4 32 10 0.31
    Totaal 159 30 0.19

    De proportie universitaire teksten in hoger dan random, hbo lager. Nou zou dit zelfs kunnen betekenen dat er nog sterkere aanwijzingen zijn dat hbo studenten slechter schrijven dan universitaire studenten, immers de hoge proportie uni studenten ‘dempt’ die van de hbo studenten. Daarom had ik het beter begrepen als vermeld was dat het niet aselect was. Daarbij is dan geen rekening gehouden met het feit dat uit de beschrijving van de random steekproef af leiden valt dat sommige studenten in zowel groep 3 of (groep 1/groep 2) kunnen zitten(?).

  4. Ook statistisch gezien is het van belang dat rekening wordt gehouden met strata omdat stratified random sampling nogal eens leidt tot het onderschatten van de standaardfout
  5. Op p. 113 zeggen de auteurs, zoals in de tweet ook vermeld, dat “Het tweede belangrijke resultaat van het foutenonderzoek is dat Nederlandse eerstejaarsstudenten zeer grote aantallen bevestigde fouten PHW in hun Nederlandstalige schrijfproducten blijken te produceren.”. De auteurs doen uitspraken over ‘Nederlandse eerstejaarsstudenten’ en besteden bijna geen aandacht aan het feit hoe die 30 schrijfwerkjes representatief zijn voor die groep. Later lijkt de argumentatie bijna te zijn dat dit niet nodig is want (i) random, (ii) geen aanwijzing dat het bij andere opleidingen, steden enz. anders ligt. Dat laatste moet naar mijn mening onderbouwd worden.
  6. Overigens neem ik ook aan dat de opleiding CIW flink gegroeid is sinds 2007-2008 omdat 32 studenten voor de hele populatie niet veel is. In de studiekeuzemonitor zie ik nu ca. 140 studenten? Was de opleiding net nieuw? Of was die groter maar zijn dit representatieve groepen? Mijn lijn moge duidelijk zijn: ik verwacht meer informatie over dat ene punt representativiteit. Of preciezere formulering. Hier staat nu “Onze ‘steekproef’ zou dus representatief moeten zijn voor in ieder geval die 159 studenten.”, gezien de strata (zie hierboven) is dat de vraag maar het is in ieder geval heel wat preciezer naar mijn mening dan “Deze uitkomsten bevestigen eerdere berichten over de tekortschietende schrijfvaardigheid van eerstejaarsstudenten.” (p.112). en de eerder geciteerde zin op p. 113. Kortom, die precieze formulering had naar mijn mening consequent moeten zijn gebruikt.
  7. Binnen de groepen (strata) is ook nog eens sprake van een verscheidenheid aan schrijfomstandigheden: sommige mogen thuis worden gemaakt, andere niet. Ook is de ‘aard’ van de teksten verschillend. Of dat uitmaakt weet ik niet maar een korte analyse had niet misstaan. Bijvoorbeeld ten aanzien van de lengte van de teksten. Als op p. 104 wordt gemeld dat een kortere tekst meer fouten per honderd woorden lijkt te bevatten, dan moet je naar mijn mening uitsluiten dat de teksttypen die hbo en uni studenten schreven ongelijk waren.Een voorbeeld. Stel hbo studenten schreven gemiddeld 200 woorden met 60 fouten. Universitaire studenten 400 woorden met 80 fouten. De auteurs stellen terecht dat het natuurlijk niet ‘eerlijk’ zou zijn om te zeggen dat universitaire studenten slechter schrijven (80 fouten versus 60) omdat ze namelijk ook meer schrijven. Vandaar dat de auteurs zeggen: we gebruiken fouten per honderd woorden. Dat wordt dan respectievelijk 30 PHW versus 20 PHW, de hbo studenten doen het nu slechter dan de universitaire studenten. Maar ook met die conclusie moet je oppassen, immers de hbo studenten schreven gemiddeld veel korter en zullen dus niet alleen minder fouten in absolute zin hebben gemaakt, maar waarschijnlijk meer per honderd woorden. Om goed te vergelijken moet je naar mijn mening qua tekstlengte vergelijkbare groepen hebben. Dit wordt verder niet toegelicht.

    Zeggen dat het logisch is dat hbo studenten korter schrijven omdat ze slechter in schrijven zijn is volgens mij een cirkelredenering. Dat wist je namelijk niet op moment van het nemen van de steekproef. De twee te vergelijken groepen moeten vergelijkbaar zijn, en hoewel ik het eens ben met de constatering dat er (te) veel fouten ten opzichte van, zeg een baseline van 10 fouten (of zeg 0), gemaakt worden, wordt er ook een vergelijking hbo versus uni gemaakt.

  8. De aanname dat de opleidingen CIW (Communicatie- en Informatiewetenschappen) en IBL (International Business and Languages) wel talig zullen zijn omdat ze over talen gaan, vind ik ook niet zo overtuigend. Is de redenering dat als zij al veel fouten maken, anderen dat ook wel zullen doen. De generalisatie naar andere opleidingen is niet sterk. Zo kan CIW gekozen worden met alle profielen, IBL ook vermoed ik, los van het HBO/WO verschil. Een passage over de representativiteit van deze opleidingen voor ‘eerstejaars’ was wel degelijk terecht geweest. Ik ben het dus niet eens met “Maar of dat allemaal echt waarschijnlijk is…” in de statistiek blogpost. Al had het maar zijn beschreven en daarna gezegd “Dus nemen wij aan dat…”. Maar het staat er volgens mij niet.

Mijn deelconclusie: de auteur(s) hebben niet goed duidelijk gemaakt dat de steekproef representatief genoeg is. Sommige uitspraken in het proefschrift kunnen naar mijn mening niet gedaan worden.

Grootte van de steekproef en vergelijken groepen

Dan de steekproefgrootte. Het klopt dat als een steekproef representatief is je met lagere N kunt volstaan dan sommigen denken. Nou vind ik de stelling dat de steekproef representatief is, vanwege voornoemde redenen niet zo overtuigend. Echter ook de stelling dat “De grootte van de steekproef is niet zo belangrijk, omdat we die via de standaardfout kunnen vertalen in een betrouwbaarheidsinterval.” (blog, laatste zin). Inderdaad, het is juist die standaardfout die de onzekerheid in de bevindingen weergeeft, en daarmee niet uitgaat van een absolute waarheid. Ik mis alleen een beschouwing van die onzekerheid. Zoals gezegd is het volgens mij zo dat de ‘stratified’ aanpak met verschillende kansen in de strata de standaardfout beinvloedt. Bij lage N moet je ook nog eens oppassen met biased/unbiased estimators van de standaardfout. Het is dus wel degelijk zo dat, zoals ook in de blog staat “Een heel grote, aselect getrokken steekproef is natuurlijk betrouwbaarder dan een kleine steekproef.”. Volgens is dat ook wat steeds betoogd is, samen met het bevragen van de representativiteit. Op twitter ging de discussie wat verder, bijvoorbeeld dat zelfs met N=2 een representatieve sample *kan* worden verkregen. Nou *kan* dat inderdaad maar aangezien je niets weet over de distributie van de populatie zal een dergelijk kleine sample een hoge mate van onzekerheid bevatten. Niet alleen zal de N-1 versie van de SD de SD van de populatie (en SE) licht onderschatten, bij gebruik van de t-test kunnen SD en SE volgens mij onderschat worden. Ook al omdat de standaardfout naar sd/wortel(N) nadert voor N voldoende groot.

Op p. 108 worden hbo en uni groep vergeleken. De eerste constatering is dat er PHW wordt gebruikt. Lijkt me prima. De sprong naar 1 A4 vind ik wederom onnodig. Het geeft een vertekend beeld van steekproef die weinig teksten van 500 woorden bevat (immers, gemiddelde veel lager). Dan de t-test. Ik mis degrees of freedom en t-waarde (plus effect size wordt meestal gemeld). Ik ga er maar van uit dat de groepen ongeveer normaal verdeeld zijn. Als N>30 dan hoeft dat niet (al blijf ik het testen) vanwege neigen naar normaal maar hier leek me dat wel logisch. Levene wordt niet meteen genoemd maar verderop. Ik ken die ook als controle of aanname ‘Homogeneity of Variance’ voor de t-test klopt. Aangezien p<.004 wordt de nul-hypothese dat ze gelijk zijn verworpen. De t-test is vrij robuust, maar ook dit wordt niet verder toegelicht. Nou is p<.001 vrij sterk maar ook hier weer: ik mis info. Met een non-parametrische test had je wellicht het zelfde resultaat gekregen.

Per honderd woorden of per A4

Ook niet helemaal precies is het omrekenen naar fouten per A4. Als de opdracht is om 500 woorden te schrijven, is het simpelweg opvallend als de range 135 tot 565 is met gemiddelde 279 en een sd van 104 woorden. Dat roept nog meer de vraag op of er (i) verschil was binnen de vergeleken groepen, zie punt 7 bij de steekproef,  (ii) het handig is om naar 1 A4 om te rekenen, ook als daar ‘wat beter valt bij voor te stellen’ (in een tweet geantwoord).

Het beoordelen van fouten

Het berekenen van de fouten geschiedde zo ik begrepen heb op basis van ‘twee beoordelaars waren het eens’, zg. ‘bevestigde fouten’. Hoe je met die definitie op p.100 opeens kunt spreken over ‘kloppende en niet-kloppende fouten’ lijkt me raar. Wie bepaalt dat ze kloppen als de definitie zegt ‘twee zijn het eens’? Maar goed, die passage is netjes en interessant en concludeert aan het einde dat –ongeacht het feit dat er een mate van overeenstemming is- vooral het AANTAL FOUTEN PER HONDERD WOORDEN (PHW) sterk gecorreleerd is.

Wel knaagt ‘bevestigde fouten’ een beetje. Het is een originele insteek,  maar gebruik makend van interbeoordelaars aspect heb je vanwege je definitie altijd te maken met 100% overeenkomst. Immers, 2 of meer moeten een fout bevestigen. Op pagina 101 staat een illustratieve lijst. Als ik het goed begrijp is beoordelaar 4 (b4) volgens het traditionele interbeoordelaars criterium het meest betrouwbaar. Immers, de auteurs hebben een criterium dat maakt dat een fout ‘bevestigd’ wordt en 87% van de door b4 gesignaleerde fouten wordt uiteindelijk ook bevestigd. Echter, die fouten zijn maar 46% van alle bevestigde fouten. Is dit geen cirkelredenering? Immers, de fouten van een beoordelaar maken deel uit van de definitie van een fout en vervolgens wordt de betrouwbaarheid uitgedrukt in een correlatie tussen alle fouten van een beoordelaar en wat uiteindelijk overblijft als bevestigde fout. 3980 fouten, 2400 verschillende. 1411 van maar 1 beoordelaar, 989 bevestigd door een andere beoordelaar. Op pagina 99 wordt ook gemeld dat tweederde van de fouten van een beoordelaar gemiddeld bevestigd werden. Maar dat hangt toch sterk af van het aantal beoordelaars? Immers, als je meer beoordelaars hebt, is de kans groter, bij 2/3 individueel bevestigend, dat er wel een beoordelaar tussen zit die een fout bevestigt.

Uit de tabel op p. 106 en de bijlage op http://dl.dropboxusercontent.com/u/6861883/Bijlagen%203%2C%205%20en%206.pdf met soorten fouten blijkt overigens ook dat het type fouten een in mijn ogen soms gekke mix van taal- en stijlfouten bevat. Wat is ‘verkeerd woord’? Wanneer is een woord verkeerd? Wanneer loopt een zin niet? Wat is een alinea indeling? Wat is een overbodige zin? Nou snap ik op zich wel dat een moedig poging wordt gedaan om een subjectieve waardering –ik bedoel dus niet een echte spelfout maar een stijlfout- objectiever te maken door het criteria “bevestigde fouten” te hanteren De discussie erover lijkt me gerechtvaardigd. Vervolgens wordt ook gezegd dat er verschillend over fouten werd nagedacht (daarmee wordt eigenlijk de noviteit van de methode weer teniet gedaan) maar dat het aantal fouten per honderd woorden. (PHW). Kortom, een originele aanpak maar niet zonder uitdagingen.

Falend onderwijs versus TAVAN

In het proefschrift staan ook stellige uitspraken over hoe het schrijfonderwijs gefaald heeft (zie de eerste tweet bijvoorbeeld). Ik kan het eens zijn met de conclusie zoals die buiten het proefschrift geformuleerd  is: “eerstejaars studenten leren in het voorafgaande onderwijs niet foutloos te schrijven. We zeggen niet dat het vroeger beter was. We kunnen alleen constateren dat foutloos schrijven nu in ieder geval niet in het voorafgaande onderwijs geleerd wordt.”. Maar dat klopt alleen als 0 fouten(foutloos)  alleen als effectief gezien wordt. Daar kan ik wel in meegaan: 0 fouten is perfect en je kunt er niets meer aan verbeteren (maar: zie de passage over fouten). Ik vind het alleen wel een onhaalbare eis: als 0 fout ‘effectief’ is dan kun je niet zeggen dat 20% minder fouten voor je eigen interventie effectief is voor het een en dan andere neerzetten als ‘falend’ omdat de 0 fout niet gehaald wordt. Effectiviteit meet je door te vergelijken hoe het was (pre) en hoe het werd (post) en die uitspraken kun je NIET doen over andere/huidige methoden. Een doelstelling van 0 fouten haalt  TAVAN helaas ook niet. De tekst van het proefschrift is naar mijn mening minder zorgvuldig met zinnen als “Kennelijk is het voorafgaande onderwijs op dit punt niet effectief geweest” (p. 113). Volgens de ‘0 fouten benchmark’ is TAVAN dat ook niet, toch wordt daar het standpunt gehuldigd dat het effectief is. Ik vind dat daar de goal posts verplaatst worden tussen hoofdstuk 4 en hoofdstuk 6: of je zegt “we weten niet hoe het voorgaande onderwijs was dus lastig te zeggen of het effectief was of niet”, of je zegt “0 is de benchmark (of zelfs 10 maar dat is al meer arbitrair want is dat per A4, per honderd woorden)” en houdt ook TAVAN er aan. Ik denk dat wat me stoort hier weer die nadruk is de “het huidige onderwijs is slecht, kijk maar” claim, die toch wel onder het hele proefschrift ligt. Die vergelijking is simpelweg niet te maken. Minder fouten door TAVAN kan ik best zien als voordeel, en dat wordt in hoofdstuk 6 uiteengezet (helaas weer, om dezelfde redenen als hiervoor, met erg lage N). Het wordt echter vergeleken met het ‘normale onderwijs’ in de voornoemde opleidingen. Ook kreeg de controlegroep 11 uur minder schrijfondersteuning. Daarnaast is het de ‘oude manier zoals die binnen die opleidingen werd gehanteerd’. Veralgemeniseren tot falend schrijfonderwijs kan daarom niet, op basis van deze gegevens.

Het experiment met TAVAN

Ik vond het resultaat van de experimentele groep TAVAN eerlijk gezegd wat tegenvallen: 20 uur om van 19 fouten PHW naar 15 vond ik niet zo erg veel, ook al was het een sterk effect.  Daarbij is er ook nog sprake van een controlegroep TAVA die maar liefst 11 uur minder onderwijs kreeg en werd onderwezen door andere personen. De weekverdeling (3 keer 3 met spreiding of aaneengesloten, versus de 10 keer 2) wordt ook niet beschreven. De keuze voor ‘verbeterteksten’ vond ik opvallend, zeker gezien de argumentatie “Verder zouden bij een volledige open opdracht ook onnodig inhoudelijke verschillen ontstaan tussen de teksten die zouden kunnen doorwerken in de beoordeling op aantal fouten PHW.” (p. 194). Immers, dat was toch ook zo in het foutenonderzoek? Weten we zeker dat fouten verbeteren hetzelfde is als foutloos schrijven? De analyse van dropout had wel wat uitgebreider gekund als maar 38 studenten van de 60 beoogde overblijven.

De tool TAVAN

Een echte indruk van de tool krijg ik niet, dus kan alleen afgaan op de beschrijvingen. Ik vrees dat in veel ELO’s en particuliere sites iets soortgelijks, dan bedoel ik vragen die precies moeten matchen en dan bescheiden feedback, al zeer veel voorkomt. De originele slag is om het aan te wenden voor schrijfonderwijs. Daarom vrees ik dat het met dat idee erg makkelijk zal zijn om iets soortgelijks te maken, ook voor goedbedoelende amateurs. Sterker nog, uit eigen ervaring weet ik dat dit al volop gebeurt op VO scholen.

Overige hoofdstukken

De literatuur in hoofdstuk 2 is naar mijn mening onevenwichtig met 20 pagina’s die laten zien dat het schrijfonderwijs ondergewaardeerd werd en 3 pagina’s positief onderzoek erover. Of eigenlijk anders: dat het onderzoek naar het schrijfonderwijs niet op evidentie is gebaseerd (zie bijv. p. 33).  In mijn beleving doen de auteurs daarmee eigenlijk wat ik doe in deze blog: onderzoek methodologisch bekritiseren(al lijkt er soms een ondertoon in te zetten dat de desbetreffende onderzoekers in het verleden ook wilden dat schrijven er slecht van af zou komen). Het gevolg is weliswaar interessant leesmateriaal, maar ik vind het opvallend dat dergelijke kritiek op eigen werk vervolgens met vitriool beantwoord wordt. Ik denk dat het proefschrift aan kracht zou hebben gewonnen als dit hoofdstuk evenwichtiger was.

Wat me opviel in hoofdstuk 5 is dat er bij de beoordeling van de methodes, behoudens het opnieuw bekijken van 2 methodes door de medeauteur, geen gebruik wordt gemaakt van een onafhankelijke tweede beoordelaar. Ook valt het op dat de beoordeling gebruik maakt van de typen fouten; iets waar de auteurs zelf over zeiden dat er moeilijk conclusies over getrokken konden worden.

Hoofdstuk 7 koppelt de holistische beoordeling aan PHW voor zowel expert- als studentbeoordelaars. Een interessant hoofdstuk. Ook hoofdstuk 8 heeft een mooie reeks literatuur plus overzicht van meetmanieren voor schrijven en bevestigt nogmaals dat fouten PHW in een tekst correleert met de TAVAN score en de holistische beoordeling. Ook interessant, al zou ik wel voorzichtig zijn met causale conclusies, maar ook of ze daarmee even betrouwbaar zijn. Ook hoofdstuk 9, over betrouwbaarheid is interessant; vaak een onderwerp dat niet genoeg beschouwd wordt.

Samengevat

Dit onderzoek heeft veel losgemaakt en dat is knap. Het is goed dat er stevig onderzoek wordt gedaan naar iets wat beschouwd wordt als een belangrijke vaardigheid: het schrijven. In dat opzicht is het proefschrift een aanwinst. Ik vind met name de tweede helft vrij sterk. De eerste helft vind ik echter erg onnauwkeurig formuleren. Van de kritiek die ik las ging het meeste over de harde conclusies op basis van de steekproef. Ik post nogmaals:

Welnu, (i) zowel proefschrift als persbericht generaliseren met een stevige uitspraak, (ii) op basis van de steekproef (en grootte ervan) is er maar beperkte evidentie dat ‘Nederlandse eerstejaars studenten’ slecht zijn in schrijven, (iii) of het schrijfonderwijs faalt kan daarmee ook niet gezegd worden, behalve als men stelt ‘het moet 0 fout zijn’, (iv) de tool TAVAN vermindert het aantal fouten van 19 naar 15 per honderd woorden maar hoe veel beter dan ‘de oude situatie’ is lastig te zeggen omdat het gaat om een specifiek ander programma dat 11 uur minder schrijfonderwijs geniet.

Let wel, ik zeg NIET dat het schrijven van studenten misschien wel niet zo slecht *is*. Misschien wel. Ik verbaas me, op basis van mijn eigen ervaring, over gebrekkige schrijfvaardigheid van vele mensen. Het gaat simpelweg over het proefschrift dat hier voor ligt. Alle begrip dat je bij sociale wetenschap niet met alles rekening kunt houden; je kunt niet in alle steden voor alle opleidingen al het schrijfwerk beoordelen (alleen al: welke opdracht hebben ze allemaal gekregen?). Je maakt keuzes. Die keuzes rechtvaardig je. Tenslotte formuleer je conclusies en uitspraken die passen bij die evidentie. Daarbij hoef je jezelf niet weg te cijferen, maar simpelweg stellen ‘ze schrijven slecht en door TAVAN wordt het beter’ is naar mijn mening wel erg kort door de bocht. DAT was de aanleiding voor mijn reactie(s), niet meer en niet minder.

 

 

Categories
Education Research

Hoe een schrijfonderzoek de gemoederen bezig hield

On this blog I try to primarily write in English. However, in this case it makes more sense to write this lengthy post in Dutch, as it concerns a Dutch thesis (written in Dutch) that has caused a stir in the Netherlands.

awriteDeze blogpost zou eigenlijk helemaal niet geschreven worden. Na talloze reacties van een van de auteurs van het proefschrift -niet altijd naar tevredenheid maar het waren antwoorden- plus diverse stukjes in de media vond ik het eigenlijk wel best. Maar het bleef maar doorgaan, dat volharden in stellige uitspraken. Maar vooral ook: een opzienbarend proces. Dus toch maar twee blogposts. Deze gaat over het proces, een ander over het proefschrift zelf (en inhoudelijke antwoorden op die punten).

Eerst het proefschrift. Dat is hier te vinden. Het persbericht van 28 april 2014 hier. Wat opvalt in het persbericht, veelal de eerste kennismaking van de buitenwereld met een stuk schrijven, Twee zaken -waarvan later gezegd lijkt te worden dat de buitenwacht daar zich te veel op richtte- vielen meteen op: (i) het is slecht gesteld met de schrijfvaardigheid van eerstejaars hbostudenten en universitaire docenten, (ii) er is een softwareprogramma die schrijfvaardigheid verbetert. Er is door sommigen geopperd dat je ook niet op persberichten af moet gaan; het gaat immers om de inhoud, het proefschrift. Daarin staan echter even stellige uitspraken. Neem pagina 113:

Het is heel redelijk om je bij een dergelijke tekst of  persbericht af te vragen of een proefschrift voldoende basis biedt voor die conclusies. natuurlijk kun je simpelweg zeggen ‘anders had het nooit zijn geaccepteerd’ (dat zou later ook genoemd worden) maar gezien het grote aantal werken dat wel degelijk geaccepteerd wordt maar waar wel wat kanttekeningen bij te maken valt, is dat een weinig wetenschappelijke houding. Wat in ieder geval meteen in het oog springt is de relatief lage N. Iets wat de auteurs blijkbaar ook zien als iets wat bekritiseerd kan worden, anders neem je niet in een persbericht op dat “‘Het zijn kleine steekproeven, maar wel aselect getrokken. Voor ons doel zijn ze voldoende nauwkeurig.“.

Op 29 april 2014 las ik zelf voor het eerst over het onderzoek. Ondertussen begon de tamtam te lopen met meer berichten. De teneur steeds hetzelfde: schrijvaardigheid studenten slecht, en er is een tool die harstikke goed werkt. Dat laatste vond ik interessant omdat ik zelf gewerkt heb aan programma’s voor algebra en zelfs binnen die omgeving wat met schrijfopdrachten gewerkt heb. Aangezien ik enkele delen van het proefschrift ondertussen al had gelezen wees ik enkelen op de precieze formulering. Ik vroeg me af hoe de auteurs zo makkelijk generaliseerden.

Op 30 april twitterde ik het volkskrant artikel, en liet dat wederom gepaard gaan met opmerkingen over de steekproef. Er waren natuurlijk meer reacties dus ik weet niet in hoeverre het stuk dat vervolgens verscheen, op mij sloeg. Vast niet veel, want ik moet me niets verbeelden en de kritiek op de lage N klonk veelvuldig. Deze blogpost van een van de auteurs verscheen op 1 mei 2014. De strekking is helder: kritiek op de N komt neer op statistiek niet begrijpen. Nou staat er wel terecht in dat de steekproefgrootte niet per se zegt wat zegt over representativiteit. Klopt, ze hebben echter wel met elkaar te maken. Het stuk is ook wat tegenstrijdig, aangezien tegen het einde gezegd wordt dat studierichting, plaats enzovoorts wel degelijk een invloed *kunnen* hebben. Het wordt ietwat gebagatelliseerd door woordjes als “net ietsjes anders”. Naar mijn mening is het de taak van de schrijver om duidelijk te maken waarom de steekproef representatief is. Dat is, behalve een beroep op ‘aselect’ (dat dit niet zo is, zie de andere blogpost met inhoudelijke punten), niet gebeurd. Helder was de boodschap: ‘jullie begrijpen statistiek niet en ik kan best generaliseren naar Nederlandse eerstejaars studenten’ (dat staat in het proefschrift namelijk).

Het moge duidelijk zijn dat ik kritisch bleef. De eerste aanvaring op twitter was met een bekende van een van de auteurs. Ik had al eens zijdelings opgemerkt-na eerste lezing van de eerste hoofdstukken van het proefschrift- dat deze hoofdstuk twee wel zou kunnen waarderen.

Dat bleek ook het geval te zijn want deze zag hierin bevestiging van een eigen project op het vlak van rekenen (later zal blijken dat de auteur van het proefschrift dankbaar gebruik zal maken van die observatie om kritiek weg te verklaren). Ik zie OOK parallellen, bijvoorbeeld in onderscheid proces-product, maar dat betekent niet dat je andere punten niet meer kunt benoemen. Op twitter escaleerde het en ook op andere manieren is mij te verstaan gegeven dat “Pseudokritiek in de trant van belachelijk maken van n=30 zonder enig benul waar het eigenlijk over gaat, tast dat vertrouwen aan, is buitengewoon schadelijk, en moet bestreden worden.”. Alsjeblieft, en dat allemaal in 1 zin. Hier wordt getapt uit een vaatje dat later ook door een van de auteurs vaker gebruikt gaat worden: je hebt het niet gelezen of je snapt er gewoon niets van. Een van de auteurs van het proefschrift reageerde overigens zeer goed via twitter; het leek alleen alsof mijn punten niet aankwamen. Ook de positieve punten niet trouwens. Dat kan natuurlijk, niets aan de hand hoor.

En het ging door… in de Volkskrant verscheen een artikel WAAR/NIET WAAR. Er staan uitspraken in die best hard zijn. Die zijn voor rekening van diegenen die ze deden. Maar ook inhoudelijke punten ten aanzien van de steekproef en tekstlengte. Uiteraard weer een blogpost als reactie. Maar deze post is anders dan de eerder geposte. Daar heb ik nog een kopie van maar ik houd me aan de auteurswet 😉 De originele post bevatte een merkwaardige introductie over Galilei, Einstein en Hitler. Op mij kwam het over als een typering van twee soorten culturen waarbij sommige (briljante) mensen gekruisigd worden en op de brandstapel eindigen omdat anderen in hun absolute waarheid geloven. Ik kan alleen maar gissen hoe de schrijver dat bedoelde maar kies is anders. Gelukkig is een deel van die post nu verwijderd, en de rest (Galilei) naar het einde verplaatst. De teneur blijft dat deze empirische aanpak op basis van waarneming al eeuwen lang onder vuur ligt. Bij de wijzigingen in de post verdwenen ook de commentaren, van ondergetekende, maar ook van Carel Jansen over ter beschikking stellen van de data. Ondertussen zie ik dat heel veel van de post veranderd is. Soepel gaan weerleggingen van (mijn parafrasering) ‘niet gelezen’, ‘je bent baas van een instituut dat rekenen vernielde’, ‘onbenulligheid’ naar Galilei.

Laat ik duidelijk over de Volkskrant zijn: zoals later zal blijken valt er wel degelijk veel aan te merken over het proces dat de Volkskrant volgde in haar publicaties. Het persbericht had serieuzer bekeken moeten worden, wellicht was de rubriek WAAR/NIET WAAR er dan niet geweest en de hele circus er om heen ook niet. Maar daarom terug naar de inhoud: in het laatste stuk stelt zelfs de promotor dat generaliseren misschien wel lastig is. Zie:

Nou, daar ging het commentaar toch ook vooral over!

Ik snap werkelijk niet waarom de taal in het proefschrift dan niet wat ‘voorzichtiger’ was en al helemaal niet dat in de weken erna niemand heeft willen aangeven dat dit misschien wel verstandig zou zijn geweest. Hoe een simpele vraag leidt tot een waterval van reacties. Ja, inclusief deze blogpost. Terug naar het begin: ik heb me afgevraagd of het slim was om deze twee posts te schrijven; het kan immers olie op het vuur zijn. Ik deed het toch. Heb ik in ieder geval ‘closure’ 😉

 

Categories
Education Research

Unclear definition of MOOCs

moocIf I would write a blog post every time I do some positive or negative critique on Twitter I would have a day job doing it. It’s just too time-consuming to write them all the time. But recently, after a dialogue on the ALT mailing list, I think I need to write something on….. MOOCs again. It was sparked by a useless discussion on acronyms like MOOCs and SPOCs and what there purported differences are. I responded:

We need a MOCUA a Massive Online Course on Useless Acronyms.
Sorry. Got carried away there.

Then today I read a tweet on ‘research about MOOCs’. Yes, research would be great, but please don’t let it touch the -in my opinion- uninteresting field of xMOOCs and cMOOCs definitions (see this post where I wrote about it). And if you would construct a new framework then let it be a solid one with clear definitions. Needless to say the paper that was referenced (here) could perhaps have been better. Some comments:

  • No-one would argue that quality and learning are important but to me the paper feekfragmented sources were glued together.
  • The section with the history and background on MOOCs is ok, but far from new.
  • Then the main part of the paper starts, aimed at classifying MOOCs, and ending with a 12 dimension classification for MOOCs (note that there are typos in this paper, it says ten dimensions).  The 12 dimensions are: the degree of openness, the scale of participation (massification), the amount of use of multimedia, the amount of communication, the extent to which collaboration is included, the type of learner pathway (from learner centred to teacher-centred and highly structured), the level of quality assurance, the extent to which reflection is encouraged, the level of assessment,how informal or formal it is ,autonomy, and diversity. The paper then continues to exemplify the framework by categorizing five MOOCs.
  • The categories are far from clear:
    • Openness. What is meant by this. Further in the paper ‘open source’ and ‘creative commons’  are mentioned but looking at the CCK MOOC I see ‘Second Life’, Elluminate  and ‘uStream’ which aren’t open source as far as I know. Encouragement of sharing through creative commons is good, but is it open if you ‘just’  encourage. Another high scorer used Google Apps. And what is the role of Open Standards? Some courses score ‘medium’  but why. To me one of the courses (OE) seemed open, hosted on Canvas. (Another sloppy mistake here with Audacity instead of Udacity)
    • The massiveness seems more clear. I suspect it’s based on number of enrollments, but this is not explained clearly enough.
    • Use of multimedia: have instances been counted. What IS multimedia. An image? Movies? Video-conferencing? Is 10×1 minute movies just as much as 1×10 minutes?
    • Degree of communication. Forum posts? Are tweets communications? Blogs? One-way communication is communication as well (it seems so because reflective blogs further down the paper count).
    • Degree of collaboration. When are people collaborating? When they react on someone else’s forum posts? Or is more communication needed. Groupwork? Group products?
    • etc….
  • I feel these criteria are fairly arbitrary, if not in their selection, then in the way they are operationalized.
  • The paper suddenly ends with a ‘7C’s of Learning Design framework’. Conveniently 7C’s, no references, not rooted in evidence.
  • It also strikes me that many references are from blog posts. Now I fully understand that society is changing, and personally I welcome the fact that the web has so much to offer when it comes to (well written) blog posts. However, I am a bit skeptical when it comes to quoting numerous blog posts as ‘evidence’ for these developments.

In conclusion, I think ‘research’ is a bit too flattering term for a framework that’s not well defined and is not rooted in well established literature. But then again, I’m not a professor of course.