Language chunks to ease language activation

Ask specific questions about your target languages. Beginner questions welcome!
User avatar
tommus
Blue Belt
Posts: 957
Joined: Sat Jul 04, 2015 3:59 pm
Location: Kingston, ON, Canada
Languages: English (N), French (B2), Dutch (B2)
x 1937

Re: Language chunks to ease language activation

Postby tommus » Sat Apr 01, 2017 2:19 pm

Cainntear wrote:The reason we talk about chunking is exactly that limit of 7 things at a time.

I ran my "chunking" program for 7-word chunks to see what that would look like. It was on the 2 million words of Dutch news. There was a surprising number of 7-word chunks occurring 4 or more times. The news included the weather forecast which tends to have repetitive phrases and the weather did dominate.

I relaxed the word length from 4 letters down to 2 letters to allow for connecting words, etc. In some languages, it might be better to go down to 1-letter words to include for example, "I" in English and "U" in Dutch which would occur in useful chunks.

Amongst the 7-letter chunks, there are very obvious recurring patterns which would be useful for language learners to note and remember. Many of these should not pose much problem to memorize, and would probably be a lot more useful than individual words. Here is a relatively long list of the 60 7-word expressions, which I think is useful to see the repetition and the patterns.

14 het is niet de eerste keer dat
11 in een groot deel van het land
9 in de loop van de nacht wordt
8 de loop van de nacht wordt het
8 het is niet voor het eerst dat
8 is het op de meeste plaatsen droog
7 in de loop van de dag komt
7 morgen in de loop van de dag
7 om een einde te maken aan de
7 op de meeste plaatsen blijft het droog
7 vooral in het zuiden van het land
6 de loop van de dag neemt de
6 de straat op om te demonstreren tegen
6 het heeft te maken met een lagedrukgebied
6 het koelt af naar een graad of
6 het vertrek van de britten uit de
6 het ziet er niet naar uit dat
6 in de loop van de dag neemt
6 in de nacht van zaterdag op zondag
6 in het oosten van het land is
6 in het zuiden van europa is het
6 loop van de dag neemt de bewolking
6 vooral in het noorden van het land
6 we hebben te maken met een hogedrukgebied
6 we hebben te maken met een lagedrukgebied
5 aan de andere kant van de grens
5 de loop van de dag wordt het
5 de politie houdt er rekening mee dat
5 het is nog maar de vraag of
5 het is voor het eerst dat een
5 het koelt af tot een graad of
5 het noorden en oosten van het land
5 ik denk dat het goed is om
5 in de loop van de dag gaat
5 in de loop van de dag wordt
5 in de nacht van donderdag op vrijdag
5 in de rest van het land is
5 maar in de loop van de dag
5 maar in de loop van de nacht
5 van de dag neemt de bewolking toe
5 van de hoofdverdachten van de aanslagen in
4 dat er niets aan de hand is
4 dat is goed te zien op de
4 de loop van de dag komt er
4 de oorzaak van het ongeluk is nog
4 een aanslag in het centrum van de
4 een hogedrukgebied bij ons in de buurt
4 ik denk dat het belangrijk is dat
4 in de eerste helft van dit jaar
4 in de loop van de middag gaat
4 in de loop van de nacht gaat
4 in de tweede helft van de nacht
4 in de westelijke helft van het land
4 is niet de eerste keer dat er
4 je moet er niet aan denken dat
4 niet van plan om op te stappen
4 te geloven dat het niet anders kon
4 wil dat er een einde komt aan
4 zegt er alles aan te doen om
4 aan de andere kant van de wereld
4 x
Dutch: 01 September -> 31 December 2020
Watch 1000 Dutch TV Series Videos : 40 / 1000

User avatar
tommus
Blue Belt
Posts: 957
Joined: Sat Jul 04, 2015 3:59 pm
Location: Kingston, ON, Canada
Languages: English (N), French (B2), Dutch (B2)
x 1937

Re: Language chunks to ease language activation

Postby tommus » Sat Apr 01, 2017 2:31 pm

jeffers wrote:The only problem with your solution is restricting it two words of at least 3 letters (evidently to cut down processing time). I imagine a high proportion of interesting word groups contain words of one and two letters .

I agree. I changed it to 2-letters for the 7-word chunks that I just tried. I can easily do it for 1-letter words.

When I started building this program, I envisioned taking each chunk (say 3 words, numbers 1, 2, 3), starting at the beginning and searching every 3-word set (incrementing by 1-word each time) for the rest of the text. Then choosing words 2,3,4 and repeating the full search. However, that is not required. I simply look through the entire text only once, keeping track of the number of times the 3-words occur in succession. So the processing time is only a few seconds, even for 2 million words.
1 x
Dutch: 01 September -> 31 December 2020
Watch 1000 Dutch TV Series Videos : 40 / 1000

User avatar
reineke
Black Belt - 3rd Dan
Posts: 3570
Joined: Wed Jan 06, 2016 7:34 pm
Languages: Fox (C4)
Language Log: https://forum.language-learners.org/vie ... =15&t=6979
x 6554

Re: Language chunks to ease language activation

Postby reineke » Sat Apr 01, 2017 3:43 pm

---
Last edited by reineke on Fri Dec 27, 2019 3:12 am, edited 3 times in total.
2 x

Cainntear
Black Belt - 3rd Dan
Posts: 3468
Joined: Thu Jul 30, 2015 11:04 am
Location: Scotland
Languages: English(N)
Advanced: French,Spanish, Scottish Gaelic
Intermediate: Italian, Catalan, Corsican
Basic: Welsh
Dabbling: Polish, Russian etc
x 8659
Contact:

Re: Language chunks to ease language activation

Postby Cainntear » Sat Apr 01, 2017 5:39 pm

tommus wrote:
Cainntear wrote:The reason we talk about chunking is exactly that limit of 7 things at a time.

I ran my "chunking" program for 7-word chunks to see what that would look like. It was on the 2 million words of Dutch news. There was a surprising number of 7-word chunks occurring 4 or more times. The news included the weather forecast which tends to have repetitive phrases and the weather did dominate.

If you look closely, you'll find that some of those show layers of chunking:

For example:
((het is niet (de eerste keer)) dat)
"de eerste keer" is likely to appear often as a three word chunk in several other settings (for the first time, since the first time) and the phrase "it is not the first time" is also a chunk containing that chunk. The conjunction "that" arguably doesn't count as a word within the chunk because it's a grammatically regular use of a conjunction, and therefore doesn't need to be "remembered" at all.

Then we've got chunks that look like they might class as "semi-fixed":
we hebben te maken met een hogedrukgebied
we hebben te maken met een lagedrukgebied
That's the same construction with one noun different, but both nouns are grammatically similar, judging from the suffixes.

in de loop van de nacht wordt
de loop van de nacht wordt het
in de loop van de dag komt
in de loop van de middag gaat
in de loop van de nacht gaat
de loop van de dag neemt de
Again here we have patterns that recur but with different content.

This is why I reckon that chunks, however important they are, can only ever be part of the story, and too many proponents of chunked language keep trying to suggest that we shouldn't look at grammar and individual lexis at all, only chunks.
1 x

Daniel N.
Green Belt
Posts: 357
Joined: Mon Oct 12, 2015 12:44 pm
Languages: Croatian (N), English (C1), German (beginner)
x 733
Contact:

Re: Language chunks to ease language activation

Postby Daniel N. » Wed Apr 05, 2017 1:08 pm

I would like to draw attention to the construction grammar, where everything in language is basically the same thing, a construction. Past tense is one construction, widely used, while English the + comparative, the + comparative (e.g. the faster, the better) is another construction, just less often used.

Instead of chunks, maybe a better concept would be "small templates", that is, chunks where it's clear what's variable, and what isn't.
1 x
Check Easy Croatian (very useful for Bosnian, Montenegrin and Serbian as well)


Return to “Practical Questions and Advice”

Who is online

Users browsing this forum: No registered users and 2 guests