そういえば自作コーパス

先日の電子辞書研究会である先生が「perl スクリプトを使って CNN transcripts をダウンロードすればあっという間に個人でもコーパスができるよ」なんて話をしていたが,1億語ぐらいになるそうだ。3日から1週間ぐらいダウンロードしつづけなきゃいけないらしい。何百万語どころの話じゃないけど,「解析しようとしたら途中で止まってしまいました」だって。そういう気楽な発表もあったということで。