top100サイトのhtml集め

alexaから取ってきた"top-1m.csv.zip"から100個抜き出して"top100.txt"にして、下記を実行。
逐次処理だと遅いので6個まで並列処理をしておく。

#/bin/bash

for i in `cat top100.txt | perl -pe 's/\r\n/ /g'`
do
site=`echo $i | perl -pe 's/^\d+\,//g'`
dir_name=`echo $i | perl -pe 's/\,/_/g'`
#echo "site="$site"dir="$dir_name
mkdir $dir_name
cd $dir_name
#wget -rHkp -D$site $site
#wget -rkpq -l2 $site & 2> /dev/null
#wget -kpq $site & 2> /dev/null
wget -rkpq -l2 --quota=10m $site & 2> /dev/null
while [ `ps | grep wget | wc -l` -gt 5 ]
do
echo 'sleeping...'
sleep 5
done
cd - > /dev/null
done