top100サイトのhtml集め
alexaから取ってきた"top-1m.csv.zip"から100個抜き出して"top100.txt"にして、下記を実行。
逐次処理だと遅いので6個まで並列処理をしておく。
#/bin/bash for i in `cat top100.txt | perl -pe 's/\r\n/ /g'` do site=`echo $i | perl -pe 's/^\d+\,//g'` dir_name=`echo $i | perl -pe 's/\,/_/g'` #echo "site="$site"dir="$dir_name mkdir $dir_name cd $dir_name #wget -rHkp -D$site $site #wget -rkpq -l2 $site & 2> /dev/null #wget -kpq $site & 2> /dev/null wget -rkpq -l2 --quota=10m $site & 2> /dev/null while [ `ps | grep wget | wc -l` -gt 5 ] do echo 'sleeping...' sleep 5 done cd - > /dev/null done