linkchecker リンク切れをチェックする。http://wummel.github.io/linkchecker/

端末叩くほうが効率が良いと思った日。最高気温予測38度の大阪にて。

リンク切れとなっている「ページ」はだいたい「404 Not Found」と表示されます。ブログでもなんでも小さなサイトでも、サイトを運営していれば定期的にリンク切れないかチェックしておく必要がありますが、めんどうなんですよね。当方も年に一度やればいいほうです。ブログなどで自動化された仕組みであっても、自分が書き換えてしまったらだめですからね。そこは注意でしょうか。

いくつか、Webサービスのものも含めて、不良リンクを探してくれるツールを使ってみました。当方は、Python2で書かれた以下を使うことに決めました。以前は慣れたwgetを使っていたのですが、下記ツールが示してくれる「Parent URL (つまりダメなリンクが書かれているページ)」を抽出してくれないので、手間なんですよね。

http://wummel.github.io/linkchecker/

インストールします。ArchLinux系(manjaro)で、Linkcheck とpamacで入力してでてきたのチェックします。GUIは動作しませんでした。
Manjaroの場合


Windowsでも使えるようです。WSLなら確実かと思います。

新規端末 CTRL+ALT+T

使い方の基本 コマンド URL  

$ linkchecker https://poor-user.blogspot.com/

画面と同時に テキストに保存されていきます。
$ linkchecker https://poor-user.blogspot.com/ | tee myblog.txt
直後に、このテキストを使います。スクロールバックでも良いですが。

404を訂正します。その前に見つけましょう。大量にある場合はスクロールはつらいので。

$ grep -B 5 'Result     Error: 404 Not Foundmyblog.txt

これでカンタンですね。結果的に不良404チームのブロック毎に、表示されますから、楽勝です。これは今エアプレイでして、実際にこのブログには現在リンク切れなどがありません。

ヒットしたら、上5行を表示するというgrepコマンドです。オプションは適宜触ってみてください。このままで困らないとは思います。

表示がなければ、404エラーはないということです。Unixコマンドは「便りがないのはよい便り哲学」で出来ています。この場合もだいたい合ってるかも。


404 の場合、リンク作成ミスなので、訂正します。

URL        `https://poor-user.blogspot.com/2018/06/eac-wavapetakttaflaccue-flac2.html'
Name       `EACやそのケーススタディ(2)'
Parent URL https://poor-user.blogspot.com/2018/, line 1651, col 39
Real URL   https://poor-user.blogspot.com/2018/06/eac-wavapetakttaflaccue-flac2.html
Check time 0.493 seconds
Result     Error: 404 Not Found
10 threads active,   261 links queued, 2162 links in 2433 URLs checked, runtime 56 seconds
    Parent URL 誤記リンクが書かれているページ
    Real URL   誤記リンクそのもの
ですから、
◎ Parent URLを開いて、
◎ Real URL   誤記リンクそのものを訂正します。

手作業。機械的に生成した場合今時ミスはないので、だいたい人間が編集した場合ですよね。


Namida Zone :: 神々は細部に宿る――涙とともに、夜な夜なパンをかじった。

Grub2をめぐるあれこれ。テーマ、背景、フォント。それが Cute Grub 計画

No Copyright Girl / ノーコピーライトガール Grubと戯れるという意味のない日常:: Cute Grub 計画 コンピューターの電源オン後、 OS オペレーティングシステムを起動するためのブートローダーが先ず動きだす――ほぼすべてのLinux...