インターネットは世界をつなぐが、「デジタル格差」は依然として存在する。この格差は、単なる接続環境だけでなく、私たちが日常的に利用するWebサイトのあり方にも影響を与えているのだろうか?ドイツのCISPAヘルムホルツ情報セキュリティセンターの研究者たちが、先進国と発展途上国、合わせて20カ国、20万ものWebサイトを比較分析した大規模調査の結果を発表した。その結果からは、途上国のWebサイトは一般的にシンプルである一方、パフォーマンスやセキュリティに関して、予想外の傾向が明らかになった。
デジタル格差はWebサイトにも及ぶのか?
インターネットの普及率は世界的に向上しているものの、国や地域の経済状況によって大きな差があることは広く知られている。国際電気通信連合(ITU)と世界銀行の2023年のデータによれば、先進国では人口の93%がインターネットを利用しているのに対し、開発途上国ではその割合は60%にとどまる。
さらに、利用形態にも違いがある。途上国では、固定ブロードバンド回線の普及が限られていることやコストの問題から、モバイルインターネットへの依存度が高い傾向にある。また、「リープフロッギング」と呼ばれる現象、すなわち技術開発の段階を一足飛びに進める可能性も指摘されてきた。例えば、古い技術基盤を持たないために、最新のWeb技術をより早く導入できるのではないか、という期待である。
これまで、デジタル格差に関する研究の多くは、インターネット普及率やスマートフォンの利用率といったマクロレベルの指標に焦点を当ててきた。しかし、「先進国と途上国のWebサイト自体に、具体的にどのような違いがあるのか?」という問いに大規模データで答えた研究は不足していた。CISPAの研究チームは、このギャップを埋めるべく、Webサイトの設計や実装、セキュリティ対策などの微視的な側面に光を当てたのである。
20カ国20万サイトを徹底分析:調査手法の詳細
この研究の最大の特徴は、その規模と網羅性にある。研究チームは、国際通貨基金(IMF)の分類に基づき、人口が最も多い先進国10カ国(米国、日本、ドイツ、フランス、英国、イタリア、韓国、スペイン、カナダ、オーストラリア)と、同じく人口が最も多い途上国10カ国(中国、インド、パキスタン、ブラジル、ナイジェリア、バングラデシュ、ロシア、メキシコ、フィリピン)を選定した。
当初、途上国10番目の人口を持つエチオピアが含まれる予定だったが、調査に必要な基準を満たす十分な数のWebサイト(各国上位1万サイト)を特定できなかったため、代わりにフィリピンが選ばれた。Webサイトの国への割り当ては、国別コードトップレベルドメイン(ccTLD、例:.de)を使用しているか、WHOIS情報から国を特定できる住所が記載されているかに基づいて行われた。
合計20万のWebサイト(各国1万サイト)の分析には、Google LighthouseとPuppeteerというツールが用いられた。LighthouseはWebサイトのパフォーマンスやアクセシビリティなどを監査するツールであり、PuppeteerはWebページの操作やネットワーク情報の取得を自動化するライブラリである。これにより、以下の多岐にわたる項目について詳細なデータが収集された。
- Webサイトのサイズと複雑性: ページ全体のサイズ、HTTPリクエスト数、マルチメディア(画像など)の使用状況、JavaScript(JS)の量、DOM(Document Object Model)要素数など。
- パフォーマンス最適化: 画像フォーマットの効率性、不要なJSやCSSコードの存在、レスポンシブデザインの有無など。
- セキュリティ対策: HTTPS(暗号化通信)の使用状況、古いライブラリや脆弱性のあるライブラリの使用、CSP(Content Security Policy)の実装状況など。
- プライバシー: トラッキングスクリプトやサードパーティCookieの使用状況。
- 技術採用: HTTP/2やHTTP/3といった最新プロトコルの採用率、モダンなWeb APIの利用状況。
- アクセシビリティ: WCAG(Web Content Accessibility Guidelines)への準拠状況。
【発見1】サイズと複雑性:途上国Webサイトは「軽量・シンプル」
調査の結果、まず明らかになったのは、Webサイトのサイズと複雑性に関する傾向である。
- 全体サイズとリクエスト数: 途上国のWebサイトは、先進国のサイトと比較して、全体的にサイズが小さく、読み込みに必要なリクエスト数も少ない傾向が見られた。具体的には、中央値で比較すると、途上国サイトのサイズは2.99MB、リクエスト数は89であるのに対し、先進国サイトではそれぞれ3.35MB、108リクエストであった。これは、途上国で一般的な低速なモバイルネットワーク環境に適応した結果である可能性が示唆される。
- リソースタイプ別: しかし、ページサイズに占めるリソースの内訳を見ると、興味深い違いがある。途上国のWebサイトでは、帯域幅の多くが画像に割り当てられている(48%〜57%)。一方、先進国(例:米国28.8%、英国36.3%)では、その割合は40%未満であることが多い。これは、途上国サイトの方が画像リクエスト数が多いのではなく、より大きなサイズの画像ファイルを使用している傾向があることを示している。
- JavaScriptとDOM: Webサイトのインタラクティブ性や動的な機能を実現するJavaScriptの使用量や、ページの構造を示すDOM要素数も、先進国サイトの方が多い傾向にあった。JSサイズの中央値は先進国725KBに対し途上国546KB、JSリクエスト数の中央値は21に対し18であった。DOM要素数の中央値も、先進国969に対し途上国633と、明確な差が見られた。これは、先進国サイトの方がよりリッチで複雑なユーザーインターフェースを提供していることを示唆している。
総じて、途上国のWebサイトは「軽量・シンプル」な構造を持つ傾向があると言える。これはモバイル環境への適応という側面がある一方で、機能面では先進国サイトに比べて限定的である可能性を示している。
【発見2】パフォーマンス:軽量だが「非効率」な側面も
Webサイトが軽量であることは、特にネットワーク環境が脆弱な地域では利点となるはずである。しかし、調査では途上国のWebサイトにおけるパフォーマンス上の非効率性も明らかになった。
- 画像最適化の遅れ: 最新の画像フォーマットであるWebPやAVIFは、従来のJPEGやPNGよりも圧縮効率が高く、画質を維持したままファイルサイズを削減できるため、Webパフォーマンス向上に不可欠である。しかし、これらの最新フォーマットの採用率は、途上国で低い傾向が見られた。例えば、米国サイトでは約37%がモダンフォーマットを使用しているのに対し、インドでは約28%、ナイジェリアでは約24%にとどまる。さらに、画像が必要以上に大きいサイズで表示されていることによる「圧縮の無駄」も、途上国サイトで大きい傾向にあった。インドでは中央値で55%、バングラデシュでは75%もの画像データが無駄になっている可能性が指摘されている。
- 未使用コードの蔓延: ダウンロード・解析されるものの、実際には実行されないJavaScriptやCSSコード(未使用コード)は、パフォーマンス低下の大きな要因となる。驚くべきことに、この問題は世界的に蔓延しており、調査対象となった全サイトで平均55%のJS、91%以上のCSSルールが未使用であった。特に途上国ではこの傾向が顕著で、バングラデシュではJSコードの99.68%、パキスタンやバングラデシュではCSSルールの95%以上が未使用という深刻な状況が見られた。これは、既製のライブラリやフレームワークをそのまま利用したり、古いコードが整理されないまま残存したりすることが原因と考えられる。
- ユーザー体感速度: 実際のユーザー体験に近い指標であるLCP(Largest Contentful Paint:主要コンテンツが表示されるまでの時間)を比較すると、やはり途上国のユーザーはWebサイトの表示速度が遅い傾向にあることが確認された。Googleが「Poor(遅い)」と分類する読み込み時間(4秒以上)を経験したモバイルアクセスの割合は、途上国のWebサイトの方が高い。
これらの結果は、途上国のWebサイトがサイズこそ小さいものの、最適化技術の導入や開発プラクティスの面で課題を抱えていることを示唆している。リソースが限られた環境のユーザーにとっては、こうした非効率性がアクセス時のデータコスト増や表示遅延といった形で、より大きな負担となる可能性がある。
【発見3】セキュリティ:「先進国」Webサイトに潜む意外なリスク
セキュリティ対策においては、一般的に先進国の方が進んでいると考えられがちだ。しかし、今回の調査結果は、必ずしもそうとは言えない複雑な実態を明らかにしている。
- HTTPS採用率: 通信を暗号化し、盗聴や改ざんを防ぐHTTPSの採用率は、先進国の方が高い(95%)。一方、途上国では88%にとどまり、特にバングラデシュ(約75%)や中国(約80%)では依然として多くのサイトが暗号化されていないHTTPを使用している。これは基本的なセキュリティ対策の遅れであり、ユーザーをリスクに晒す可能性がある。
- CSP導入率の低迷: クロスサイトスクリプティング(XSS)などの攻撃を防ぐための重要な仕組みであるCSP(Content Security Policy)については、驚くほど導入が進んでいない。先進国サイトの75%、途上国サイトに至っては81.5%がCSPを導入しておらず、導入している場合でも効果的でない設定が多いことが判明した。これは世界共通の課題と言える。
- 脆弱なライブラリ: 意外なことに、深刻なセキュリティ脆弱性を持つJavaScriptライブラリの使用率は、先進国のWebサイトの方が高い傾向が見られた。研究チームは、先進国サイトがより多くのJSライブラリやフレームワークに依存していることが一因ではないかと分析している。機能性を高めるために導入されたライブラリが、結果として攻撃対象領域(アタックサーフェス)を広げてしまっている可能性がある。
- 古いライブラリの利用: 脆弱性が修正された新しいバージョンへのアップデートを怠り、古いライブラリを使い続けることもセキュリティリスクを高める。この問題も世界的に蔓延しており、特に韓国では94%ものサイトが古いライブラリを使用していることが明らかになった。
これらの結果は、セキュリティ対策の普及状況が地域によって異なる一方で、Webサイトの複雑化が進む先進国特有のリスクも存在することを示唆している。
【発見4】プライバシー:トラッカー利用は「先進国」で活発
ユーザーの行動を追跡し、ターゲティング広告などに利用されるトラッカーやサードパーティCookie。プライバシーへの懸念が高まる中、その利用状況にも地域差が見られた。
- トラッカー数: 驚くべきことに、GDPR(EU一般データ保護規則)のような厳しいプライバシー規制が存在する先進国の方が、途上国よりも多くのトラッカーを使用している傾向が明らかになった。先進国サイトでは平均9個のトラッカーが使われているのに対し、途上国サイトでは平均6個であった。ドイツでは70.86%、英国では93.07%、オーストラリアでは92.06%のサイトがトラッカーを使用している。
- 背景: これは、先進国において、より洗練された広告技術やデータ駆動型のビジネスモデルが普及しているためと考えられる。厳しい規制下でも、ユーザーの同意を得るなどのメカニズムを通じて、トラッキングが広く行われている実態がうかがえる。
- サードパーティCookie: ブラウザによる制限強化の影響もあり、サードパーティCookieの利用は全体的に減少傾向にあるものの、ロシアのWebサイトでは突出して利用率が高い(トラッカー数の中央値17、サイトの86%がサードパーティCookieを使用)。これは、データ駆動型広告への強い依存と、比較的緩やかなプライバシー規制が背景にあると推測される。
プライバシー保護の規制強化が進む中でも、特に先進国を中心に、ユーザーデータの収集・活用がビジネス上重要な位置を占めていることが示唆された。
【発見5】技術採用:「リープフロッグ」は限定的か?
途上国が最新技術を積極的に導入する「リープフロッグ」現象は、Web技術の採用においても期待されていた。しかし、調査結果は、その傾向が限定的である可能性を示唆している。
- 最新HTTPプロトコル: パフォーマンスとセキュリティを向上させるHTTP/2やHTTP/3といった新しいプロトコルの採用状況を見ると、必ずしも先進国が先行しているわけではなかった。例えば、ナイジェリアやパキスタンでは、米国よりも高い割合でこれらのプロトコルが採用されているケースが見られた。
- Web API: セキュリティやプライバシーに関連する重要なWeb API(例:Web Cryptography API, Encrypted Media Extensions)の採用状況を見ても、先進国と途上国の間で一貫した大きな差は見られなかった。例えば、Web Cryptography APIの利用は、ロシアのサイトが米国のサイトを上回っていた。
これらの結果は、途上国においても最新技術の導入が進んでいる側面があることを示している。レガシーシステムが少ないことが、かえって新しい技術の導入を容易にしている可能性も考えられる。Web技術の採用状況は、「先進国 vs 途上国」という単純な二分法では捉えきれない、より複雑な様相を呈していると言えるだろう。
【発見6】アクセスしやすさ:経済性と情報保障の課題
Webサイトへのアクセスしやすさには、経済的な側面(アフォーダビリティ)と情報保障の側面(アクセシビリティ)がある。
- アフォーダビリティ (PAW Index): 研究チームは、各国の平均的なWebサイトサイズとモバイルブロードバンド料金、国民所得を考慮して、Webアクセスの手頃さを示す「PAW Index(価格調整後アクセス指標)」を算出した。値が1以下であれば手頃とされるが、多くの国でこの基準を満たす一方で、途上国の一部、特にパキスタン(1.14)、ナイジェリア(1.04)、バングラデシュ(1.19)、フィリピン(1.54)では値が1を超え、Webアクセスが経済的に大きな負担となっている可能性が示された。これは、比較的大きなWebサイトサイズと高額なデータ通信料の組み合わせが原因と考えられる。
- アクセシビリティ: 高齢者や障害を持つ人々を含む、誰もがWebサイトを利用できるようにするための配慮、すなわちWebアクセシビリティについては、経済状況に関わらず世界共通の課題であることが明らかになった。Google Lighthouseによる評価では、アクセシビリティ違反の中央値は多くの国で4〜5と比較的安定していたが、最大違反数にはばらつきが見られた(バングラデシュ14、韓国13など)。これは、アクセシビリティ確保が、特定の国の技術的・経済的な問題というよりは、開発者の意識や優先順位付けといった、より普遍的な課題であることを示唆している。WCAG(Web Content Accessibility Guidelines)への準拠は、インクルーシブな社会を実現する上で不可欠である。
デジタル格差下のWebの多様な実態
CISPAによるこの大規模調査は、先進国と途上国のWebサイトに関する通説に疑問を投げかけ、デジタル格差下のWeb開発の多様で複雑な実態を浮き彫りにした。
研究者を驚かせたのは、予想されていたほど両グループ間の差異が大きくなかった点である。むしろ、グループ内の国ごとの違いの方が大きいケースも見られた。「単一の大きな違いは見つからなかった」と研究者のMasudul Bhuiyan氏は述べている。
主な発見のまとめ:
- 途上国サイト: 軽量・シンプルだが、画像最適化や未使用コード削除といったパフォーマンスチューニングが不十分な傾向。HTTPS採用率も低い。モバイル環境への適応と最適化不足のジレンマを抱える。
- 先進国サイト: より複雑で高機能だが、その分、脆弱なライブラリの使用など、セキュリティリスクも高まる傾向。トラッカー利用も活発。高機能化とセキュリティ・プライバシーリスクのトレードオフに直面。
- 共通の課題: CSPの導入率の低さやアクセシビリティ確保は、経済状況に関わらず世界的な課題。
この研究の大きな成果の一つは、20万サイトに及ぶ詳細なデータセットを構築し、研究コミュニティに公開したことである。特に、これまでITセキュリティ研究の焦点が当たりにくかったナイジェリア、バングラデシュ、フィリピンといった国のWebサイトデータが含まれている点は貴重であり、今後のさらなる研究を促進することが期待される。データセットは開発者プラットフォームGitHubで公開されており、誰でもアクセスが可能だ。
Bhuiyan氏は今後の研究として、特に南アジア(インド、パキスタン、バングラデシュ)に注目している。これらの国々では多くのWebサイトが英語で提供されているが、英語を話せる人口は限られている。言語の壁がWebサイトのアクセシビリティや、セキュリティ警告の理解・対処にどのような影響を与えているかを調査し、「インターネットを可能な限りインクルーシブにする」という目標に向けた研究を続ける意向だ。
デジタル格差は単なる接続性の問題ではなく、Webサイトの設計思想、パフォーマンス、セキュリティ、そして最終的にはユーザー体験そのものに、複雑な形で影響を及ぼしている。この調査結果は、より公平でアクセスしやすいインターネットの未来を考える上で、重要な示唆を与えてくれる。
論文
参考文献