BlueskyのAPI、第三者がAI学習のためにユーザーの投稿をスクレイピングできると物議

BlueskyのAPI、第三者がAI学習のためにユーザーの投稿をスクレイピングできると物議

0

Blueskeyは、ユーザーの投稿をAI学習に使用しないと宣言していますが、Blueskyが提供するオープンなAPIを使用すると、第三者が公開投稿をAI学習のために収集できることが明らかになり、ユーザーからの批判が高まっています。

Blueskeyは、ユーザーデータをAIトレーニングに使用しないと宣言していますが、Blueskyの提供するオープンなAPI(Firehose)により、第三者が自由にデータを収集できる状況が浮き彫りになりました。

404 Mediaのレポートによると、AI企業Hugging FaceのDaniel van Strien氏が、BlueskyのFirehose APIを通じて100万件の公開投稿を収集し、データセットを公開リポジトリにプッシュしました。この行動が物議を醸し、Daniel van Strien氏はデータを削除しました。

I've removed the Bluesky data from the repo. While I wanted to support tool development for the platform, I recognize this approach violated principles of transparency and consent in data collection. I apologize for this mistake.

[image or embed]

— Daniel van Strien (@danielvanstrien.bsky.social) 2024年11月27日 11:19

収集されたデータセットには、ユーザーの識別子(DID)も含まれており、トレーサビリティが高いものでした。

多くのユーザーが、自身の投稿が明示的な同意なくAI学習に使用されることに強く反発。Blueskeyが掲げる「ユーザーコンテンツの保護」という原則に反すると批判しています。

Blueskyは繰り返し「ユーザーデータで生成AIをトレーニングすることはありません」と述べています。

Brief update on our ongoing efforts to allow users to specify consent (or not) for AI training: 🧵

— Bluesky (@bsky.app) 2024年11月27日 10:52

We recently shared Bluesky’s stance on user data and AI training, which has not changed. Bluesky will not train generative AI on user data. bsky.app/profile/bsky...

[image or embed]

— Bluesky (@bsky.app) 2024年11月27日 10:58

「Blueskyは、インターネット上のウェブサイトと同様に、オープンでパブリックなソーシャルネットワークです。ウェブサイトはrobots.txtファイルを使用して、外部の企業がデータをクロールすることに同意するかを指定できます。私達は同様の方法を調査しています」

Bluesky is an open and public social network, much like websites on the Internet itself. Websites can specify whether they consent to outside companies crawling their data with a robots.txt file, and we’re investigating a similar practice here.

— Bluesky (@bsky.app) 2024年11月27日 11:05
「例えば、Blueskyのユーザーが、外部の開発者がAIのトレーニングデータセットに自分のコンテンツを使用することに同意するかどうかを指定できるような設定です。Blueskyは、当社のシステムの外部でこの同意を強制することはできません。 これらの設定を尊重するかどうかは、外部の開発者次第です。」

For example, this might look like a setting that allows Bluesky users to specify whether they consent to outside developers using their content in AI training datasetsBluesky won’t be able to enforce this consent outside of our systems. It will be up to outside developers to respect these settings

— Bluesky (@bsky.app) 2024年11月27日 11:11

「現在、エンジニアや弁護士と話し合いを続けており、近日中に最新情報をお伝えできると思います」と投稿しています。

We’re having ongoing conversations with engineers & lawyers and we hope to have more updates to share on this shortly!

— Bluesky (@bsky.app) 2024年11月27日 11:18