プログラマーにとって、GitHubは自分のコードを保管する「金庫」のような存在です。そのGitHubが、金庫の中身をAIの学習材料として使うと宣言しました。「GitHubが方針転換、やはりユーザーデータでAIを訓練すると発表」とThe Register誌が報じたところによると、MicrosoftのGitHubは2026年4月24日から、AIコーディング支援ツールGitHub CopilotのユーザーデータをAIモデルの学習に使用する方針を発表しました。開発者コミュニティからは強い反発の声が上がっています。
何が変わるのか
これまでGitHubは、Copilotの利用データをAIモデルの改善に使わない方針を取っていました。しかし今回の変更により、4月24日以降はデフォルトでデータが学習に使われるようになります。
収集される「インタラクションデータ」の範囲は広範です。
- Copilotへの入力と出力(プロンプトと生成コード)
- ユーザーが採用・修正したコードの断片
- コードの前後のコンテキスト情報
- コメントやドキュメント
- ファイル名やリポジトリの構造
- 高評価・低評価のフィードバック
つまり、開発者がCopilotを使って書いたコードのほぼ全てが学習対象になる可能性があります。
「プライベート」の意味が変わる
特に議論を呼んでいるのが、プライベートリポジトリの扱いです。GitHub側は「保存されているプライベートリポジトリの中身を学習に使うことはない」と説明していますが、Copilotを使用中にプライベートリポジトリのコードが入力や出力として流れた場合、そのデータは収集対象となります。
The Register誌はこの点について「プライベートリポジトリからのコード断片が収集される可能性があり、『プライベート』の意味が事実上変わる」と指摘しています。企業の機密コードやまだ公開前のプロジェクトに携わる開発者にとって、見過ごせない問題です。
対象ユーザーとオプトアウト方法
今回の変更が適用されるのは、Copilot Free、Pro、Pro+のユーザーです。法人向けのCopilot BusinessやEnterprise、学生・教師アカウントは対象外です。
データ収集を拒否したい場合は、GitHubの設定画面(/settings/copilot/features)から「Allow GitHub to use my data for AI model training」をオフにすることでオプトアウトできます。以前にデータ収集を拒否する設定をしていたユーザーの選択は維持されます。
ただし、これはアメリカ式の「拒否しなければ同意」というオプトアウト方式です。EUのGDPRが求める「明示的に同意した場合のみ使用する」オプトイン方式とは異なり、気づかないうちにデータが使われるリスクがあります。
記者の視点:「無料」の本当のコスト
GitHubの公式ブログでは、今回の変更について「モデルの性能向上とユーザー体験の改善のため」と説明しています。しかし、コミュニティの反応は厳しいものでした。GitHubのディスカッションでは、39件のコメントに対して反対票が59、賛成票がわずか3という圧倒的な拒否反応を示しています。
この動きは、テック業界で繰り返されてきたパターンの一つです。無料または安価なサービスでユーザーを集め、十分な規模に達したところでデータの利用範囲を拡大する。ユーザーにとっての「無料」の対価が、自分のコードという知的資産であるとすれば、その取引は本当にフェアなのでしょうか。
開発者が今すぐできること
4月24日の適用開始まで約1か月あります。Copilotを利用している開発者は、まず自分の設定を確認し、データ収集の可否を意識的に選択することが重要です。また、機密性の高いプロジェクトでCopilotを使用する際には、どのようなデータが外部に送信されるのかを改めて把握しておく必要があります。AIツールの利便性と、コードの機密性のバランスは、これからの開発者にとって避けて通れないテーマになりそうです。
