ブログ記事48件
トレーニングデータセットLAION-5BはStableDiffusion他多くの画像生成モデルに使用されていることで知られています。研究用に作られた製品を商用利用したため、NSFWコンテンツが生成され、CSAMや医療画像等違法性のあるデータが見つかり、一部を削除してRe-LAION5Bとして再公開されました。2022年に海外で問題になり、オプトアウト要請、データの削除が始まっていました。私はSNSを通してその問題を知りました。Haveibeentrained?というサイトで中のデータ
LAION-5Bからのオプトアウトについて誤解があるようですので説明しておきます。2022年、ジョーダン・マイヤーとマシュー・ドライハーストがスタートアップ企業SpawningAIを共同設立しました。LAIONとは別の独立した企業です。倫理的な生成AIモデルの構築、クリエイターが自分の作品をどこでどう使われるかコントロールできるようにすることを目標としています。SpawningwantstobuildmoreethicalAItrainingdatasets|
前の記事で巨大データセットLAION-5Bを検索する方法と、オプトアウト(学習から除外)申請する方法を書きました。『画像の削除は意味があります』Xの過去の画像を削除したユーザーに対して、自作証明ができなくなるから削除すべきでないという人がいますが、アーカイブをDLしておけば証明できます。作成には1日程…ameblo.jp説明が足りなかったので補足します。Haveibeentrained.comは2022年12月からオプトアウト機能が利用できるようになり多くのアーティストが申請してきま
Xの過去の画像を削除したユーザーに対して、自作証明ができなくなるから削除すべきでないという人がいますが、アーカイブをDLしておけば証明できます。作成には1日程度かかります。何これ便利!X(旧Twitter)の過去ツイートデータをダウンロードする方法-Swingin'Thinkin'過去ツイートが1画面に爆速で表示!検索・並び替え機能あって便利です。画像、動画、DM、いいねした他人のツイートも保存されます。swinginthinkin.com私の場合は昔からXより先にブログやH
有料のFANBOXやFantia、Patreonなどからイラストを無断転載しているKemono.Partyが更新停止、閲覧できなくなっており閉鎖されたのではないか、という記事を見ました。【2024最新】kemonopartyは開けなくて閉鎖確定!?類似サイト10選を徹底解説!kemonoparty(ケモノパーティ)はマニア向けの18禁イラストサイトです。インターネット上には違法にダウンロードされ画像転載されたものやウイルス感染の恐れなど危険なサイトも多いですが、kemonopartyは安全なの
58億5000万(追記:一部のデータを削除し約55億で24年8月に再公開)のデータを集めた巨大トレーニングデータセットLAION-5BからCSAM(児童性的虐待素材)が見つかり公開停止となり、違法性のあるデータを機械的に削除したre-LAION-5Bが8月30日公開されました。データの総数は55億に減っています。2022年9月までのCommonCrawlデータに基づいて組み立てられており、それ以降の未確認のリンクがデータセットに紛れ込むことはないとのことです。公式。ReleasingR
リリースされたre-LAION-5Bに自分の絵が残っているかどうかこちらで検索できます。自分の名前や作品のタイトル、レーベルや雑誌名、ジャンル、テーマなど、思いつく限りの検索ワードで探してみました。Spawning|HaveIbeenTrained?SearchforyourworkinpopularAItrainingdatasetshaveibeentrained.com・・・結果は見つかりませんでしたヽ(^o^)丿絵は大丈夫でも写真が
8月30日、LAION-5BからCSAMを除去したreーLAION-5Bがリリースされました。公式。ReleasingRe-LAION5B:transparentiterationonLAION-5Bwithadditionalsafetyfixes|LAIONToday,followingasafetyrevisionprocedure,weannounceRe-LAION-5B,anupdatedversionofLAION...laio
このブログの記事の一部が公開停止になったことがあり、今後も何が起きるかわからないため、ホームページのBlogを再開して、いくつかの記事を推敲した上で転載しました。BLOGwww.shinobumakimura.org新人時代の体験談と、最近投稿した生成AIのデータセットに関する記事を上げています。画像リンクが使えないため、文字だけでわかるように文章に手を入れ、また時間がたって状況が変化している部分も更新しています。AI関連の記事が多すぎて何を見れば良いのかわからない方はご利用下さい。
2年近く生成AIを問題にしているため「反AI」扱いされますが、問題にしているのは生成AIであり、全てのAIではありません。特に画像生成AIは私自身の絵がデータセットに入っていたため、当事者としてデータを提供する側からの考えを書いています。誤解のないようにお願いいたします。私自身も昨年夏までは生成AIがどういうものか知るため試作していました。そのため一部の人に拒否されブロックされています。理由はともかく使っただけで拒否される気持ちは理解できます。私はデータセットの問題の深さに気づいて使用
このポストのアンケート結果を見て、データセットの問題をまだ知らない人が多いことを思い知らされました。回答してくれた人のほぼ半数が知らないと答えています。知っていると知らないでは規制の必要性や使うかどうかの判断も違ってきます。現状の生成AI(stablediffusionやmidjourney,nijijourney,novelAI等)の基盤モデル(データセット)に世界中の著作物(違法アップロードやCSAM等も含)が取り込まれており開発国では創作面やプライバシー面でも反対されハリウッドなどては
生成AIは国が推奨しているので問題ない、各企業が絵師に対価を支払って学習させている、と思っていた、という投稿を見ました。実は私もそうでした。去年の初めまでは問題があることを知らず「AIの考えた○○」に笑っていいねを推していましたし、スマホの生成アプリもイラストレーターに対価を支払っていると思っていました。まさか無償で使うとは思ってもいませんでした。人間の写真に見えるイラストも、モデルやカメラマンに対価を支払っている、最初からそういう契約なのだと思っていました。無償でジブリアニメや
StableDiffusionが使用している(Midjourneyもといわれるが非公開)ことで知られる巨大トレーニングデータセットLAION-5Bには58億以上(追記:一部のデータを削除し約55億で24年8月に再公開)のデータが含まれます。そのデータをキャプションで検索でき、画像で表示してくれるサイトHaveibeentrainedは非常に便利です。多くの人が自分の作品や写真を検索し、見つけ次第オプトアウト(学習から除外)申請しています。私も利用しています。昨年12月にスタンフォード大学
*リンクが多いため画像は省略し赤字で表示しています。2022年5月、ドイツの非営利団体LAION(Large-scaleArtificialIntelligenceOpenNetwork)が58億5000万(追記:一部のデータを削除し約55億で24年8月に再公開)の画像とテキストのペアを収めたAI用トレーニングデータセットLAION-5Bをリリースしました。これらの画像とテキストはネット上のデータを提供するCommonCrawl(コモン・クロール)のファイルを解析し、類似性の高い
Spawningで4月20日にオプトアウトを申請した画像が本日全て承認されました。思ったより時間がかかりました。申し込んでも人手による確認作業があり、本人の権利が確認されないと認められません。私の場合は掲載されている商業コミックと公式に公開しているイラストですので問題ありません。以下確認の仕方です。Spawningのアイコンをクリック、ダッシュボードを開きます。DoNotTrainListが出ます。右下の青いマークが承認済みです(未承認はグレー)。11日に申請した
ご紹介しているSpawningのAPIが最初のDoNotTrainレジストリを通したオプトアウトをHuggingFaceとStabilityAIに伝えたのが2023年5月30日だそうです。公式ブログにありました。私がオプトアウト要請を始めたのは昨年6月で、間に合いませんでした。最新の製品に反映されているかどうか不明です。公式ブログ、SNSがありますので最新情報をチェックしてください。ai.txt:Anewwayforwebsitestosetpermissionsfor
SpawningAIでオプトアウトを申請する方法は前の記事でご紹介しましたが、画像を逐一チェックしなくても、ドメインを丸ごとDoNotTrainレジストリに追加することで、そのウェブサイトでの現在および将来の作業がオプトアウトされます。一度追加すれば以後チェックする必要がなくなります。まずHaveibeentrained?にサインインします。プルダウンメニューからDashboardを開きます。右のDomainsをクリックします。オプトアウトしたい公式サイト(自分が所有す
LAION-5BはCSAMだけでなく成人のポルノも、イラストや漫画も含めて広い範囲で削除しています。以前検索したlolipornやpornでは写真だけでなくイラストも漫画もCGも合成も表示されません。ソフトなヌードも削除されています。ただし昨日書いた通り検索ワードを変えるとまだ出ます。言語を変えても出る画像が違ってきます。まだ完全にクリーンになってはいません。『LAIONは完全に浄化されてはいません』LAION-5BにCSAMが含まれることがスタンフォード大学の調査で明らかにされ、公開停止、
LAION-5BにCSAMが含まれることがスタンフォード大学の調査で明らかにされ、公開停止、問題のデータの削除が行われていることは以前書きました。『スタンフォード大学がLAION-5BのCSAM(児童性的虐待素材)を確認』巨大データセットLAION-5BにCSAM(児童性的虐待素材、日本で児童ポルノと呼ばれるものに近い)が含まれることは昨年から指摘されhaveibeentrai…ameblo.jphaveibeentrained.comが再開したので検索したところ、以前露骨な画像が大量に
拡張機能でデータセットから自分の画像をオプトアウトする方法を見つけました。オプトアウト用の拡張機能SpawningBrowserExtensionを使います。まずSpawningにアクセスします。SpawningDataGovernanceforGenerativeAIspawning.aiこのページが出ます。画面右下のSpawningBrowserExtensionのGETSTARTEDをクリックします。するとこのページが出ます。スクロー
LAION-5Bを検索できるhaveibeentrained.comがリニューアルしましたが、以前できた画像検索ができなくなりました。Spawning|HaveIbeenTrained?SearchforyourworkinpopularAItrainingdatasetshaveibeentrained.com画像検索のやり方を説明した過去の記事ですが、現在はこの方法は使えません。『学習された写真を探す方法』StableDiffusionが使用しているデー
SNSに投稿しても意味がないと書く人もいますが、それならなぜどこの企業も政府機関もアカウントを取り情報発信しているのでしょう?誰もがSNSで宣伝するのでしょう?生成AIについて、私は2022年までは面白アプリ程度しか知らず絵は許可を得て使用していると思っていました。自分とは無関係だと思っていました。問題があることを知ったきっかけはSNSです。漫画家だけでなくイラストレータの方もフォローしていて、共有されている情報が流れてきました。製品を製作するのに使われたデータセットLAIO
昨年LAION-5Bからオプトアプトした絵がまた入れられていたので再度オプトアウトしました。見つけた絵は電子書籍の表紙の書影です。書店で販売するために使われている画像です。絵の著作権は私にありますが、宣伝等で使用することは契約で認めており問題ありません。しかしこれを第三者が無断で使用すると著作権侵害になります。データセットに同じ絵が10枚以上入っていましたが、掲載元のURLが違うので全てオプトアウトしました。書店に掲載されている画像は削除できませんから、他に手の打ちようがありません。
データセットLAION-5Bを検索できるhaveibeentrained.comがリニューアルオープンしました。CSAM(日本では児童ポルノ)がどの程度削除されたか確認し、完全ではありませんが問題になりそうなイラストや漫画も削除されていることを確認しました。肝心な自分の絵は以前単語と画像で検索して全部オプトアウト(学習対象から除外)したので残っていないと思っていました。しかし念のため再度検索したところ、以前オプトアウトしたのと同じ画像が2件(10枚以上)見つかりました。一度削除した後にまた
毎日新聞社が「子どもを児童ポルノから守る会」の協力を得て2023年7月以降にネット上で画像検索等で調査した結果、保育園、幼稚園、認定こども園等135園のウェブサイトに、水遊び、泥遊び、ボディーペイント、乾布摩擦、内科検診等の園児の体の一部が露出した画像が掲載されていることがわかりました。それ自体は悪質な画像ではありませんが、12園が掲載した画像が海外のポルノサイトなどに転載され、6園が掲載した画像はAIの学習に使われるデータに組み込まれているということです。園児の画像、海外ポルノサイトへの転
スタンフォード大学インターネット観測所の調査報告書にあるCSAMという言葉はChildSexualAbuseMaterial(児童性的虐待素材)の略語です。露骨な性的行為に関与する未成年者を扱ったあらゆる映像描写を含みます。親が子供の水遊びを撮影した映像は該当しません。性的行為ではないからです。米国ではCSAMを発見したらNationalCenterforMissing&ExploitedChildren(NCMEC、全米行方不明・被搾取児童センター)に報告する
昨日LAION-5Bからポルノが見つからなくなったと報告しましたが、検索ワードを変えてnaked、asianを使ったところ年齢不詳ですが少女らしいヌード、成人のヌード、露天風呂の写真が見つかりました。掲載元はポルノサイトです。改善してはいますが、探せばまだポルノが見つかります。またjapan、girlで検索すると、ヌードではありませんが少女と女児の写真が出てきます。japan、womanでは成人女性が出てきます。名前では見つかりませんので、写真を使われたくない方は面倒ですが全部チェックしてオプ
昨晩はパブリックコメントを書いて疲れ果て、今日は復旧したhaveibeentrained.comで気になるコンテンツを検索しました。porn(ポルノ)は成人も含めて検索結果に出なくなりました。漫画やイラストもかなり減っていますが、書店で販売されている単行本や雑誌のカバー(書店のサムネイル他)や色紙や展示などの画像が出る人がいます。イラストレーターも数は減りましたが本のカバーの他に(無断)転載と思われる画像、ファンアート、AI生成物が出ます。掲載元はPinterest、WixMedia、A
LAION-5Bのデータを検索できるhaveibeentrained.comが復旧していました。Spawning|HaveIbeenTrained?SearchforyourworkinpopularAItrainingdatasetshaveibeentrained.com念のために問題になったCSAM、成人のポルノ、差別用語、犯罪者の名前、写真家の名前で検索してみましたが、イラストも含め問題のありそうな画像はほぼ表示されなくなっていました。病院の入院患者や高齢者
私はプレ均昭和生まれです。バブル時代にデビューしましたが、新人の待遇は変わらず何の得もないままバブルがはじけ、連載していた雑誌が続けて休刊になり、その後は厳しい時代を過ごしてきました。それでも固定読者の方が一定数いて支えて下さり細々と続けてこられました。読者の方々も同年代か少し下で、80年~90年代の漫画を読んで育ち、2000年前後にブームになった萌えの影響はありません。歳の近い漫画読者の方は、萌えは好きではないといいます。デジコミも好きではなく、アナログの線が好き、個性的な絵が好きでアナ