WikiMini

Model dyfuzyjny

Model dyfuzyjny, model rozpraszający[1] – klasa modeli generatywnych opartych na zmiennych utajonych. Model dyfuzji składa się z trzech głównych komponentów: procesów dyfuzji w przód i wstecz oraz procedury próbkowania[2][3].

Na rok 2024, modele dyfuzyjne są używane głównie w zadaniach rozpoznawania obrazów, w tym generowaniu obrazów, usuwaniu szumu czy tworzeniu superrozdzielczości[4][5].

Generatory obrazów oparte na modelu dyfuzji – takie jak Stable Diffusion czy DALL-E – są najbardziej znanymi projektami opartymi na modelu dyfuzyjnym. Projekty te zazwyczaj łączą modele dyfuzyjne z innymi modelami, takimi jak osadzanie słów czy mechanizm uwagi, aby zapewnić generowanie obrazu z tekstu[6].

Modele dyfuzji znalazły zastosowanie także w zadaniach przetwarzania języka naturalnego[7][8]: generowaniu tekstu[9][10] i podsumowywaniu go[11], generowaniu dźwięku[12] czy uczeniu przez wzmacnianie[13][14].

Przypisy

[edytuj | edytuj kod]
  1. Aurélien Géron, Uczenie maszynowe z użyciem Scikit-Learn, Keras i TensorFlow, Krzysztof Sawka (tłum.), Gliwice: Helion, 2023, s. 601, ISBN 978-83-8322-423-7 [dostęp 2025-04-22] (pol.).
  2. Ziyi Chang, George Alex Koulieris, Hubert P.H. Shum, On the Design Fundamentals of Diffusion Models: A Survey, arXiv, 19 października 2023, DOI10.48550/arXiv.2306.04542 [dostęp 2025-04-22].
  3. Aayush Mittal, Zrozumienie modeli dyfuzji: Głębokie zanurzenie w generatywnej sztucznej inteligencji [online], Unite.AI, 30 sierpnia 2024 [dostęp 2025-04-22] (pol.).
  4. Yang Song i inni, Score-Based Generative Modeling through Stochastic Differential Equations, arXiv, 10 lutego 2021, DOI10.48550/arXiv.2011.13456 [dostęp 2025-04-22].
  5. Shuyang Gu i inni, Vector Quantized Diffusion Model for Text-to-Image Synthesis, arXiv, 3 marca 2022, DOI10.48550/arXiv.2111.14822 [dostęp 2025-04-22].
  6. openai/glide-text2im, OpenAI, 21 kwietnia 2025 [dostęp 2025-04-22].
  7. Shen Nie i inni, Scaling up Masked Diffusion Models on Text, arXiv, 28 lutego 2025, DOI10.48550/arXiv.2410.18514 [dostęp 2025-04-22].
  8. Yifan Li, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen, Diffusion Models for Non-autoregressive Text Generation: A Survey, arXiv, 13 maja 2023, DOI10.48550/arXiv.2303.06574 [dostęp 2025-04-22].
  9. Xiaochuang Han, Sachin Kumar, Yulia Tsvetkov, SSD-LM: Semi-autoregressive Simplex-based Diffusion Language Model for Text Generation and Modular Control, arXiv, 26 czerwca 2023, DOI10.48550/arXiv.2210.17432 [dostęp 2025-04-22].
  10. Weijie Xu, Wenxiang Hu, Fanyou Wu, Srinivasan Sengamedu, DeTiME: Diffusion-Enhanced Topic Modeling using Encoder-decoder based LLM, arXiv, 23 grudnia 2023, DOI10.48550/arXiv.2310.15296 [dostęp 2025-04-22].
  11. Haopeng Zhang, Xiao Liu, Jiawei Zhang, DiffuSum: Generation Enhanced Extractive Summarization with Diffusion, arXiv, 11 maja 2023, DOI10.48550/arXiv.2305.01735 [dostęp 2025-04-22].
  12. Dongchao Yang i inni, Diffsound: Discrete Diffusion Model for Text-to-sound Generation, arXiv, 28 kwietnia 2023, DOI10.48550/arXiv.2207.09983 [dostęp 2025-04-22].
  13. Michael Janner, Yilun Du, Joshua B. Tenenbaum, Sergey Levine, Planning with Diffusion for Flexible Behavior Synthesis, arXiv, 21 grudnia 2022, DOI10.48550/arXiv.2205.09991 [dostęp 2025-04-22].
  14. Cheng Chi i inni, Diffusion Policy: Visuomotor Policy Learning via Action Diffusion, arXiv, 14 marca 2024, DOI10.48550/arXiv.2303.04137 [dostęp 2025-04-22].