时间:2022-10-1 9:00~11:00
地点:世纪楼主楼304
主讲人:BobMaster
总结报告
第五周的开源技术分享交流活动虽有遗憾,来的同学比较少(可能因为黄码),但总体来说还是很有趣的。因为人少所以没有按照预定计划的内容安排来进行分享,此次活动主要介绍了Stable Diffusion 潜在文本到图像扩散模型的使用,其可以实现txt2img、img2img等功能,你输入一个提示词,模型通过一系列运算生成相关图像,效果很震撼。如果大家感兴趣的话,第六周的交流活动,可以现场演示如何在自己的设备上跑该模型。第五周的内容也将放在第六周一起分享。
成果展示
比如使用如下提示语:
可以得到(seed不一样,每次运算都会随机生成不同的图像),多跑几次模型,保存你喜欢的a portrait of a charming girl with a perfect face and long hair and tattoo on her cheek and cyberpunk headset, anime, captivating, aesthetic, hyper-detailed and intricate, realistic shaded, realistic proportion, symmetrical, concept art, full resolution, golden ratio, global resolution, sharp focus
Cluttered house in the woods, anime, oil painting
A sky full of stars
anatomically correct anime girl walking on water, ripples, backdrop of dawn, saturn in the background, illustration, concept art, anime, key visual, trending pixiv fanbox by wlop and greg rutkowski and makoto shinkai and studio ghibli
结语
效果还不错对吧,未来机器能做的事情只会越来越多,text-to-image 的 AI 模型逐渐成熟后,text-to-video 和 text-to-3d 也快了。最近 Meta 发布了一个 text-to-video 的论文和产品 https://makeavideo.studio/ ,Google 和加州伯克利联合发布了一篇 text-to-3d 的论文 https://dreamfusion3d.github.io 。我们也该大胆地接受新兴事物,毕竟未来谁说的准呢?最后感谢中南大学铁道学院的老师、学办助理、学校物业工作人员,我们的活动得以正常进行,离不来你们的帮助。
本地搭建教程: 参考资料:
- https://github.com/CompVis/stable-diffusion
- https://huggingface.co/blog/stable_diffusion
- https://prompthero.com/stable-diffusion-prompts
- https://ommer-lab.com/research/latent-diffusion-models
- https://github.com/AUTOMATIC1111/stable-diffusion-webui
- https://huggingface.co/hakurei/waifu-diffusion
- Stable Diffusion: Prompt Guide and Examples
- High-performance image generation using Stable Diffusion in KerasCV
- Stable Diffusion Samplers: A Comprehensive Guide