闲聊一下

从去年的大模型开始其实,文生视频的 Ai我的项目 曾经层出不穷,像 RunwayPikaLeonordo 从巨头到各种各样的初创公司。 因为我自身从去年到今年以来也自身始终在做一些Ai方面的工作(Midjourney、MyShell、Character Ai等),我大多数时候感觉很多的模型和产品都是在抬高自己(全世界的Ai产品都这样~),但理论体验比拟 个别 甚至称得上 毛糙

而为什么 Sora 值得一讲,因为我在 Openai 的宣传中,看到对于视频渲染的 真实性物理世界引擎 连贯性(不得不吐槽一些还几帧几帧的文生图产品)几乎对于其余的文生图模型是降维打击(这是在Gpt之后的第二波了)。

而后当初是在 Beta 版,但我曾经想提前做点事件,去承接一下了。

重要的事件讲三遍!!!它是 Beta版!!!谨防常识付费/欺骗。

Sora只有外部能用,当初这个阶段的常识付费全是割韭菜!!!

什么是Sora?

SoraOpenAI 的技术,能够将文本转换成视频,就像是魔术一样,将你的故事或形容的文字以视频的模式出现。它能够为各种各样的场景发明视觉效果,从日常场景到富裕想象力的奇幻场景,能够参考 Dall-e-3vividnatural

它的应用场景

首先是最根底的一点,Ai的呈现在某种程度上来说是对于集体和小型团队和工作室的微小利好,所有的Ai工具都是效率工具。

其次它是创造力认知 的延长。

Sora实用于那些心愿从文本中生成 真切想象力 视频的用户。它面向须要生成 简单 场景、角色和动作的集体或组织,比方讲故事、娱乐、教育或内容创作等。能够设想这对于 视频内容创作 的大洗牌。

代码实现

看起来它跟其余的Api用法差异不大。

import openaiimport requestsimport time# Set OpenAI API keyopenai.api_key = 'your-api-key'# Define a function to generate video using Soradef generate_video(description, engine="sora-beta", max_tokens=150):    try:        # Generate video using Sora        response = openai.Completion.create(            engine=engine,            prompt=description,            max_tokens=max_tokens        )        # Retrieve the generated video URL        video_url = response['choices'][0]['video']        return video_url    except Exception as e:        print("An error occurred:", e)        return None# Define a function to download the generated videodef download_video(video_url, output_file):    try:        # Send request to download video        with requests.get(video_url, stream=True) as r:            r.raise_for_status()            with open(output_file, 'wb') as f:                for chunk in r.iter_content(chunk_size=8192):                    f.write(chunk)                print("Video downloaded successfully!")        return output_file    except Exception as e:        print("An error occurred:", e)        return None# Define the main functiondef main():    # Define a short description for the desired video    description = "A bustling futuristic cityscape with flying cars and neon lights."    # Generate video using Sora    video_url = generate_video(description)    if video_url:        # Define output file path        output_file = "generated_video.mp4"        # Download the generated video        downloaded_file = download_video(video_url, output_file)        if downloaded_file:            # Display the generated video URL and path            print("Generated Video URL:", video_url)            print("Downloaded Video Path:", downloaded_file)# Call the main functionif __name__ == "__main__":    main()

它是如何工作的?

Sora 是基于以前的 DALL·EGPT模型钻研的一个弱小的AI模型。它利用了在 DALL·E 3模型中采纳的从新题目(re-captioning)技术,这种技术可能为视觉训练数据生成高度形容的字幕。

扩大一下,re-captioning 是一种语义标注办法,通过AI技术生成内容丰盛、准确度高的形容,为模型训练提供更具描述性的信息。这种办法在视觉和文本信息之间建设强链接,因而能够更好地训练模型了解和生成图像。

与此同时 Sora 也是一个 扩散模型 (扩散模型是从噪声开始,而后逐渐打消噪声生成数据。它首先从看似动态噪声的视频开始,而后缓缓地消去噪声,让视频变得越来越清晰。这种过程能够看作是从一个模糊不清的图像开始,随着工夫的推移,图像变得越来越清晰和锐利,就像照片从含糊逐步对焦直至清晰一样) ,它应用的是相似于 GPT 模型的 变形器架构。变形器架构是一种深度学习模型架构,它应用了地位编码和自注意力机制,可能解决程序数据,并从全局内容中抉择要害信息。

而在解决视频和图像时,Sora 将其合成为多个较小的单元,称为补丁,相似于语言人工智能中的标记拆分单词的形式。每一个补丁都蕴含了局部图像的信息,这样解决能够不便模型解决和了解视觉数据。

Sora能够一次创立残缺的视频,或者使已有的视频变得更长。它能够跟踪视频中产生的状况,并在多个帧中继续追踪,所以即便某些货色临时来到画面,它依然晓得它的存在。

这个模型最牛逼的就是放弃主体的一致性,即便它来到了画面。应用过 DALL-E并试图创立保持一致的角色的人都晓得,当角色一直变动时,它们永远不会看起来雷同是如许艰难。因而,发明一个不仅仅是文本到视频转换,还放弃角色统一的模型,这也就是我下面提到的连贯性 十分的牛逼了。

另外Sora能够依据书面领导制作视频,将动态图像变得活泼,或者为现有视频增加内容。它留神细节,以使动画更加精确。

最初

有趣味的小伙伴能够来一起做一些乏味的事件和副业,不论是 Ai区块链金融等。我恰恰好有十分多的想法和同行者。

言归正传,能够关注一下公众号 Ai Sora,也能够退出咱们的社群 学境