本公開涉及人工智能,尤其涉及深度學習、aigc(人工智能生成內容)等,具體涉及一種圖像風格遷移方法及裝置、電子設備、計算機可讀存儲介質和計算機程序產品。
背景技術:
1、圖像風格遷移指的是在保持原圖像(即,參考圖像)的內容大致不變的情況下改變原圖像的風格,得到同時具有原圖像的內容和新風格的新圖像(即,目標圖像)。例如,原圖像為描繪有一只在街邊行走的狗的照片(即,照片風格),指定的新風格為動漫風格。通過對原圖像進行風格遷移,可以得到用動漫風格描繪有一只在街邊行走的狗的新圖像。
2、在此部分中描述的方法不一定是之前已經設想到或采用的方法。除非另有指明,否則不應假定此部分中描述的任何方法僅因其包括在此部分中就被認為是現有技術。類似地,除非另有指明,否則此部分中提及的問題不應認為在任何現有技術中已被公認。
技術實現思路
1、本公開提供了一種圖像風格遷移方法及裝置、電子設備、計算機可讀存儲介質和計算機程序產品。
2、根據本公開的一方面,提供了一種圖像風格遷移方法,包括:獲取參考圖像和描述文本,其中,所述描述文本包括描述所述參考圖像的內容的內容描述文本和描述待生成的目標圖像的風格的風格描述文本;提取所述描述文本的文本特征;以及基于預訓練的擴散模型執行以下操作,以生成所述目標圖像:在所述擴散模型的每個時間步中:計算第一圖像特征與所述文本特征的第一交叉注意力特征,其中,第一個時間步中的所述第一圖像特征為預設的初始圖像的圖像特征,第二個及后續每個時間步中的所述第一圖像特征為上一個時間步所生成的結果圖像特征;獲取所述參考圖像的第二圖像特征與所述文本特征的第二交叉注意力特征;基于所述第二交叉注意力特征,對所述第一交叉注意力特征進行編輯,以得到第三交叉注意力特征;以及基于所述第三交叉注意力特征和所述文本特征,生成該時間步的結果圖像特征;以及對最后一個時間步的結果圖像特征進行解碼,以生成所述目標圖像。
3、根據本公開的一方面,提供了一種圖像風格遷移裝置,包括:獲取模塊,被配置為獲取參考圖像和描述文本,其中,所述描述文本包括描述所述參考圖像的內容的內容描述文本和描述待生成的目標圖像的風格的風格描述文本;提取模塊,被配置為提取所述描述文本的文本特征;以及生成模塊,被配置為基于預訓練的擴散模型生成所述目標圖像,所述生成模塊包括:注意力編輯單元,被配置為在所述擴散模型的每個時間步中:計算第一圖像特征與所述文本特征的第一交叉注意力特征,其中,第一個時間步中的所述第一圖像特征為預設的初始圖像的圖像特征,第二個及后續每個時間步中的所述第一圖像特征為上一個時間步所生成的結果圖像特征;獲取所述參考圖像的第二圖像特征與所述文本特征的第二交叉注意力特征;基于所述第二交叉注意力特征,對所述第一交叉注意力特征進行編輯,以得到第三交叉注意力特征;以及基于所述第三交叉注意力特征和所述文本特征,生成該時間步的結果圖像特征;以及解碼單元,被配置為對最后一個時間步的結果圖像特征進行解碼,以生成所述目標圖像。
4、根據本公開的一方面,提供了一種電子設備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行上述方法。
5、根據本公開的一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,所述計算機指令用于使計算機執行上述方法。
6、根據本公開的一方面,提供了一種計算機程序產品,包括計算機程序指令,所述計算機程序指令在被處理器執行時實現上述方法。
7、根據本公開的一個或多個實施例,提供了一種基于注意力編輯的非訓練的圖像風格遷移方法。該方法使用通用的、預訓練的擴散模型即可實現高質量的圖像風格遷移,無需利用大量的標注數據對擴散模型進行進一步訓練(微調),提高了圖像風格遷移的效率,具有良好的泛化性。
8、應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種圖像風格遷移方法,包括:
2.根據權利要求1所述的方法,其中,所述第一交叉注意力特征包括對應于所述內容描述文本的第一內容子特征和對應于所述風格描述文本的第一風格子特征,所述第二交叉注意力特征包括對應于所述內容描述文本的第二內容子特征和對應于所述風格描述文本的第二風格子特征,所述第三交叉注意力特征包括對應于所述內容描述文本的第三內容子特征和對應于所述風格描述文本的第三風格子特征,所述基于所述第二交叉注意力特征,對所述第一交叉注意力特征進行編輯,以得到第三交叉注意力特征包括:
3.根據權利要求2所述的方法,其中,所述基于所述第二內容子特征,對所述第一內容子特征進行修改包括:
4.根據權利要求2或3所述的方法,其中,所述基于所述第一風格子特征,確定所述第三風格子特征包括:
5.根據權利要求1-4中任一項所述的方法,其中,所述提取所述描述文本的文本特征包括:
6.根據權利要求5所述的方法,其中,所述擴展的風格描述文本包括所述風格描述文本和所述參考圖像的風格描述標識,并且其中,所述對所述擴展的風格描述文本進行編碼,以得到所述擴展的風格描述文本的第二文本特征包括:
7.根據權利要求6所述的方法,其中,所述參考圖像為參考視頻中的任一圖像幀,并且其中,所述利用圖像編碼器提取所述參考圖像的第三圖像特征包括:
8.根據權利要求1-7中任一項所述的方法,其中,所述計算第一圖像特征與所述文本特征的第一交叉注意力特征包括:
9.根據權利要求8所述的方法,其中,所述參考圖像為參考視頻中的除第一個圖像幀以外的任一圖像幀,并且其中,所述基于所述自注意力特征和所述第一圖像特征,生成第四圖像特征包括:
10.一種圖像風格遷移裝置,包括:
11.根據權利要求10所述的裝置,其中,所述第一交叉注意力特征包括對應于所述內容描述文本的第一內容子特征和對應于所述風格描述文本的第一風格子特征,所述第二交叉注意力特征包括對應于所述內容描述文本的第二內容子特征和對應于所述風格描述文本的第二風格子特征,所述第三交叉注意力特征包括對應于所述內容描述文本的第三內容子特征和對應于所述風格描述文本的第三風格子特征,所述注意力編輯單元包括:
12.根據權利要求11所述的裝置,其中,所述內容編輯子單元進一步被配置為:
13.根據權利要求11或12所述的裝置,其中,所述風格編輯子單元進一步被配置為:
14.根據權利要求10-13中任一項所述的裝置,其中,所述提取模塊包括:
15.根據權利要求14所述的裝置,其中,所述擴展的風格描述文本包括所述風格描述文本和所述參考圖像的風格描述標識,并且其中,所述第二編碼單元包括:
16.根據權利要求15所述的裝置,其中,所述參考圖像為參考視頻中的任一圖像幀,并且其中,所述第二編碼子單元進一步被配置為:
17.根據權利要求10-16中任一項所述的裝置,其中,所述注意力編輯單元包括:
18.根據權利要求17所述的裝置,其中,所述參考圖像為參考視頻中的除第一個圖像幀以外的任一圖像幀,并且其中,所述生成子單元進一步被配置為:
19.一種電子設備,包括:
20.一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,所述計算機指令用于使計算機執行根據權利要求1-9中任一項所述的方法。
21.一種計算機程序產品,包括計算機程序指令,其中,所述計算機程序指令在被處理器執行時實現權利要求1-9中任一項所述的方法。