一如12月初承諾,蘋果終於在上周公佈首份探討以新技術合成擬真照片,以利於未來人工智慧網路(AI)訓練的研究文件。
這份有6名蘋果科學家參與的研究中,蘋果發展出一種名為「模擬與非監督學習」(simulated+unsupervised, S+U)的方法作為神經網路訓練。報告指出,拜近來圖像辨識技術進步之賜,以合成圖片訓練AI模型變得更為容易,省去了大量昂貴加註解的麻煩,然而礙於合成與真實圖像的品質差距,使得以合成圖片訓練未能達預期效果。為此蘋果發展出模擬與非監督(S+U)學習法,利用未標籤的真實資料增進合成圖片的真實性,同時保留模擬器的註解資訊。
蘋果發展的S+U學習法是利用類似生成對抗網路(Generative Adversarial Networks, GAN)的對抗網路,名為SimGAN,但是以合成圖片作為輸入資料。為保留註解、避免不自然的人造感以及穩定訓練品質,研究人員訓練了圖像精煉網路(refiner network),並對GAN 訓練框架做了一些修改,包括縮小對抗損失(adversarial loss)及自我正規化(self-regularization)造成的損失,並以圖片的精練紀錄更新判別器(discriminator),藉此提升產出圖片的真實感。
之後研究人員分別做了質性評估、人力判定、並訓練機器模型進行視覺及手勢評估來評估這批合成相片,最後在沒有任何真實標籤資訊情況下獲得優異(state of art)的結果。
蘋果執行長庫克今年年中表示AI是智慧型手機未來,宣示蘋果進軍AI的決心後,10月即找來卡內基梅隆大學教授Ruslan Salakhutdinov帶領AI團隊,希望能在這塊領域趕上Google、微軟甚至Amazon。