如何同步視頻 @ Welkin小窩

前面整個的一段時間，我們有了一個幾乎無用的電影播放器。
當然，它能播放視頻，也能播放音頻，但是它還不能被稱為一部電影。
那麼我們還要做什麼呢？

PTS和DTS

幸運的是，音頻和視頻流都有一些關於以多快速度和什麼時間來播放它們的訊息在裡面。音頻流有采樣，視頻流有每秒的幀率。然而，如果我們只是簡單的透過數幀和乘以幀率的模式來同步視頻，那麼就很有可能會失去同步。於是作為一種補充，在流中的包有種叫做DTS（解碼時間戳）和PTS（顯示時間戳）的機製。為了這兩個參數，你需要了解電影存放的模式。像MPEG等格式，使用被叫做B幀（B表示雙向bidrectional）的模式。另外兩種幀被叫做I幀和P幀（I表示關鍵幀，P表示預測幀）。I幀包含了某個特定的完整圖像。P幀倚賴於前面的I幀和P幀並且使用比較或者差分的模式來編碼。B幀與P幀有點類似，但是它是倚賴於前面和後面的幀的訊息的。這也就解釋了為什麼我們可能在調用avcodec_decode_video以後會得不到一幀圖像。

所以對於一個電影，幀是這樣來顯示的︰I B B P。現下我們需要在顯示B幀之前知道P幀中的訊息。因此，幀可能會按照這樣的模式來存儲︰IPBB。這就是為什麼我們會有一個解碼時間戳和一個顯示時間戳的原因。解碼時間戳告訴我們什麼時候需要解碼，顯示時間戳告訴我們什麼時候需要顯示。所以，在這種情況下，我們的流可以是這樣的︰

PTS: 1 4 2 3
DTS: 1 2 3 4
Stream: I P B B

通常PTS和DTS只有在流中有B幀的時候會不同。

當我們調用av_read_frame()得到一個包的時候，PTS和DTS的訊息也會儲存在包中。但是我們真正想要的PTS是我們剛剛解碼出來的原始幀的PTS，這樣我們才能知道什麼時候來顯示它。然而，我們從avcodec_decode_video()函數中得到的幀只是一個AVFrame，其中並沒有包含有用的PTS值（注意︰AVFrame並沒有包含時間戳訊息，但當我們等到幀的時候並不是我們想要的樣子）。然而，ffmpeg重新排序包以便於被avcodec_decode_video()函數處理的包的DTS可以總是與其返回的PTS相同。但是，另外的一個警告是︰我們也並不是總能得到這個訊息。

不用擔心，因為有另外一種辦法可以找到帖的PTS，我們可以讓程式自己來重新排序包。我們儲存一幀的第一個包的PTS︰這將作為整個這一幀的PTS。我們可以透過函數avcodec_decode_video()來計算出哪個包是一幀的第一個包。怎樣實現呢？任何時候當一個包開始一幀的時候，avcodec_decode_video()將調用一個函數來為一幀申請一個緩沖。當然，ffmpeg允許我們重新定義那個分發內存的函數。所以我們製作了一個新的函數來儲存一個包的時間戳。

當然，儘管那樣，我們可能還是得不到一個正確的時間戳。我們將在後面處理這個問題。

同步
現下，知道了什麼時候來顯示一個視頻幀真好，但是我們怎樣來實際操作呢？這裡有個主意︰當我們顯示了一幀以後，我們計算出下一幀顯示的時間。然後我們簡單的設定一個新的定時器來。你可能會想，我們檢查下一幀的PTS值而不是系統時鐘來看超時是否會到。這種模式可以工作，但是有兩種情況要處理。

首先，要知道下一個PTS是什麼。現下我們能添加視頻速率到我們的PTS中－－太對了﹗然而，有些電影需要幀重複。這意味著我們重複播放當前的幀。這將導致程式顯示下一幀太快了。所以我們需要計算它們。

第二，正如程式現下這樣，視頻和音頻播放很歡快，一點也不受同步的影響。如果一切都工作得很好的話，我們不必擔心。但是，你的電腦並不是最好的，很多視頻檔案也不是完好的。所以，我們有三種選擇︰同步音頻到視頻，同步視頻到音頻，或者都同步到外部時鐘（例如你的電腦時鐘）。從現下開始，我們將同步視頻到音頻。

寫代碼︰獲得幀的時間戳

現下讓我們到代碼中來做這些事情。我們將需要為我們的大架構體添加一些成員，但是我們會根據需要來做。首先，讓我們看一下視頻線程。記住，在這裡我們得到了解碼線程輸出到隊列中的包。這裡我們需要的是從avcodec_decode_video函數中得到幀的時間戳。我們討論的第一種模式是從上次處理的包中得到DTS，這是很容易的︰

double pts;

for(;;) {
if(packet_queue_get(&is->videoq, packet, 1) < 0) { // means we quit getting packets break; } pts = 0; // Decode video frame len1 = avcodec_decode_video(is->video_st->codec, pFrame, &frameFinished, packet->data, packet->size);
if(packet->dts != AV_NOPTS_VALUE) {
pts = packet->dts;
} else {
pts = 0;
}
pts *= av_q2d(is->video_st->time_base);

如果我們得不到PTS就把它設定為0。

好，那是很容易的。但是我們所說的如果包的DTS不能幫到我們，我們需要使用這一幀的第一個包的PTS。我們透過讓ffmpeg使用我們自己的申請幀程式來實現。
下面的是函數的格式︰

int get_buffer(struct AVCodecContext *c, AVFrame *pic);
void release_buffer(struct AVCodecContext *c, AVFrame *pic);

申請函數沒有告訴我們關於包的任何事情，所以我們要自己每次在得到一個包的時候把PTS儲存到一個全局變量中去。我們自己以讀到它。然後，我們把值儲存到AVFrame架構體難理解的變量中去。所以一開始，這就是我們的函數︰

uint64_t global_video_pkt_pts = AV_NOPTS_VALUE;

int our_get_buffer(struct AVCodecContext *c, AVFrame *pic) {
int ret = avcodec_default_get_buffer(c, pic);
uint64_t *pts = av_malloc(sizeof(uint64_t));
*pts = global_video_pkt_pts;
pic->opaque = pts;
return ret;
}
void our_release_buffer(struct AVCodecContext *c, AVFrame *pic) {
if(pic) av_freep(&pic->opaque);
avcodec_default_release_buffer(c, pic);
}

函數avcodec_default_get_buffer和avcodec_default_release_buffer是ffmpeg中預設的申請緩沖的函數。函數av_freep是一個內存管理函數，它不但把內存釋放而且把指標設定為NULL。

現下到了我們流打開的函數（stream_component_open），我們添加這幾行來告訴ffmpeg如何去做︰

codecCtx->get_buffer = our_get_buffer;
codecCtx->release_buffer = our_release_buffer;

現下我們必需添加代碼來儲存PTS到全局變量中，然後在需要的時候來使用它。我們的代碼現下看起來應該是這樣子︰

for(;;) {
if(packet_queue_get(&is->videoq, packet, 1) < 0) { // means we quit getting packets break; } pts = 0; // Save global pts to be stored in pFrame in first call global_video_pkt_pts = packet->pts;
// Decode video frame
len1 = avcodec_decode_video(is->video_st->codec, pFrame, &frameFinished, packet->data, packet->size);
if(packet->dts == AV_NOPTS_VALUE && pFrame->opaque && *(uint64_t*)pFrame->opaque != AV_NOPTS_VALUE) {
pts = *(uint64_t *)pFrame->opaque;
} else if(packet->dts != AV_NOPTS_VALUE) {
pts = packet->dts;
} else {
pts = 0;
}
pts *= av_q2d(is->video_st->time_base);

技術提示︰你可能已經注意到我們使用int64來表示PTS。這是因為PTS是以整型來儲存的。這個值是一個時間戳相當於時間的度量，用來以流的 time_base為單位進行時間度量。例如，如果一個流是24幀每秒，值為42的PTS表示這一幀應該排在第42個幀的位置如果我們每秒有24幀（這裡並不完全正確）。

我們可以透過除以幀率來把這個值轉化為秒。流中的time_base值表示1/framerate（對於固定幀率來說），所以得到了以秒為單位的PTS，我們需要乘以time_base。

寫代碼︰使用PTS來同步

現下我們得到了PTS。我們要注意前面討論到的兩個同步問題。我們將定義一個函數叫做synchronize_video，它可以更新同步的PTS。這個函數也能最終處理我們得不到PTS的情況。同時我們要知道下一幀的時間以便於正確設定刷新速率。我們可以使用內部的反映當前視頻已經播放時間的時鐘 video_clock來完成這個功能。我們把這些值添加到大架構體中。

typedef struct VideoState {
double video_clock; ///

下面的是函數synchronize_video，它可以很好的自我註釋︰

double synchronize_video(VideoState *is, AVFrame *src_frame, double pts) {

double frame_delay;

if(pts != 0) {
is->video_clock = pts;
} else {
pts = is->video_clock;
}

frame_delay = av_q2d(is->video_st->codec->time_base);

frame_delay += src_frame->repeat_pict * (frame_delay * 0.5);
is->video_clock += frame_delay;
return pts;
}

你也會注意到我們也計算了重複的幀。

現下讓我們得到正確的PTS並且使用queue_picture來隊列化幀，添加一個新的時間戳參數pts︰

// Did we get a video frame?
if( frameFinished ) {
pts = synchronize_video(is, pFrame, pts);
if( queue_picture(is, pFrame, pts) < 0 ) { break; } } 對於queue_picture來說唯一改變的事情就是我們把時間戳值pts儲存到VideoPicture架構體中，我們我們必需添加一個時間戳變量到架構體中並且添加一行代碼︰ typedef struct VideoPicture { ... double pts; } int queue_picture(VideoState *is, AVFrame *pFrame, double pts) { ... stuff ... if(vp->bmp) {
... convert picture ...
vp->pts = pts;
... alert queue ...
}

現下我們的圖像隊列中的所有圖像都有了正確的時間戳值，所以讓我們看一下視頻刷新函數。你會記得上次我們用80ms的刷新時間來欺騙它。那麼，現下我們將會算出實際的值。

我們的策略是透過簡單計算前一幀和現下這一幀的時間戳來預測出下一個時間戳的時間。同時，我們需要同步視頻到音頻。我們將設定一個音頻時間audio clock；一個內部值記錄了我們正在播放的音頻的位置。就像從任意的mp3播放器中讀出來的數字一樣。既然我們把視頻同步到音頻，視頻線程使用這個值來算出是否太快還是太慢。

我們將在後面來實現這些代碼；現下我們假設我們已經有一個可以給我們音頻時間的函數get_audio_clock。一旦我們有了這個值，我們在音頻和視頻失去同步的時候應該做些什麼呢？簡單而有點笨的辦法是試著用跳過正確幀或者其它的模式來解決。作為一種替代的手段，我們會調整下次刷新的值；如果時間戳太落後於音頻時間，我們加倍計算延遲。如果時間戳太領先於音頻時間，我們將儘可能快的刷新。既然我們有了調整過的時間和延遲，我們將把它和我們透過 frame_timer計算出來的時間進行比較。這個幀時間frame_timer將會統計出電影播放中所有的延時。換句話說，這個 frame_timer就是指我們什麼時候來顯示下一幀。我們簡單的添加新的幀定時器延時，把它和電腦的系統時間進行比較，然後使用那個值來調度下一次刷新。這可能有點難以理解，所以請認真研究代碼︰

void video_refresh_timer(void *userdata) {

VideoState *is = (VideoState *)userdata;
VideoPicture *vp;
double actual_delay, delay, sync_threshold, ref_clock, diff;

if(is->video_st) {
if(is->pictq_size == 0) {
schedule_refresh(is, 1);
} else {
vp = &is->pictq[is->pictq_rindex];

delay = vp->pts - is->frame_last_pts;
if(delay <= 0 || delay >= 1.0) {
delay = is->frame_last_delay;
}

is->frame_last_delay = delay;
is->frame_last_pts = vp->pts;

ref_clock = get_audio_clock(is);
diff = vp->pts - ref_clock;

sync_threshold = (delay > AV_SYNC_THRESHOLD) ? delay : AV_SYNC_THRESHOLD;
if(fabs(diff) < AV_NOSYNC_THRESHOLD) { if(diff <= -sync_threshold) { delay = 0; } else if(diff >= sync_threshold) {
delay = 2 * delay;
}
}
is->frame_timer += delay;

actual_delay = is->frame_timer - (av_gettime() / 1000000.0);
if(actual_delay < 0.010) { actual_delay = 0.010; } schedule_refresh(is, (int)(actual_delay * 1000 + 0.5)); video_display(is); if(++is->pictq_rindex == VIDEO_PICTURE_QUEUE_SIZE) {
is->pictq_rindex = 0;
}
SDL_LockMutex(is->pictq_mutex);
is->pictq_size--;
SDL_CondSignal(is->pictq_cond);
SDL_UnlockMutex(is->pictq_mutex);
}
} else {
schedule_refresh(is, 100);
}
}

我們在這裡做了很多檢查︰首先，我們保證現下的時間戳和上一個時間戳之間的處以delay是有意義的。如果不是的話，我們就猜測著用上次的延遲。接著，我們有一個同步閾值，因為在同步的時候事情並不總是那麼完美的。在ffplay中使用0.01作為它的值。我們也保證閾值不會比時間戳之間的間隔短。最後，我們把最小的刷新值設定為10毫秒。

（這句不知道應該放在那裡）事實上這裡我們應該跳過這一幀，但是我們不想為此而煩惱。

我們給大架構體添加了很多的變量，所以不要忘記檢查一下代碼。同時也不要忘記在函數streame_component_open中初始化幀時間frame_timer和前面的幀延遲frame delay︰

is->frame_timer = (double)av_gettime() / 1000000.0;
is->frame_last_delay = 40e-3;

同步︰聲音時鐘

現下讓我們看一下怎樣來得到聲音時鐘。我們可以在聲音解碼函數audio_decode_frame中更新時鐘時間。現下，請記住我們並不是每次調用這個函數的時候都在處理新的包，所以有我們要在兩個地方更新時鐘。第一個地方是我們得到新的包的時候︰我們簡單的設定聲音時鐘為這個包的時間戳。然後，如果一個包裡有許多幀，我們透過樣本數和采樣率來計算，所以當我們得到包的時候︰

if(pkt->pts != AV_NOPTS_VALUE) {
is->audio_clock = av_q2d(is->audio_st->time_base)*pkt->pts;
}

然後當我們處理這個包的時候︰

pts = is->audio_clock;
*pts_ptr = pts;
n = 2 * is->audio_st->codec->channels;
is->audio_clock += (double)data_size / (double)(n * is->audio_st->codec->sample_rate);

一點細節︰臨時函數被改成包含pts_ptr，所以要保證你已經改了那些。這時的pts_ptr是一個用來通知audio_callback函數當前聲音包的時間戳的指標。這將在下次用來同步聲音和視頻。

現下我們可以最後來實現我們的get_audio_clock函數。它並不像得到is->audio_clock值那樣簡單。注意我們會在每次處理它的時候設定聲音時間戳，但是如果你看了audio_callback函數，它花費了時間來把數據從聲音包中移到我們的輸出緩沖區中。這意味著我們聲音時鐘中記錄的時間比實際的要早太多。所以我們必須要檢查一下我們還有多少沒有寫入。下面是完整的代碼︰

double get_audio_clock(VideoState *is) {
double pts;
int hw_buf_size, bytes_per_sec, n;

pts = is->audio_clock;
hw_buf_size = is->audio_buf_size - is->audio_buf_index;
bytes_per_sec = 0;
n = is->audio_st->codec->channels * 2;
if(is->audio_st) {
bytes_per_sec = is->audio_st->codec->sample_rate * n;
}
if(bytes_per_sec) {
pts -= (double)hw_buf_size / bytes_per_sec;
}
return pts;
}

你應該知道為什麼這個函數可以正常工作了

讓我們編譯它︰

gcc -o tutorial05 tutorial05.c -lavutil -lavformat -lavcodec -lz -lm`sdl-config --cflags --libs`

最後，你可以使用我們自己的電影播放器來看電影了。下次我們將看一下聲音同步，然後接下來的指導我們會討論查詢。

Welkin小窩

BB 發表在痞客邦留言(0) 人氣()

E-mail轉寄

«	四月 2024					»
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Welkin小窩

柴米油鹽的平淡生活

如何同步視頻

歷史上的今天

留言列表

相簿幻燈片

文章分類

生活集錦 (3)

SYSTEM (8)

Programing (3)

MultiMedia (3)

Computer (3)

文章搜尋

參觀人氣

月曆

我的連結

«	四月 2024					»
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

«	四月 2024					»
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

«	四月 2024					»
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30