[cbc] Add extractor

2015-11-11 20:16:53 -08:00 · 2015-11-11 20:16:53 -08:00 · 7c6bc92ae0
commit 7c6bc92ae0
parent 031ec536f0
2 changed files with 98 additions and 0 deletions
--- a/youtube_dl/extractor/init.py
+++ b/youtube_dl/extractor/init.py
@ -71,6 +71,7 @@ from .camdemy import (
 from .canal13cl import Canal13clIE
 from .canalplus import CanalplusIE
 from .canalc2 import Canalc2IE
+from .cbc import CBCIE
 from .cbs import CBSIE
 from .cbsnews import CBSNewsIE
 from .cbssports import CBSSportsIE
--- a/youtube_dl/extractor/cbc.py
+++ b/youtube_dl/extractor/cbc.py
@ -0,0 +1,97 @@
+# -*- coding: utf-8 -*-
+from __future__ import unicode_literals
+
+from .common import InfoExtractor
+
+
+CBC_CAFFEINE_MODULES_URL = 'http://www.cbc.ca/i/caffeine/js/Caffeine.modules.js'
+
+
+class CBCIE(InfoExtractor):
+    IE_DESC = 'cbc.ca'
+    _VALID_URL = r'https?://(?:www\.)?cbc\.ca/.*/episodes/(?P<id>season-\d+/.+)'
+
+    _TESTS = [{
+        'url': 'http://www.cbc.ca/22minutes/episodes/season-23/episode-197',
+        'md5': '9108d19314a116778932b874caf9bc91',
+        'info_dict': {
+            'id': 'season-23/episode-197',
+            'ext': 'mp4',
+            'title': '22 Minutes - S23E01 - Episode 1',
+            'description': 'md5:03e943f67d535a48522b5bb4ba7cf812',
+            'thumbnail': 're:http://.*\.jpg',
+            'duration': 1315,
+            'timestamp': 1444177800,
+            'upload_date': '20151007',
+        },
+    }]
+
+    def _real_extract(self, url):
+        video_id = self._match_id(url)
+        episode_page = self._download_webpage(url, video_id)
+
+        clip_id = self._search_regex(
+            r"CBC.APP.Caffeine.initInstance\({'clipId':\s*'(\d+)'",
+            episode_page,
+            'Clip ID'
+        )
+
+        caffeine_js = self._download_webpage(CBC_CAFFEINE_MODULES_URL, video_id)
+
+        caffeine_content_url = self._search_regex(
+            r'(http://tpfeed.cbc.ca/[a-zA-Z0-9/]+\?byContent=byReleases%3DbyId%253D)',
+            caffeine_js,
+            'Caffeine content URL'
+        )
+
+        caffeine_media_url = self._search_regex(
+            r'(http://tpfeed.cbc.ca/[a-zA-Z0-9/_]+\?)"',
+            caffeine_js,
+            'Caffeine media URL'
+        )
+
+        mpx_account_id = self._search_regex(
+            r'MPX_ACCOUNT_PID:"([a-zA-Z0-9/]+)"',
+            caffeine_js,
+            'MPX account ID'
+        )
+
+        caffeine_content = self._download_json(
+            caffeine_content_url + clip_id + '&fields=content',
+            video_id
+        )
+        media_id = caffeine_content['entries'][0]['content'][0]['releases'][0]['mediaId'].split('/')[-1]
+
+        caffeine_media = self._download_json(
+            caffeine_media_url + 'q=*&byGuid=' + media_id,
+            video_id
+        )
+
+        episode_info = caffeine_media['entries'][0]
+        from pprint import pprint
+        pprint(episode_info)
+        
+        thumbnails = []
+        for thumbnail in episode_info['thumbnails']:
+            thumbnails.append(
+                {
+                    'url': thumbnail['url'],
+                    'width': thumbnail['width'],
+                    'height': thumbnail['height'],
+                }
+            )
+
+        theplatform_url = 'http://player.theplatform.com/p/{mpx_account_id}/default_prod_vms/embed/select/media/{pid}'.format(
+            mpx_account_id=mpx_account_id,
+            pid=episode_info['pid']
+        )
+
+        return {
+            '_type': 'url_transparent',
+            'id': video_id,
+            'title': '{cbc$show} - S{cbc$seasonNumber}E{cbc$episodeNumber} - {title}'.format(**episode_info),
+            'description': episode_info['description'],
+            'timestamp': episode_info['pubDate']/1000,
+            'url': theplatform_url,
+            'thumbnails': thumbnails,
+        }