[ncpaclassic] Add new extractor

2017-01-03 17:57:44 +08:00 · 2017-01-03 17:57:44 +08:00 · 248d456db3
commit 248d456db3
parent 424ed37ec4
2 changed files with 108 additions and 0 deletions
--- a/youtube_dl/extractor/extractors.py
+++ b/youtube_dl/extractor/extractors.py
@ -664,6 +664,10 @@ from .nytimes import (
 )
 from .nuvid import NuvidIE
 from .nzz import NZZIE
+from .ncpaclassic import (
+    NcpaClassicVideoIE,
+    NcpaClassicAudioIE
+)
 from .odatv import OdaTVIE
 from .odnoklassniki import OdnoklassnikiIE
 from .oktoberfesttv import OktoberfestTVIE
--- a/youtube_dl/extractor/ncpaclassic.py
+++ b/youtube_dl/extractor/ncpaclassic.py
@ -0,0 +1,104 @@
+# coding: utf-8
+from __future__ import unicode_literals
+
+import re
+
+from .common import InfoExtractor
+from ..utils import ExtractorError
+
+class NcpaClassicVideoIE(InfoExtractor):
+    _VALID_URL = r'http://www\.ncpa-classic\.com/[0-9]{4}/[0-9]{2}/[0-9]{2}/VID[E A](?P<id>\w*)\.shtml'
+    _TESTS = [{
+        'url': 'http://www.ncpa-classic.com/2013/05/22/VIDE1369219508996867.shtml',
+        'info_dict': {
+            'id': '1369219508996867',
+            'title': '小泽征尔音乐塾 音乐梦想无国界_古典音乐频道'
+        },
+        'playlist_count': 8,
+    },{
+        'url': 'http://ncpa-classic.cntv.cn/2013/05/22/VIDE1369219508996867.shtml',
+        'info_dict': {
+            'id': '1369219508996867',
+            'title': '小泽征尔音乐塾 音乐梦想无国界_古典音乐频道'
+        },
+        'playlist_count': 8,
+    }]
+
+    def _real_extract(self, url):
+        playlist_id = self._match_id(url)
+        webpage = self._download_webpage(url,playlist_id)
+        entries = []
+        if 'VIDE' in url:
+            videoCenterId = self._html_search_regex(r'var initMyAray=\s *\'(?P<videoCenterId>\w*)\'',webpage,'videoCenterId', group='videoCenterId')
+            playlist_title = self._html_search_regex(
+                r'<title>(?P<title>.*)</title>', webpage,
+                'title', group='title')
+            api_result = self._download_json(
+                'http://vdn.apps.cntv.cn/api/getHttpVideoInfo.do?pid=%s&tz=-8&from=000dajuyuan&url=%s&idl=32&idlr=32&modifyed=false' % (
+                videoCenterId,url),playlist_id, 'Get playlist links')
+            entries = [{'_type': 'video',
+                'id':'%s' % idx,
+                'title':playlist_title,
+                'url': video.get('url')
+            }  for idx,video in enumerate(api_result['video']['chapters2'])]
+
+        elif 'VIDA' in url:
+            playlist_title = self._html_search_regex(
+                r'<title>(?P<title>.*)</title>', webpage,
+                'title', group='title')
+            sub_titles = re.findall(r'<td.*changeAudio_url.*>(.*)</td>',webpage)
+            vida_ids = re.findall(r'"(\w{32})"',webpage)
+            for idx,vida_id in enumerate(vida_ids):
+                title = sub_titles[idx]
+                api_result = self._download_json(
+                    'http://vdn.apps.cntv.cn/api/getHttpVideoInfo.do?pid=%s&tz=-8&from=000dajuyuan&url=%s&idl=32&idlr=32&modifyed=false' % (
+                    vida_id,url),playlist_id, 'Get playlist links')
+                video_json = api_result['video']['chapters']
+                real_url = video_json[0]['url']
+                entries.append({'_type': 'video',
+                       'id':'%s' % idx,
+                       'title':title,
+                       'url': real_url})
+        else:
+            raise ExtractorError('Unexpected url %s' % url, expected=True)
+
+        return self.playlist_result(
+            entries, playlist_id, playlist_title)
+
+
+class NcpaClassicAudioIE(InfoExtractor):
+    _VALID_URL = r'http://www\.ncpa-classic\.com/clt/more/(?P<id>[0-9]*)/index.shtml'
+    _TESTS = [{
+        'url': 'http://www.ncpa-classic.com/clt/more/416/index.shtml',
+        'info_dict': {
+            'id': '416',
+            'title': '来自维也纳的新年贺礼'
+        },
+        'playlist_count': 1,
+    },{
+        'url': 'http://ncpa-classic.cntv.cn/clt/more/416/index.shtml',
+        'info_dict': {
+            'id': '416',
+            'title': '来自维也纳的新年贺礼'
+        },
+        'playlist_count': 1,
+    }]
+
+    def _real_extract(self, url):
+         playlist_id = self._match_id(url)
+         webpage = self._download_webpage(url,playlist_id)
+         videoCenterId = self._html_search_regex(r'\"(?P<videoCenterId>\w{32})\"',webpage,'videoCenterId', group='videoCenterId')
+         playlist_title = self._html_search_regex(
+             r'<title>(?P<title>.*)</title>', webpage,
+             'title', group='title')
+         api_result = self._download_json(
+             'http://vdn.apps.cntv.cn/api/getHttpVideoInfo.do?pid=%s&tz=-8&tai=dajuyuanaudio' % (
+             videoCenterId),playlist_id, 'Get playlist links')
+         entries = [{'_type': 'video',
+             'id': '%s' % idx,
+             'title':playlist_title,
+             'url': video.get('url')
+         }  for idx,video in enumerate(api_result['video']['chapters'])]
+
+         return self.playlist_result(
+            entries, playlist_id, playlist_title)