Added DRTV playlist extractor

2020-01-11 09:04:55 +01:00 · 2020-01-11 09:04:55 +01:00 · 3dcb639d07
commit 3dcb639d07
parent 75ef77c1b1
2 changed files with 70 additions and 0 deletions
--- a/youtube_dl/extractor/drtv.py
+++ b/youtube_dl/extractor/drtv.py
@ -21,6 +21,8 @@ from ..utils import (
    unified_timestamp,
    update_url_query,
    url_or_none,
    urljoin,
    base_url
 )
@ -296,6 +298,73 @@ class DRTVIE(InfoExtractor):
        }
 class DRTVPlaylistIE(InfoExtractor):
    _VALID_URL = r'''(?x)
                    https?://
                        (?:
                            (?:www\.)?(?:dr\.dk)/drtv/(?:serie|saeson)/
                        )
                        (?P<id>[\da-z_-]+)
                    '''
    _TEST = {
        'url': 'https://www.dr.dk/drtv/serie/spise-med-price_43537',
        'info_dict': {
            'id': 'spise-med-price_43537',
            'title': 'Spise med Price'
        },
        'playlist_mincount': 2,
    }
    @classmethod
    def suitable(cls, url):
        return False if DRTVIE.suitable(url) else super(
            DRTVPlaylistIE, cls).suitable(url)
    def _extract_series(self, url):
        display_id = self._match_id(url)
        webpage = self._download_webpage(url, display_id)
        episodes = []
        for season in re.finditer(r'href="(?P<url>/drtv/saeson/.+?)"', webpage):
            season_url = urljoin(base_url(url), season.group('url'))
            episodes = episodes + self._extract_episode_from_season(season_url)
        return episodes
    def _extract_episode_from_season(self, url):
        display_id = self._match_id(url)
        webpage = self._download_webpage(url, display_id)
        episodes = []
        for episode in re.finditer(r'href="(?P<url>/drtv/se/.+?)"', webpage):
            episode_url = urljoin(base_url(url), episode.group('url'))
            episodes.append(episode_url)
        return episodes
    def _real_extract(self, url):
        playlist_id = self._match_id(url)
        webpage = self._download_webpage(url, playlist_id)
        title = self._html_search_regex(
            r'<h1 class=".*?hero__title".*?>(.+?)</h1>', webpage,
            'title', default=None)
        if title:
            title = re.sub(r'\s*\|\s*.+?$', '', title)
        episodes = []
        if 'serie' in url:
            episodes = self._extract_series(url)
        elif 'saeson' in url:
            episodes = self._extract_episode_from_season(url)
        entries = [self.url_result(ep, ie=DRTVIE.ie_key()) for ep in episodes]
        return self.playlist_result(entries, playlist_id, title)
 class DRTVLiveIE(InfoExtractor):
    IE_NAME = 'drtv:live'
    _VALID_URL = r'https?://(?:www\.)?dr\.dk/(?:tv|TV)/live/(?P<id>[\da-z-]+)'
--- a/youtube_dl/extractor/extractors.py
+++ b/youtube_dl/extractor/extractors.py
@ -277,6 +277,7 @@ from .drbonanza import DRBonanzaIE
 from .drtuber import DrTuberIE
 from .drtv import (
    DRTVIE,
    DRTVPlaylistIE,
    DRTVLiveIE,
 )
 from .dtube import DTubeIE