l1ving_youtube-dl/youtube_dl/jsinterp2/tstream.py

from __future__ import unicode_literals

import re
import operator

from ..utils import ExtractorError
from .jsgrammar import (
    COMMENT_RE,
    TOKENS_RE,
    PUNCTUATIONS_RE,
    LOGICAL_OPERATORS_RE,
    UNARY_OPERATORS_RE,
    RELATIONS_RE,
    ASSIGN_OPERATORS_RE,
    OPERATORS_RE,
    Token
)

_PUNCTUATIONS = {
    '{': Token.COPEN,
    '}': Token.CCLOSE,
    '(': Token.POPEN,
    ')': Token.PCLOSE,
    '[': Token.SOPEN,
    ']': Token.SCLOSE,
    '.': Token.DOT,
    ';': Token.END,
    ',': Token.COMMA,
    '?': Token.HOOK,
    ':': Token.COLON
}
_LOGICAL_OPERATORS = {
    '&&': (Token.AND, lambda cur, right: cur and right),
    '||': (Token.OR, lambda cur, right: cur or right)
}
_UNARY_OPERATORS = {
    '+': (Token.PLUS, lambda cur: cur),
    '-': (Token.NEG, lambda cur: cur * -1),
    '++': (Token.INC, lambda cur: cur + 1),
    '--': (Token.DEC, lambda cur: cur - 1),
    '!': (Token.NOT, operator.not_),
    '~': (Token.BNOT, operator.inv),
    # XXX define these operators
    'delete': (Token.DEL, None),
    'void': (Token.VOID, None),
    'typeof': (Token.TYPE, lambda cur: type(cur))
}
_RELATIONS = {
    '<': (Token.LT, operator.lt),
    '>': (Token.GT, operator.gt),
    '<=': (Token.LE, operator.le),
    '>=': (Token.GE, operator.ge),
    # XXX check python and JavaScript equality difference
    '==': (Token.EQ, operator.eq),
    '!=': (Token.NE, operator.ne),
    '===': (Token.SEQ, lambda cur, right: cur == right and type(cur) == type(right)),
    '!==': (Token.SNE, lambda cur, right: not cur == right or not type(cur) == type(right)),
    'in': (Token.IN, operator.contains),
    'instanceof': (Token.INSTANCEOF, lambda cur, right: isinstance(cur, right))
}
_OPERATORS = {
    '|': (Token.BOR, operator.or_),
    '^': (Token.BXOR, operator.xor),
    '&': (Token.BAND, operator.and_),
    # NOTE convert to int before shift float
    '>>': (Token.RSHIFT, operator.rshift),
    '<<': (Token.LSHIFT, operator.lshift),
    '>>>': (Token.URSHIFT, lambda cur, right: cur >> right if cur >= 0 else (cur + 0x100000000) >> right),
    '-': (Token.SUB, operator.sub),
    '+': (Token.ADD, operator.add),
    '%': (Token.MOD, operator.mod),
    '/': (Token.DIV, operator.truediv),
    '*': (Token.MUL, operator.mul)
}
_ASSIGN_OPERATORS = dict((op + '=', ('set_%s' % token[0], token[1])) for op, token in _OPERATORS.items())
_ASSIGN_OPERATORS['='] = ('set', lambda cur, right: right)

_operator_lookup = {
    Token.OP: _OPERATORS,
    Token.AOP: _ASSIGN_OPERATORS,
    Token.UOP: _UNARY_OPERATORS,
    Token.LOP: _LOGICAL_OPERATORS,
    Token.REL: _RELATIONS
}
# only to check ids
_reserved_words = ('break', 'case', 'catch', 'continue', 'debugger', 'default', 'delete', 'do', 'else', 'finally',
                   'for', 'function', 'if', 'in', 'instanceof', 'new', 'return', 'switch', 'this', 'throw', 'try',
                   'typeof', 'var', 'void', 'while', 'with')
_input_element = re.compile(r'\s*(?:%(comment)s|%(token)s|%(lop)s|%(uop)s|%(aop)s|%(op)s|%(rel)s|%(punct)s)\s*' % {
    'comment': COMMENT_RE,
    'token': TOKENS_RE,
    'lop': LOGICAL_OPERATORS_RE,
    'uop': UNARY_OPERATORS_RE,
    'aop': ASSIGN_OPERATORS_RE,
    'op': OPERATORS_RE,
    'rel': RELATIONS_RE,
    'punct': PUNCTUATIONS_RE
})


def convert_to_unary(token_value):
    return {Token.ADD: _UNARY_OPERATORS['+'], Token.SUB: _UNARY_OPERATORS['-']}[token_value[0]]


class TokenStream(object):
    def __init__(self, code, start=0):
        super(TokenStream, self).__init__()
        self.code = code
        self.ended = False
        self.peeked = []
        self._ts = self._next_token(start)
        self._last = None

    def _next_token(self, pos=0):
        while not self.ended:
            feed_m = _input_element.match(self.code, pos)
            if feed_m is not None:
                token_id = feed_m.lastgroup
                token_value = feed_m.group(token_id)
                pos = feed_m.start(token_id)
                token_id = Token[Token.index(token_id)]
                self.ended = feed_m.end() >= len(self.code)  # because how yield works
                if token_id is Token.COMMENT:
                    pass
                # TODO date
                elif token_id is Token.NULL:
                    yield (token_id, None, pos)
                elif token_id is Token.BOOL:
                    yield (token_id, {'true': True, 'false': False}[token_value], pos)
                elif token_id is Token.STR:
                    yield (token_id, token_value[1:-1], pos)
                elif token_id is Token.INT:
                    root = ((16 if len(token_value) > 2 and token_value[1] in 'xX' else 8)
                            if token_value.startswith('0') else 10)
                    yield (token_id, int(token_value, root), pos)
                elif token_id is Token.FLOAT:
                    yield (token_id, float(token_value), pos)
                elif token_id is Token.REGEX:
                    # TODO error handling
                    regex = re.compile(feed_m.group('rebody'))
                    yield (token_id, (regex, feed_m.group('reflags')), pos)
                elif token_id is Token.ID:
                    yield (token_id, token_value, pos)
                elif token_id in _operator_lookup:
                    yield (token_id if token_value != 'in' else Token.IN,
                           _operator_lookup[token_id][token_value],
                           pos)
                elif token_id is Token.PUNCT:
                    yield (_PUNCTUATIONS[token_value], token_value, pos)
                else:
                    raise ExtractorError('Unexpected token at %d' % pos)
                pos = feed_m.end()
            elif pos >= len(self.code):
                self.ended = True
            else:
                raise ExtractorError('Unrecognised sequence at %d' % pos)
        raise StopIteration

    def chk_id(self, last=False):
        if last:
            name, value, pos = self._last
        else:
            name, value, pos = self.peek()
        if name is not Token.ID or value in _reserved_words:
            raise ExtractorError('Invalid identifier at %d' % pos)

    def peek(self, count=1):
        for _ in range(count - len(self.peeked)):
            token = next(self._ts, None)
            if token is None:
                self.peeked.append((Token.END, ';', len(self.code)))
            else:
                self.peeked.append(token)
        return self.peeked[count - 1]

    def pop(self, count=1):
        if count > len(self.peeked):
            self.peek(count)
            self.flush()
        else:
            self._last = self.peeked[count - 1]
            self.peeked = self.peeked[count:]
        return self._last

    def flush(self):
        if self.peeked:
            self._last = self.peeked[-1]
            self.peeked = []
        return self._last

    def last(self):
        return self._last
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`from __future__ import unicode_literals`

			`import re`
			`import operator`

			`from ..utils import ExtractorError`
			`from .jsgrammar import (`
			`COMMENT_RE,`
			`TOKENS_RE,`
			`PUNCTUATIONS_RE,`
			`LOGICAL_OPERATORS_RE,`
			`UNARY_OPERATORS_RE,`
			`RELATIONS_RE,`
			`ASSIGN_OPERATORS_RE,`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`OPERATORS_RE,`
[test, jsinterp] Adding sign test and refactor and fixing interpretation 2016-12-15 15:41:56 +01:00			`Token`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`)`

			`_PUNCTUATIONS = {`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`'{': Token.COPEN,`
			`'}': Token.CCLOSE,`
			`'(': Token.POPEN,`
			`')': Token.PCLOSE,`
			`'[': Token.SOPEN,`
			`']': Token.SCLOSE,`
			`'.': Token.DOT,`
			`';': Token.END,`
			`',': Token.COMMA,`
			`'?': Token.HOOK,`
			`':': Token.COLON`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`}`
			`_LOGICAL_OPERATORS = {`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`'&&': (Token.AND, lambda cur, right: cur and right),`
			`'\|\|': (Token.OR, lambda cur, right: cur or right)`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`}`
			`_UNARY_OPERATORS = {`
[test] Adding support for signed values (hopefully) 2016-12-15 10:56:45 +01:00			`'+': (Token.PLUS, lambda cur: cur),`
			`'-': (Token.NEG, lambda cur: cur * -1),`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`'++': (Token.INC, lambda cur: cur + 1),`
			`'--': (Token.DEC, lambda cur: cur - 1),`
			`'!': (Token.NOT, operator.not_),`
[test, jsinterp] Adding sign test and refactor and fixing interpretation 2016-12-15 15:41:56 +01:00			`'~': (Token.BNOT, operator.inv),`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`# XXX define these operators`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`'delete': (Token.DEL, None),`
			`'void': (Token.VOID, None),`
			`'typeof': (Token.TYPE, lambda cur: type(cur))`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`}`
			`_RELATIONS = {`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`'<': (Token.LT, operator.lt),`
			`'>': (Token.GT, operator.gt),`
			`'<=': (Token.LE, operator.le),`
			`'>=': (Token.GE, operator.ge),`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`# XXX check python and JavaScript equality difference`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`'==': (Token.EQ, operator.eq),`
			`'!=': (Token.NE, operator.ne),`
			`'===': (Token.SEQ, lambda cur, right: cur == right and type(cur) == type(right)),`
[jsinterp] Adding ast to for empty and for in parser test 2016-12-12 23:52:10 +01:00			`'!==': (Token.SNE, lambda cur, right: not cur == right or not type(cur) == type(right)),`
[test] Adding support for signed values (hopefully) 2016-12-15 10:56:45 +01:00			`'in': (Token.IN, operator.contains),`
			`'instanceof': (Token.INSTANCEOF, lambda cur, right: isinstance(cur, right))`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`}`
			`_OPERATORS = {`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`'\|': (Token.BOR, operator.or_),`
			`'^': (Token.BXOR, operator.xor),`
			`'&': (Token.BAND, operator.and_),`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`# NOTE convert to int before shift float`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`'>>': (Token.RSHIFT, operator.rshift),`
			`'<<': (Token.LSHIFT, operator.lshift),`
			`'>>>': (Token.URSHIFT, lambda cur, right: cur >> right if cur >= 0 else (cur + 0x100000000) >> right),`
			`'-': (Token.SUB, operator.sub),`
			`'+': (Token.ADD, operator.add),`
			`'%': (Token.MOD, operator.mod),`
			`'/': (Token.DIV, operator.truediv),`
			`'*': (Token.MUL, operator.mul)`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`}`
			`_ASSIGN_OPERATORS = dict((op + '=', ('set_%s' % token[0], token[1])) for op, token in _OPERATORS.items())`
			`_ASSIGN_OPERATORS['='] = ('set', lambda cur, right: right)`

[jsinterp] Preliminary fixes after some testing of ast 2016-12-05 11:44:32 +01:00			`_operator_lookup = {`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`Token.OP: _OPERATORS,`
			`Token.AOP: _ASSIGN_OPERATORS,`
			`Token.UOP: _UNARY_OPERATORS,`
			`Token.LOP: _LOGICAL_OPERATORS,`
			`Token.REL: _RELATIONS`
[jsinterp] Preliminary fixes after some testing of ast 2016-12-05 11:44:32 +01:00			`}`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`# only to check ids`
[jsinterp] Preliminary fixes after some testing of ast 2016-12-05 11:44:32 +01:00			`_reserved_words = ('break', 'case', 'catch', 'continue', 'debugger', 'default', 'delete', 'do', 'else', 'finally',`
			`'for', 'function', 'if', 'in', 'instanceof', 'new', 'return', 'switch', 'this', 'throw', 'try',`
			`'typeof', 'var', 'void', 'while', 'with')`
[jsinterp] Very basic interpreter Supports: - variable declaration - expression - variable assignment Lacks: - call - array access - property access - property declaration 2016-12-06 18:42:59 +01:00			`_input_element = re.compile(r'\s(?:%(comment)s\|%(token)s\|%(lop)s\|%(uop)s\|%(aop)s\|%(op)s\|%(rel)s\|%(punct)s)\s' % {`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`'comment': COMMENT_RE,`
			`'token': TOKENS_RE,`
			`'lop': LOGICAL_OPERATORS_RE,`
			`'uop': UNARY_OPERATORS_RE,`
			`'aop': ASSIGN_OPERATORS_RE,`
[jsinterp] Very basic interpreter Supports: - variable declaration - expression - variable assignment Lacks: - call - array access - property access - property declaration 2016-12-06 18:42:59 +01:00			`'op': OPERATORS_RE,`
			`'rel': RELATIONS_RE,`
			`'punct': PUNCTUATIONS_RE`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`})`


[test, jsinterp] Adding sign test and refactor and fixing interpretation 2016-12-15 15:41:56 +01:00			`def convert_to_unary(token_value):`
			`return {Token.ADD: _UNARY_OPERATORS['+'], Token.SUB: _UNARY_OPERATORS['-']}[token_value[0]]`


[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`class TokenStream(object):`
			`def __init__(self, code, start=0):`
[jsinterp] super object in subclasses __init__ 2017-01-22 14:26:45 +01:00			`super(TokenStream, self).__init__()`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`self.code = code`
			`self.ended = False`
			`self.peeked = []`
			`self._ts = self._next_token(start)`
			`self._last = None`

			`def _next_token(self, pos=0):`
[jsinterp] Preliminary fixes after some testing of ast 2016-12-05 11:44:32 +01:00			`while not self.ended:`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`feed_m = _input_element.match(self.code, pos)`
			`if feed_m is not None:`
			`token_id = feed_m.lastgroup`
			`token_value = feed_m.group(token_id)`
			`pos = feed_m.start(token_id)`
[jsinterp] Str tokens are easier to deal with 2016-12-07 21:03:57 +01:00			`token_id = Token[Token.index(token_id)]`
[jsinterp] Preliminary fixes after some testing of ast 2016-12-05 11:44:32 +01:00			`self.ended = feed_m.end() >= len(self.code) # because how yield works`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`if token_id is Token.COMMENT:`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`pass`
			`# TODO date`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`elif token_id is Token.NULL:`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`yield (token_id, None, pos)`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`elif token_id is Token.BOOL:`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`yield (token_id, {'true': True, 'false': False}[token_value], pos)`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`elif token_id is Token.STR:`
[jsinterp] More test and str fix 2016-12-08 09:20:14 +01:00			`yield (token_id, token_value[1:-1], pos)`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`elif token_id is Token.INT:`
[test] Adding jstests test suite 2016-12-14 18:21:57 +01:00			`root = ((16 if len(token_value) > 2 and token_value[1] in 'xX' else 8)`
			`if token_value.startswith('0') else 10)`
			`yield (token_id, int(token_value, root), pos)`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`elif token_id is Token.FLOAT:`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`yield (token_id, float(token_value), pos)`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`elif token_id is Token.REGEX:`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`# TODO error handling`
			`regex = re.compile(feed_m.group('rebody'))`
[jsinterp] Very basic interpreter Supports: - variable declaration - expression - variable assignment Lacks: - call - array access - property access - property declaration 2016-12-06 18:42:59 +01:00			`yield (token_id, (regex, feed_m.group('reflags')), pos)`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`elif token_id is Token.ID:`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`yield (token_id, token_value, pos)`
[jsinterp] Preliminary fixes after some testing of ast 2016-12-05 11:44:32 +01:00			`elif token_id in _operator_lookup:`
[jsinterp] Adding ast to for empty and for in parser test 2016-12-12 23:52:10 +01:00			`yield (token_id if token_value != 'in' else Token.IN,`
			`_operator_lookup[token_id][token_value],`
			`pos)`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`elif token_id is Token.PUNCT:`
[jsinterp] Preliminary fixes after some testing of ast 2016-12-05 11:44:32 +01:00			`yield (_PUNCTUATIONS[token_value], token_value, pos)`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`else:`
			`raise ExtractorError('Unexpected token at %d' % pos)`
			`pos = feed_m.end()`
[test] Adding jstests test suite 2016-12-14 18:21:57 +01:00			`elif pos >= len(self.code):`
			`self.ended = True`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`else:`
			`raise ExtractorError('Unrecognised sequence at %d' % pos)`
			`raise StopIteration`

			`def chk_id(self, last=False):`
			`if last:`
			`name, value, pos = self._last`
			`else:`
			`name, value, pos = self.peek()`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`if name is not Token.ID or value in _reserved_words:`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`raise ExtractorError('Invalid identifier at %d' % pos)`

			`def peek(self, count=1):`
			`for _ in range(count - len(self.peeked)):`
			`token = next(self._ts, None)`
			`if token is None:`
[jsinterp] Token class for tokens 2016-12-07 07:28:09 +01:00			`self.peeked.append((Token.END, ';', len(self.code)))`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`else:`
			`self.peeked.append(token)`
			`return self.peeked[count - 1]`

[jsinterp] Finished parser if test 2016-12-11 17:36:19 +01:00			`def pop(self, count=1):`
[jsinterp] Fixing TokenStrem pop, label statement, function body 2016-12-11 23:30:03 +01:00			`if count > len(self.peeked):`
			`self.peek(count)`
			`self.flush()`
			`else:`
			`self._last = self.peeked[count - 1]`
			`self.peeked = self.peeked[count:]`
[jsinterp] Finished parser if test 2016-12-11 17:36:19 +01:00			`return self._last`

			`def flush(self):`
			`if self.peeked:`
			`self._last = self.peeked[-1]`
			`self.peeked = []`
[jsinterp] Refactoring and minor fixes 2016-12-04 19:15:35 +01:00			`return self._last`

			`def last(self):`
[jsinterp] Preliminary fixes after some testing of ast 2016-12-05 11:44:32 +01:00			`return self._last`