symbolize_trace - OpenGrok cross reference for /dports/www/chromium-legacy/chromium-88.0.4324.182/third_party/catapult/experimental/tracing/bin/symbolize_trace

#!/usr/bin/env python
# Copyright 2016 The Chromium Authors. All rights reserved.
# Use of this source code is governed by a BSD-style license that can be
# found in the LICENSE file.

import argparse
import bisect
import collections
import gzip
import itertools
import json
import os
import re
import subprocess
import sys
import tempfile

sys.path.append(os.path.abspath(os.path.join(
    os.path.dirname(os.path.realpath(__file__)),
    '..', '..', '..', 'tracing', 'tracing', 'extras')))
sys.path.append(os.path.abspath(os.path.join(
    os.path.dirname(os.path.realpath(__file__)),
    '..', '..', '..', 'tracing', 'third_party', 'symbols')))
# pylint: disable=import-error
import symbols.elf_symbolizer as elf_symbolizer

from symbolizer import symbolize_trace_atos_regex
from symbolizer import symbolize_trace_macho_reader


class MemoryMap(object):
  """Represents 'process_mmaps' trace file entry."""

  class Region(object):
    def __init__(self, start_address, size, file_path):
      self._start_address = start_address
      self._size = size
      self._file_path = file_path

    @property
    def start_address(self):
      return self._start_address

    @property
    def end_address(self):
      return self._start_address + self._size

    @property
    def size(self):
      return self._size

    @property
    def file_path(self):
      return self._file_path

    def __cmp__(self, other):
      if isinstance(other, type(self)):
        other_start_address = other._start_address
      elif isinstance(other, (long, int)):
        other_start_address = other
      else:
        raise Exception('Cannot compare with %s' % type(other))
      if self._start_address < other_start_address:
        return -1
      elif self._start_address > other_start_address:
        return 1
      else:
        return 0

    def __repr__(self):
      return 'Region(0x{:X} - 0x{:X}, {})'.format(
          self.start_address, self.end_address, self.file_path)

  def __init__(self, process_mmaps_json):
    regions = []
    for region_json in process_mmaps_json['vm_regions']:
      regions.append(self.Region(
          long(region_json['sa'], 16),
          long(region_json['sz'], 16),
          region_json['mf']))
    regions.sort()

    # Copy regions without duplicates and check for overlaps.
    self._regions = []
    previous_region = None
    for region in regions:
      if previous_region is not None:
        if region == previous_region:
          continue
        assert region.start_address >= previous_region.end_address, \
            'Regions {} and {} overlap.'.format(previous_region, region)
      previous_region = region
      self._regions.append(region)

  @property
  def regions(self):
    return self._regions

  def FindRegion(self, address):
    """Finds region containing |address|. Returns None if none found."""

    region_index = bisect.bisect_right(self._regions, address) - 1
    if region_index >= 0:
      region = self._regions[region_index]
      if address >= region.start_address and address < region.end_address:
        return region
    return None


class UnsupportedHeapDumpVersionError(Exception):
  def __init__(self, version):
    message = 'Unsupported heap dump version: {}'.format(version)
    super(UnsupportedHeapDumpVersionError, self).__init__(message)


class StringMap(object):
  def __init__(self):
    self._modified = False
    self._string_jsons = []
    self._string_by_id = {}
    self._id_by_string = {}
    self._max_string_id = 0

  @property
  def modified(self):
    return self._modified

  @property
  def string_by_id(self):
    return self._string_by_id

  def ParseMore(self, heap_dump_version, strings_json):
    if heap_dump_version != Trace.HEAP_DUMP_VERSION_1:
      raise UnsupportedHeapDumpVersionError(heap_dump_version)

    self._string_jsons.append(strings_json)
    for string_json in strings_json:
      self._Insert(string_json['id'], string_json['string'])

  def Clear(self):
    if self._string_by_id:
      self._modified = True
      self._string_by_id = {}
      self._id_by_string = {}
      self._Insert(0, '[null]')
      self._max_string_id = 0

  def AddString(self, string):
    string_id = self._id_by_string.get(string)
    if string_id is None:
      string_id = self._max_string_id + 1
      self._Insert(string_id, string)
      self._modified = True
    return string_id

  def ApplyModifications(self):
    if not self.modified:
      return

    assert self._string_jsons, 'no JSON nodes'

    # Serialize into first JSON node, and clear all others.

    for string_json in self._string_jsons:
      string_json[:] = []
    string_json = self._string_jsons[0]
    for string_id, string in self._string_by_id.iteritems():
      string_json.append({'id': string_id, 'string': string})

    self._modified = False

  def _Insert(self, string_id, string):
    self._id_by_string[string] = string_id
    self._string_by_id[string_id] = string
    self._max_string_id = max(self._max_string_id, string_id)


class TypeNameMap(object):
  UNKNOWN_TYPE_ID = 0

  def __init__(self):
    self._modified = False
    self._type_name_jsons = []
    self._name_by_id = {}
    self._id_by_name = {}
    self._max_type_id = 0

  @property
  def modified(self):
    return self._modified

  @property
  def name_by_id(self):
    return self._name_by_id

  def ParseMore(self, heap_dump_version, type_name_json, string_map):
    if heap_dump_version != Trace.HEAP_DUMP_VERSION_1:
      raise UnsupportedHeapDumpVersionError(heap_dump_version)

    self._type_name_jsons.append(type_name_json)
    for type_json in type_name_json:
      self._Insert(type_json['id'],
                   string_map.string_by_id[type_json['name_sid']])

  def AddType(self, type_name):
    type_id = self._id_by_name.get(type_name)
    if type_id is None:
      type_id = self._max_type_id + 1
      self._Insert(type_id, type_name)
      self._modified = True
    return type_id

  def ApplyModifications(self, string_map, force=False):
    if not self.modified and not force:
      return

    assert self._type_name_jsons, 'no JSON nodes'

    # Serialize into first JSON node, and clear all others.

    for types_json in self._type_name_jsons:
      types_json[:] = []
    types_json = self._type_name_jsons[0]
    for type_id, type_name in self._name_by_id.iteritems():
      types_json.append({
          'id': type_id,
          'name_sid': string_map.AddString(type_name)})

    self._modified = False

  def _Insert(self, type_id, type_name):
    self._id_by_name[type_name] = type_id
    self._name_by_id[type_id] = type_name
    self._max_type_id = max(self._max_type_id, type_id)


class StackFrameMap(object):
  class Frame(object):
    def __init__(self, frame_id, name, parent_frame_id):
      self._modified = False
      self._id = frame_id
      self._name = name
      self._pc = self._ParsePC(name)
      self._parent_id = parent_frame_id
      self._parent = None
      self._ext = None

    @property
    def modified(self):
      return self._modified

    @property
    def id(self):
      return self._id

    @property
    def pc(self):
      return self._pc

    @property
    def name(self):
      return self._name

    @name.setter
    def name(self, value):
      self._modified = True
      self._name = value

    @property
    def parent_id(self):
      return self._parent_id

    @property
    def parent(self):
      return self._parent

    @property
    def ext(self):
      if self._ext is None:
        self._ext = self._ExtraProperties()
      return self._ext

    _PC_TAG = 'pc:'

    class _ExtraProperties(object):
      def __getattr__(self, name):
        return None

    def _ParsePC(self, name):
      if not name.startswith(self._PC_TAG):
        return None
      return long(name[len(self._PC_TAG):], 16)

    def _ClearModified(self):
      self._modified = False

    def _ResolveParent(self, parent):
      assert parent.id == self._parent_id, 'wrong parent'
      self._parent = parent

    def _ChangeParent(self, parent):
      self._parent = parent
      self._parent_id = parent.id
      self._modified = True

  def __init__(self):
    self._modified = False
    self._heap_dump_version = None
    self._stack_frames_jsons = []
    self._frame_by_id = {}
    self._max_frame_id = 0

  @property
  def modified(self):
    return (self._modified or
            any(f.modified for f in self._frame_by_id.itervalues()))

  @property
  def frame_by_id(self):
    return self._frame_by_id

  def ParseMore(self, heap_dump_version, stack_frames_json, string_map):
    frame_by_id = {}
    if heap_dump_version == Trace.HEAP_DUMP_VERSION_LEGACY:
      if self._stack_frames_jsons:
        raise Exception('Legacy stack frames are expected only once.')
      for frame_id, frame_json in stack_frames_json.iteritems():
        frame = self.Frame(frame_id,
                           frame_json['name'],
                           frame_json.get('parent'))
        frame_by_id[frame.id] = frame
    else:
      if heap_dump_version != Trace.HEAP_DUMP_VERSION_1:
        raise UnsupportedHeapDumpVersionError(heap_dump_version)
      for frame_json in stack_frames_json:
        frame = self.Frame(frame_json['id'],
                           string_map.string_by_id[frame_json['name_sid']],
                           frame_json.get('parent'))
        frame_by_id[frame.id] = frame

    self._heap_dump_version = heap_dump_version
    self._stack_frames_jsons.append(stack_frames_json)

    for frame in frame_by_id.itervalues():
      if frame.parent_id:
        parent = frame_by_id.get(frame.parent_id)
        if not parent:
          # Parent was added by previous ParseMore() call
          parent = self._frame_by_id[frame.parent_id]
        frame._ResolveParent(parent)
      self._frame_by_id[frame.id] = frame
      self._max_frame_id = max(frame.id, self._max_frame_id)

  def AddFrame(self, name, parent_frame):
    self._max_frame_id += 1
    parent_id = None if parent_frame is None else parent_frame.id
    frame = self.Frame(self._max_frame_id, name, parent_id)
    if parent_frame is not None:
      frame._ResolveParent(parent_frame)
    self._frame_by_id[frame.id] = frame
    self._modified = True
    return frame

  def MergeFrames(self, get_frame_key):
    """ On each level, merges frames with similar keys.

    This method builds a frame tree and then for each node merges children
    with similar keys, as returned by |get_frame_key|. Keys are arbitrary
    objects.

    If |get_frame_key| returns None, then the corresponding tree branch
    removed (i.e. it removes the frame and all child frames, recursively).

    The method returns 'merged_frames_by_frame', which is a dictionary that
    maps frame to all frames that were merged into it. All removed frames are
    added under None key.
    """
    class _Node(object):
      def __init__(self, frame):
        self.marked = False
        self.frame = frame
        self.children = []

      def Mark(self, marked_nodes=None):
        self.marked = True
        if marked_nodes is not None:
          marked_nodes.append(self)
        for child in self.children:
          child.Mark(marked_nodes)

    # TODO(dskiba): use BuildFrameTree() instead
    node_by_id = {}
    def _NodeForFrame(frame):
      node = node_by_id.get(frame.id)
      if node is None:
        node = _Node(frame)
        node_by_id[frame.id] = node
      return node

    root_node = _Node(None)
    for frame in self._frame_by_id.itervalues():
      if frame.parent is None:
        root_node.children.append(_NodeForFrame(frame))
      else:
        parent_node = _NodeForFrame(frame.parent)
        parent_node.children.append(_NodeForFrame(frame))

    merged_frames_by_frame = collections.defaultdict(list)
    def _MergeChildren(node):
      children_by_key = collections.defaultdict(list)
      for child in node.children:
        key = get_frame_key(child.frame)
        if key is None:
          marked_nodes = []
          child.Mark(marked_nodes)
          removed_frames = merged_frames_by_frame[None]
          removed_frames.extend(n.frame for n in marked_nodes)
        else:
          children_by_key[key].append(child)
      node.children = []
      for children in children_by_key.itervalues():
        child = children[0]
        node.children.append(child)
        if len(children) > 1:
          merged_frames = merged_frames_by_frame[child.frame]
          for dupchild in children[1:]:
            for grandchild in dupchild.children:
              grandchild.frame._ChangeParent(child.frame)
              child.children.append(grandchild)
            dupchild.children = []
            dupchild.Mark()
            merged_frames.append(dupchild.frame)
        _MergeChildren(child)

    _MergeChildren(root_node)

    if merged_frames_by_frame:
      self._frame_by_id = {i:n.frame for i, n in node_by_id.iteritems()
                           if not n.marked}
      self._modified = True

    return merged_frames_by_frame

  def ApplyModifications(self, string_map, force=False):
    if not self.modified and not force:
      return

    assert self._stack_frames_jsons, 'no JSON nodes'
    if self._heap_dump_version == Trace.HEAP_DUMP_VERSION_LEGACY:
      assert string_map is None, \
          'string_map should not be used with the legacy format'

    # Serialize frames into first JSON node, and clear all others.

    for frames_json in self._stack_frames_jsons:
      if self._heap_dump_version == Trace.HEAP_DUMP_VERSION_LEGACY:
        frames_json.clear()
      else:
        frames_json[:] = []

    frames_json = self._stack_frames_jsons[0]
    for frame in self._frame_by_id.itervalues():
      if self._heap_dump_version == Trace.HEAP_DUMP_VERSION_LEGACY:
        frame_json = {'name': frame.name}
        frames_json[frame.id] = frame_json
      else:
        frame_json = {
            'id': frame.id,
            'name_sid': string_map.AddString(frame.name)
        }
        frames_json.append(frame_json)
      if frame.parent_id is not None:
        frame_json['parent'] = frame.parent_id
      frame._ClearModified()

    self._modified = False

  def BuildFrameTree(self, node_type):
    """ Creates a frame tree using provided node type.

    |node_type| is expected to have:
    1. __init__(self, frame)
    2. 'children' array

    The function returns tuple (root_node, node_by_frame_id).
    """

    node_by_id = {}
    def _NodeForFrame(frame):
      node = node_by_id.get(frame.id)
      if node is None:
        node = node_type(frame)
        node_by_id[frame.id] = node
      return node

    root_node = node_type(None)
    for frame in self._frame_by_id.itervalues():
      if frame.parent is None:
        root_node.children.append(_NodeForFrame(frame))
      else:
        parent_node = _NodeForFrame(frame.parent)
        parent_node.children.append(_NodeForFrame(frame))

    return (root_node, node_by_id)


class HeapProfile(object):
  EntryKey = collections.namedtuple(
      'EntryKey',
      ['stack_frame_id', 'type_name_id'])

  class Entry(object):
    def __init__(self, key, mapped_value_by_name, numeric_value_by_name):
      self._key = key
      self._mapped_value_by_name = mapped_value_by_name
      self._numeric_value_by_name = numeric_value_by_name

    @property
    def key(self):
      return self._key

    @property
    def stack_frame_id(self):
      return self._key.stack_frame_id

    @property
    def type_name_id(self):
      return self._key.type_name_id

    @property
    def size(self):
      return self._numeric_value_by_name.get(
          HeapProfile._SIZES_JSON_VALUE_NAME)

    def _AddValuesFrom(self, entry):
      self._mapped_value_by_name.clear()
      for name, value in entry._numeric_value_by_name.iteritems():
        value += self._numeric_value_by_name.get(name, 0)
        self._numeric_value_by_name[name] = value

  def __init__(self, allocator_name, entries_json, mapped_entry_names):
    self._modified = False
    self._allocator_name = allocator_name
    self._entries_json = entries_json
    self._entries = []
    for values in zip(*entries_json.itervalues()):
      stack_frame_id = None
      type_name_id = None
      mapped_value_by_name = {}
      numeric_value_by_name = {}
      for index, name in enumerate(entries_json.iterkeys()):
        value = values[index]
        if name == self._STACK_FRAME_ID_JSON_VALUE_NAME:
          stack_frame_id = value
        elif name == self._TYPE_NAME_ID_JSON_VALUE_NAME:
          type_name_id = value
        elif name in mapped_entry_names:
          mapped_value_by_name[name] = value
        else:
          numeric_value_by_name[name] = value
      entry = self.Entry(self.EntryKey(stack_frame_id, type_name_id),
                         mapped_value_by_name, numeric_value_by_name)
      self._entries.append(entry)

  @property
  def modified(self):
    return self._modified

  @property
  def allocator_name(self):
    return self._allocator_name

  @property
  def entries(self):
    return self._entries

  def AddEntry(self, entry_key):
    entry = self.Entry(entry_key, {}, {})
    self._entries.append(entry)
    self._modified = True
    return entry

  def MergeEntries(self, get_entry_key):
    entry_by_key = {}
    for entry in self._entries:
      new_key = get_entry_key(entry)
      new_entry = entry_by_key.get(new_key)
      if new_entry is None:
        entry_by_key[new_key] = entry
      else:
        new_entry._AddValuesFrom(entry)

    if len(self._entries) != len(entry_by_key):
      # This means that we hit _AddValuesFrom() above at least once,
      # i.e. merged at least one entry.
      self._entries = []
      for key, entry in entry_by_key.iteritems():
        entry._key = key
        self._entries.append(entry)
      self._modified = True

  def ApplyModifications(self):
    if not self.modified:
      return

    mapped_value_names = set()
    numeric_value_names = set()
    for entry in self._entries:
      mapped_value_names.update(entry._mapped_value_by_name.iterkeys())
      numeric_value_names.update(entry._numeric_value_by_name.iterkeys())

    def _AddJSONValue(name, value):
      values = self._entries_json.get(name)
      if values is None:
        values = []
        self._entries_json[name] = values
      values.append(value)

    self._entries_json.clear()
    for entry in self._entries:
      _AddJSONValue(self._STACK_FRAME_ID_JSON_VALUE_NAME, entry.stack_frame_id)
      _AddJSONValue(self._TYPE_NAME_ID_JSON_VALUE_NAME, entry.type_name_id)
      for name in mapped_value_names:
        value = entry._mapped_value_by_name[name]
        _AddJSONValue(name, value)
      for name in numeric_value_names:
        value = entry._numeric_value_by_name[name]
        _AddJSONValue(name, value)

    self._modified = False

  _STACK_FRAME_ID_JSON_VALUE_NAME = 'nodes'
  _TYPE_NAME_ID_JSON_VALUE_NAME = 'types'
  _SIZES_JSON_VALUE_NAME = 'sizes'


class MemoryDump(object):
  def __init__(self, allocators_json, mapped_entry_names):
    self._profiles = []
    for allocator_name, entries_json in allocators_json.iteritems():
      profile = HeapProfile(allocator_name, entries_json, mapped_entry_names)
      self._profiles.append(profile)

  @property
  def modified(self):
    return any(p.modified for p in self.profiles)

  @property
  def profiles(self):
    return self._profiles

  def ApplyModifications(self):
    for profile in self._profiles:
      profile.ApplyModifications()


class Trace(object):

  HEAP_DUMP_VERSION_LEGACY = 'Legacy'
  HEAP_DUMP_VERSION_1 = 1

  class Process(object):
    def __init__(self, pid):
      self._pid = pid
      self._name = None
      self._memory_map = None
      self._memory_dumps = []
      self._stack_frame_map = StackFrameMap()
      self._type_name_map = TypeNameMap()
      self._string_map = StringMap()
      self._heap_dump_version = None

    @property
    def modified(self):
      return (self._stack_frame_map.modified or
              self._type_name_map.modified or
              any(d.modified for d in self._memory_dumps))

    @property
    def pid(self):
      return self._pid

    @property
    def name(self):
      return self._name

    @property
    def unique_name(self):
      name = self._name if self._name else 'UnnamedProcess'
      return '{}({})'.format(name, self._pid)

    @property
    def memory_map(self):
      return self._memory_map

    @property
    def memory_dumps(self):
      return self._memory_dumps

    @property
    def stack_frame_map(self):
      return self._stack_frame_map

    @property
    def type_name_map(self):
      return self._type_name_map

    def ApplyModifications(self):
      if self._heap_dump_version == Trace.HEAP_DUMP_VERSION_LEGACY:
        self._stack_frame_map.ApplyModifications(None)
      else:
        if self._stack_frame_map.modified or self._type_name_map.modified:
          self._string_map.Clear()
          self._stack_frame_map.ApplyModifications(self._string_map, force=True)
          self._type_name_map.ApplyModifications(self._string_map, force=True)
          self._string_map.ApplyModifications()
        for dump in self._memory_dumps:
          dump.ApplyModifications()

  def __init__(self, trace_json):
    self._trace_json = trace_json
    self._processes = []
    self._heap_dump_version = None

    # Misc per-process information needed only during parsing.
    class ProcessExt(object):
      def __init__(self, pid):
        self.process = Trace.Process(pid)
        self.mapped_entry_names = set()
        self.process_mmaps_json = None
        self.seen_strings_json = False

    process_ext_by_pid = {}

    # Android traces produced via 'chrome://inspect/?tracing#devices' are
    # just list of events.
    events = trace_json if isinstance(trace_json, list) \
             else trace_json['traceEvents']
    for event in events:
      name = event.get('name')
      if not name:
        continue

      pid = event['pid']
      process_ext = process_ext_by_pid.get(pid)
      if process_ext is None:
        process_ext = ProcessExt(pid)
        process_ext_by_pid[pid] = process_ext
      process = process_ext.process

      phase = event['ph']
      if phase == self._EVENT_PHASE_METADATA:
        if name == 'process_name':
          process._name = event['args']['name']
        elif name == 'stackFrames':
          process._stack_frame_map.ParseMore(
              self._UseHeapDumpVersion(self.HEAP_DUMP_VERSION_LEGACY),
              event['args']['stackFrames'],
              process._string_map)
      elif phase == self._EVENT_PHASE_MEMORY_DUMP:
        dumps = event['args']['dumps']
        process_mmaps = dumps.get('process_mmaps')
        if process_mmaps:
          # We want the most recent memory map, so parsing happens later
          # once we finished reading all events.
          process_ext.process_mmaps_json = process_mmaps
        heaps = dumps.get('heaps_v2')
        if heaps:
          version = self._UseHeapDumpVersion(heaps['version'])
          maps = heaps.get('maps')
          if maps:
            process_ext.mapped_entry_names.update(maps.iterkeys())
            types = maps.get('types')
            stack_frames = maps.get('nodes')
            strings = maps.get('strings')
            if (strings is None and (types or stack_frames)
                and not process_ext.seen_strings_json):
              # ApplyModifications() for TypeNameMap and StackFrameMap puts
              # everything into the first node and depends on StringMap. So
              # we need to make sure that 'strings' node is there if any of
              # other two nodes present.
              strings = []
              maps['strings'] = strings
            if strings is not None:
              process_ext.seen_strings_json = True
              process._string_map.ParseMore(version, strings)
            if types:
              process._type_name_map.ParseMore(
                  version, types, process._string_map)
            if stack_frames:
              process._stack_frame_map.ParseMore(
                  version, stack_frames, process._string_map)
          allocators = heaps.get('allocators')
          if allocators:
            dump = MemoryDump(allocators, process_ext.mapped_entry_names)
            process._memory_dumps.append(dump)

    self._processes = []
    for pe in process_ext_by_pid.itervalues():
      pe.process._heap_dump_version = self._heap_dump_version
      if pe.process_mmaps_json:
        # Now parse the most recent memory map.
        pe.process._memory_map = MemoryMap(pe.process_mmaps_json)
      self._processes.append(pe.process)

  @property
  def modified(self):
    return any(p.modified for p in self._processes)

  @property
  def processes(self):
    return self._processes

  @property
  def heap_dump_version(self):
    return self._heap_dump_version

  def ApplyModifications(self):
    for process in self._processes:
      process.ApplyModifications()
    assert not self.modified, 'still modified'

  def Serialize(self):
    return self._trace_json

  # Relevant trace event phases from Chromium's
  # src/base/trace_event/common/trace_event_common.h.
  _EVENT_PHASE_METADATA = 'M'
  _EVENT_PHASE_MEMORY_DUMP = 'v'

  def _UseHeapDumpVersion(self, version):
    if self._heap_dump_version is None:
      self._heap_dump_version = version
      return version
    elif self._heap_dump_version != version:
      raise Exception(
          ("Inconsistent trace file: first saw '{}' heap dump version, "
           "then '{}'.").format(self._heap_dump_version, version))
    else:
      return version


class SymbolizableFile(object):
  """Holds file path, addresses to symbolize and stack frames to update.

  This class is a link between ELFSymbolizer and a trace file: it specifies
  what to symbolize (addresses) and what to update with the symbolization
  result (frames).
  """
  def __init__(self, file_path):
    self.path = file_path
    self.symbolizable_path = file_path # path to use for symbolization
    self.frames_by_address = collections.defaultdict(list)


def ResolveSymbolizableFiles(processes):
  """Resolves and groups PCs into list of SymbolizableFiles.

  As part of the grouping process, this function resolves PC from each stack
  frame to the corresponding mmap region. Stack frames that failed to resolve
  are symbolized with '<unresolved>'.
  """
  symfile_by_path = {}
  for process in processes:
    if not process.memory_map:
      continue
    for frame in process.stack_frame_map.frame_by_id.itervalues():
      if frame.pc is None:
        continue
      region = process.memory_map.FindRegion(frame.pc)
      if region is None:
        frame.name = '<unresolved>'
        continue

      symfile = symfile_by_path.get(region.file_path)
      if symfile is None:
        symfile = SymbolizableFile(region.file_path)
        symfile_by_path[symfile.path] = symfile

      relative_pc = frame.pc - region.start_address
      symfile.frames_by_address[relative_pc].append(frame)
  return symfile_by_path.values()


def FindInSystemPath(binary_name):
  paths = os.environ['PATH'].split(os.pathsep)
  for path in paths:
    binary_path = os.path.join(path, binary_name)
    if os.path.isfile(binary_path):
      return binary_path
  return None


class Symbolizer(object):
  # Encapsulates platform-specific symbolization logic.
  def __init__(self):
    self.is_mac = sys.platform == 'darwin'
    self.is_win = sys.platform == 'win32'
    if self.is_mac:
      self.binary = 'atos'
      self._matcher = symbolize_trace_atos_regex.AtosRegexMatcher()
    elif self.is_win:
      self.binary = 'addr2line-pdb.exe'
    else:
      self.binary = 'addr2line'
    self.symbolizer_path = FindInSystemPath(self.binary)

  def _SymbolizeLinuxAndAndroid(self, symfile, unsymbolized_name):
    def _SymbolizerCallback(sym_info, frames):
      # Unwind inline chain to the top.
      while sym_info.inlined_by:
        sym_info = sym_info.inlined_by

      symbolized_name = sym_info.name if sym_info.name else unsymbolized_name
      for frame in frames:
        frame.name = symbolized_name
        frame.ext.source_path = sym_info.source_path

    symbolizer = elf_symbolizer.ELFSymbolizer(symfile.symbolizable_path,
                                              self.symbolizer_path,
                                              _SymbolizerCallback,
                                              inlines=True)

    for address, frames in symfile.frames_by_address.iteritems():
      # SymbolizeAsync() asserts that the type of address is int. We operate
      # on longs (since they are raw pointers possibly from 64-bit processes).
      # It's OK to cast here because we're passing relative PC, which should
      # always fit into int.
      symbolizer.SymbolizeAsync(int(address), frames)

    symbolizer.Join()


  def _SymbolizeMac(self, symfile):
    load_address = (symbolize_trace_macho_reader.
        ReadMachOTextLoadAddress(symfile.symbolizable_path))
    assert load_address is not None

    address_os_file, address_file_path = tempfile.mkstemp()
    try:
      with os.fdopen(address_os_file, 'w') as address_file:
        for address in symfile.frames_by_address.iterkeys():
          address_file.write('{:x} '.format(address + load_address))

      cmd = [self.symbolizer_path, '-arch', 'x86_64', '-l',
             '0x%x' % load_address, '-o', symfile.symbolizable_path,
             '-f', address_file_path]
      output_array = subprocess.check_output(cmd).split('\n')

      for i, frames in enumerate(symfile.frames_by_address.itervalues()):
        symbolized_name = self._matcher.Match(output_array[i])
        for frame in frames:
          frame.name = symbolized_name
    finally:
      os.remove(address_file_path)

  def _SymbolizeWin(self, symfile):
    """Invoke symbolizer binary on windows and write all input in one go.

    Unlike linux, on windows, symbolization talks through a shared system
    service that handles communication with the NT symbol servers. This
    creates an explicit serialization (and therefor lock contention) of
    any process using the symbol API for files do not have a local PDB.

    Thus, even though the windows symbolizer binary can be make command line
    compatible with the POSIX addr2line interface, paralellizing the
    symbolization does not yield the same performance effects. Running
    just one symbolizer seems good enough for now. Can optimize later
    if this becomes a bottleneck.
    """
    cmd = [self.symbolizer_path, '--functions', '--demangle', '--exe',
                symfile.symbolizable_path]

    proc = subprocess.Popen(cmd, stdout=subprocess.PIPE, stdin=subprocess.PIPE,
            stderr=sys.stderr)
    addrs = ["%x" % relative_pc for relative_pc in
             symfile.frames_by_address.keys()]
    (stdout_data, stderr_data) = proc.communicate('\n'.join(addrs))
    stdout_data = stdout_data.split('\n')

    # This is known to be in the same order as stderr_data.
    for i, addr in enumerate(addrs):
        for frame in  symfile.frames_by_address[int(addr, 16)]:
            # Output of addr2line with --functions is always 2 outputs per
            # symbol, function name followed by source line number. Only grab
            # the function name as line info is not always available.
            frame.name = stdout_data[i * 2]

  def Symbolize(self, symfile, unsymbolized_name):
    if self.is_mac:
      self._SymbolizeMac(symfile)
    elif self.is_win:
      self._SymbolizeWin(symfile)
    else:
      self._SymbolizeLinuxAndAndroid(symfile, unsymbolized_name)

  def IsSymbolizableFile(self, file_path):
    if self.is_win:
      extension = os.path.splitext(file_path)[1].lower()
      return extension in ['.dll', '.exe']
    else:
      result = subprocess.check_output(['file', '-0', file_path])
      type_string = result[result.find('\0') + 1:]
      return bool(re.match(r'.*(ELF|Mach-O) (32|64)-bit\b.*',
                  type_string, re.DOTALL))


def SymbolizeFiles(symfiles, symbolizer):
  """Symbolizes each file in the given list of SymbolizableFiles
     and updates stack frames with symbolization results."""
  print 'Symbolizing...'

  def _SubPrintf(message, *args):
    print ('  ' + message).format(*args)

  for symfile in symfiles:
    unsymbolized_name = '<{}>'.format(
        symfile.path if symfile.path else 'unnamed')

    problem = None
    if not os.path.isabs(symfile.symbolizable_path):
      problem = 'not a file'
    elif not os.path.isfile(symfile.symbolizable_path):
      problem = "file doesn't exist"
    elif not symbolizer.IsSymbolizableFile(symfile.symbolizable_path):
      problem = 'file is not symbolizable'
    if problem:
      _SubPrintf("Won't symbolize {} PCs for '{}': {}.",
                 len(symfile.frames_by_address),
                 symfile.symbolizable_path,
                 problem)
      for frames in symfile.frames_by_address.itervalues():
        for frame in frames:
          frame.name = unsymbolized_name
      continue

    _SubPrintf('Symbolizing {} PCs from {}...',
               len(symfile.frames_by_address),
               symfile.path)

    symbolizer.Symbolize(symfile, unsymbolized_name)


def CollapseSmallBranches(trace, size_threshold):
  print 'Collapsing stack branches smaller than {}...'.format(size_threshold)

  class _Node(object):
    def __init__(self, frame):
      self.frame = frame
      self.collapsed_child = None
      self.children = []
      self.entries = []
      self.total_entry_size = 0
      self.total_entry_count = 0
      self.needed = False

    def ClearEntries(self):
      self.entries = []
      for child in self.children:
        child.ClearEntries()

    def UpdateTotals(self):
      total_entry_size = sum(e.size for e in self.entries)
      total_entry_count = len(self.entries)
      for child in self.children:
        child.UpdateTotals()
        total_entry_size += child.total_entry_size
        total_entry_count += child.total_entry_count
      self.total_entry_size = total_entry_size
      self.total_entry_count = total_entry_count

    def CollectEntries(self, entries):
      entries += self.entries
      for child in self.children:
        child.CollectEntries(entries)

  for process in trace.processes:
    root_node, node_by_id = process.stack_frame_map.BuildFrameTree(_Node)

    for dump in process.memory_dumps:
      for profile in dump.profiles:

        root_node.ClearEntries()
        for entry in profile.entries:
          node_by_id[entry.stack_frame_id].entries.append(entry)
        root_node.UpdateTotals()

        collapsed_entry_by_entry = {}
        def _CollapseEntries(node):
          if node.total_entry_count > 0:
            node.needed = True
          if node.frame is not None and node.total_entry_size < size_threshold:
            if node.children:
              if node.collapsed_child is None:
                collapsed_frame = process.stack_frame_map.AddFrame(
                    '[collapsed]',
                    node.frame)
                node.collapsed_child = _Node(collapsed_frame)
                node.children.append(node.collapsed_child)
                node_by_id[collapsed_frame.id] = node.collapsed_child

              child_entries = []
              for child in node.children:
                child.CollectEntries(child_entries)
              if child_entries:
                type_name_id = None
                if len(node.entries) == 1:
                  type_name_id = node.entries[0].type_name_id
                else:
                  type_name_ids = set(e.type_name_id for e in child_entries)
                  if len(type_name_ids) == 1:
                    type_name_id = next(iter(type_name_ids))

                if type_name_id is None:
                  type_name_id = process.type_name_map.AddType('[collapsed]')

                collapsed_entry = profile.AddEntry(
                    HeapProfile.EntryKey(node.collapsed_child.frame.id,
                                         type_name_id))
                node.collapsed_child.needed = True
                for entry in child_entries:
                  collapsed_entry_by_entry[entry] = collapsed_entry
          else:
            for child in node.children:
              _CollapseEntries(child)

        _CollapseEntries(root_node)

        def _MergeToCollapsedEntry(entry):
          collapsed_entry = collapsed_entry_by_entry.get(entry)
          if collapsed_entry is not None:
            return collapsed_entry.key
          else:
            return entry.key
        profile.MergeEntries(_MergeToCollapsedEntry)

    def _RemoveRedunantFrame(frame):
      node = node_by_id[frame.id]
      return None if not node.needed else frame
    frame_count_before = len(process.stack_frame_map.frame_by_id)
    process.stack_frame_map.MergeFrames(_RemoveRedunantFrame)
    print '  {}: collapsed {} stack frames (out of {})'.format(
        process.unique_name,
        frame_count_before - len(process.stack_frame_map.frame_by_id),
        frame_count_before)


def DeduplicateStackFrames(trace):
  if trace.heap_dump_version == Trace.HEAP_DUMP_VERSION_LEGACY:
    # We're not parsing heap entries for legacy format, so deduplicating
    # stack frames would result in a corrupted trace.
    return

  print 'Deduplicating stack frames...'

  for process in trace.processes:
    merged_frames_by_frame = process.stack_frame_map.MergeFrames(
        get_frame_key=lambda f: f.name)

    if not merged_frames_by_frame:
      continue

    frame_by_merged_frame_id = {}
    for frame, merged_frames in merged_frames_by_frame.iteritems():
      for merged_frame in merged_frames:
        frame_by_merged_frame_id[merged_frame.id] = frame

    for dump in process.memory_dumps:
      for profile in dump.profiles:
        def _GetMergeKey(entry):
          frame = frame_by_merged_frame_id.get(entry.stack_frame_id)
          if frame is None:
            return entry.key
          else:
            return HeapProfile.EntryKey(frame.id, entry.type_name_id)

        entry_count = len(profile.entries)
        profile.MergeEntries(_GetMergeKey)


# Matches Android library paths, supports both K (/data/app-lib/<>/lib.so)
# as well as L+ (/data/app/<>/lib/<>/lib.so). Library name is available
# via 'name' group.
ANDROID_PATH_MATCHER = re.compile(
    r'^/data/(?:'
      r'app/[^/]+/lib/[^/]+/|'
      r'app-lib/[^/]+/|'
      r'data/[^/]+/incremental-install-files/lib/'
    r')(?P<name>.*\.so)')

# Subpath of output path where unstripped libraries are stored.
ANDROID_UNSTRIPPED_SUBPATH = 'lib.unstripped'


def HaveFilesFromAndroid(symfiles):
  return any(ANDROID_PATH_MATCHER.match(f.path) for f in symfiles)


def RemapAndroidFiles(symfiles, output_path):
  for symfile in symfiles:
    match = ANDROID_PATH_MATCHER.match(symfile.path)
    if match:
      name = match.group('name')
      symfile.symbolizable_path = os.path.join(
          output_path, ANDROID_UNSTRIPPED_SUBPATH, name)
    else:
      # Clobber file path to trigger "not a file" problem in SymbolizeFiles().
      # Without this, files won't be symbolized with "file not found" problem,
      # which is not accurate.
      symfile.symbolizable_path = 'android://{}'.format(symfile.path)


def Symbolize(options, trace, symbolizer):
  if options.collapse_threshold:
    CollapseSmallBranches(trace, options.collapse_threshold)

  symfiles = ResolveSymbolizableFiles(trace.processes)

  # Android trace files don't have any indication they are from Android.
  # So we're checking for Android-specific paths.
  if HaveFilesFromAndroid(symfiles):
    if not options.output_directory:
      sys.exit('The trace file appears to be from Android. Please '
               'specify output directory to properly symbolize it.')
    RemapAndroidFiles(symfiles, os.path.abspath(options.output_directory))

  SymbolizeFiles(symfiles, symbolizer)

  DeduplicateStackFrames(trace)


TRIVIAL_PATHS = [
    'base/allocator',
    'base/memory/aligned_memory.cc',
    'base/memory/ptr_util.h',
    'base/memory/scoped_vector.h',
    'base/process/memory.cc',
    'base/process/memory_linux.cc',
    'base/stl_util.h',
    'base/strings',
    'base/trace_event/malloc_dump_provider.cc',
    'skia/ext/SkMemory_new_handler.cpp',
    'third_party/android_ndk/sources/cxx-stl',
    'third_party/skia/src/core/SkArenaAlloc.cpp',
    'third_party/skia/src/core/SkMallocPixelRef.cpp',
    'third_party/WebKit/Source/platform/heap/BlinkGCMemoryDumpProvider.cpp',
    'third_party/WebKit/Source/platform/heap/Heap.h',
    'third_party/WebKit/Source/wtf/allocator/PartitionAllocator.cpp',
    'third_party/WebKit/Source/wtf/allocator/Partitions.h',
]

def Categorize(options, trace):
  print 'Categorizing...'

  # TODO(dskiba): move one level up
  if not options.output_directory:
    sys.exit('Output directory should be specified for categorization.')

  trivial_paths = options.trivial_paths + options.extra_trivial_paths
  trivial_paths_regex = re.compile(
      '|'.join(re.escape(p) for p in trivial_paths))

  category_slice = options.category_slice

  def _NormalizePath(path):
    return os.path.normcase(os.path.normpath(path))

  output_path = _NormalizePath(os.path.abspath(options.output_directory))
  src_path = _NormalizePath(os.path.join(output_path, '..', '..'))

  failed_paths = set()

  def _Categorize(file_path):
    if not file_path:
      return None

    file_path = _NormalizePath(os.path.abspath(file_path))
    if file_path.startswith(output_path):
      file_subpath = os.path.relpath(file_path, output_path)
    elif file_path.startswith(src_path):
      file_subpath = os.path.relpath(file_path, src_path)
    else:
      if file_path not in failed_paths:
        failed_paths.add(file_path)
        print '  Not in source: {}'.format(file_path)
      return None

    if trivial_paths_regex.search(file_subpath):
      if file_subpath not in failed_paths:
        failed_paths.add(file_subpath)
        print '  Skipped: {}'.format(file_subpath)
      return None

    category = file_subpath.split(os.sep)
    if category_slice != 0:
      category = category[:category_slice]

    return '/'.join(category)

  def _GetCategory(frame):
    while frame:
      if not frame.ext.categorized:
        frame.ext.category = _Categorize(frame.ext.source_path)
        frame.ext.categorized = True
      if frame.ext.category:
        return frame.ext.category
      frame = frame.parent
    return None

  for process in trace.processes:
    for dump in process.memory_dumps:
      for profile in dump.profiles:
        def _CategoryKey(entry):
          category = _GetCategory(
              process.stack_frame_map.frame_by_id[entry.stack_frame_id])
          category_id = 0 if category is None \
                        else process.type_name_map.AddType(category)
          return HeapProfile.EntryKey(entry.stack_frame_id, category_id)

        profile.MergeEntries(_CategoryKey)


def FormatSize(size_bytes, show_sign=False):
  # Adapted from SO answer: http://goo.gl/Xb0mYx
  sign = ''
  if size_bytes < 0:
    size_bytes = -size_bytes
    sign = '-'
  elif show_sign:
    sign = '+'

  if size_bytes == 1:
    # because I really hate unnecessary plurals
    return "%s1 byte" % sign

  suffixes_table = [
      ('bytes', 0),
      ('KiB', 0),
      ('MiB', 1),
      ('GiB', 2),
      ('TiB', 2),
      ('PiB', 2)]

  num = float(size_bytes)
  for suffix, precision in suffixes_table:
    if num < 1024.0:
        break
    num /= 1024.0

  if precision == 0:
    formatted_size = "%d" % num
  else:
    formatted_size = str(round(num, ndigits=precision))

  if formatted_size == '0':
    sign = ''

  return "%s%s %s" % (sign, formatted_size, suffix)


WEBTREEMAP_HTML_TEMPLATE = (
    '<!DOCTYPE html>'
    '<title>$TITLE$</title>'
    '<link rel=stylesheet href='
        '"https://cdn.rawgit.com/evmar/webtreemap/gh-pages/webtreemap.css"/>'
    '<style>'
    'body {'
      'font-family: sans-serif;'
      'font-size: 0.8em;'
      'margin: 0em;'
    '}'
    '#map {'
      'width: 100%;'
      'height: 100%;'
      'position: absolute;'
      'cursor: pointer;'
      '-webkit-user-select: none;'
    '}'
    '</style>'
    '<center><p>Click on a box to zoom in. '
        'Click on the outermost box to zoom out.</p></center>'
    '<div id="map"></div>'
    '<script src='
        '"https://cdn.rawgit.com/evmar/webtreemap/gh-pages/webtreemap.js">'
    '</script>'
    '<script>'
    'var map = document.getElementById("map");'
    'appendTreemap(map, $TREEMAP$);'
    '</script>'
)

def GenerateWebTreeMap(trace, base_path):
  print 'Generating WebTreeMaps...'

  class _TreeNode(object):
    def __init__(self):
      self.total_size = 0
      self.size = 0
      self.child_by_name = collections.defaultdict(_TreeNode)

    def UpdateTotalSize(self):
      total_size = self.size
      for child in self.child_by_name.itervalues():
        child.UpdateTotalSize()
        total_size += child.total_size
      self.total_size = total_size

    def GetChildForPath(node, path):
      for name in path:
        node = node.child_by_name[name]
      return node

    def GenerateTreeMap(self, name):
      child_trees = []
      for child_name, child in self.child_by_name.iteritems():
        child_trees.append(child.GenerateTreeMap(child_name))
      return {
          'data': {'$area': self.total_size},
          'name': '{} ({})'.format(name, FormatSize(self.total_size)),
          'children': child_trees
      }

  for process in trace.processes:
    for dump_index, dump in enumerate(process.memory_dumps):
      for profile in dump.profiles:
        root = _TreeNode()
        for entry in profile.entries:
          category = process.type_name_map.name_by_id[entry.type_name_id]
          if category:
            node = root.GetChildForPath(category.split('/'))
            # Add function as leaf node
            frame = process.stack_frame_map.frame_by_id[entry.stack_frame_id]
            while frame is not None:
              if frame.ext.category:
                node = node.GetChildForPath([frame.name])
                break
              frame = frame.parent
            node.size += entry.size

        root.UpdateTotalSize()

        output_path = '{}-#{}-{}-{}.html'.format(
            base_path, dump_index, process.unique_name, profile.allocator_name)

        print '  Writing {}'.format(output_path)
        with open(output_path, 'w') as output_file:
          title = '{} / {}'.format(process.unique_name, profile.allocator_name)
          treemap = root.GenerateTreeMap('/')
          html = WEBTREEMAP_HTML_TEMPLATE.\
            replace('$TITLE$', title).\
            replace('$TREEMAP$', json.dumps(treemap))
          output_file.write(html)


def OpenTraceFile(file_path, mode):
  if file_path.endswith('.gz'):
    return gzip.open(file_path, mode + 'b')
  else:
    return open(file_path, mode + 't')


# Suffix used for backup files.
BACKUP_FILE_TAG = '.BACKUP'

def main():
  class MultilineHelpFormatter(argparse.HelpFormatter):
    def _split_lines(self, text, width):
      extra_lines = []
      if '\n' in text:
        lines = text.splitlines()
        text = lines[0]
        extra_lines = lines[1:]
      return super(MultilineHelpFormatter, self)._split_lines(text, width) + \
             extra_lines

  parser = argparse.ArgumentParser(formatter_class=MultilineHelpFormatter)
  parser.add_argument(
      'file',
      help='Trace file to symbolize (.json or .json.gz)')

  parser.add_argument(
      '--no-backup', dest='backup', default='true', action='store_false',
      help="Don't create {} files".format(BACKUP_FILE_TAG))

  parser.add_argument(
      '--output-directory',
      help='The path to the build output directory, such as out/Debug.')

  # Arguments below are not applicable to trace files with heap dumps
  # in legacy format.

  parser.add_argument(
      '--collapse-threshold', type=int, default=0,
      help=('Collapse stack branches smaller than then value (in bytes).'
            'Default is 0.'))

  parser.add_argument(
      '--categorize', action='store_true',
      help='Categorize allocations based on backtrace source paths.')

  parser.add_argument(
      '--trivial-path-list', dest='trivial_paths', nargs='+',
      default=TRIVIAL_PATHS,
      help=('List of source paths to skip during categorization. By default '
            'the following paths are skipped:\n' +
            '\n'.join('  ' + s for s in TRIVIAL_PATHS)))

  parser.add_argument(
      '--trivial-path', dest='extra_trivial_paths', default=[], action='append',
      help=('Extra source path to skip during categorization. Can be '
            'specified multiple times.'))

  parser.add_argument(
      '--category-slice', type=int, default=0,
      help=('Number of path components to use for categorization.'
            ' Default is 0, which uses all components.'))

  parser.add_argument(
      '--treemap',
      action='store_true',
      help='Generate Treemap HTMLs.')

  symbolizer = Symbolizer()
  if symbolizer.symbolizer_path is None:
    sys.exit("Can't symbolize - no %s in PATH." % symbolizer.binary)

  options = parser.parse_args()

  trace_file_path = options.file

  print 'Reading trace file...'
  with OpenTraceFile(trace_file_path, 'r') as trace_file:
    trace = Trace(json.load(trace_file))

  if (trace.heap_dump_version == Trace.HEAP_DUMP_VERSION_LEGACY and (
      options.categorize or options.treemap or
      options.collapse_threshold != 0)):
    parser.error(
        "The trace's heap data is in legacy format - categorization, "
        'Treemap generation, and collapsing of stack branches are not '
        'supported.')

  Symbolize(options, trace, symbolizer)
  if options.categorize:
    Categorize(options, trace)
  if options.treemap:
    GenerateWebTreeMap(trace, trace_file_path)

  if trace.modified:
    trace.ApplyModifications()

    if options.backup:
      backup_file_path = trace_file_path + BACKUP_FILE_TAG
      if os.path.exists(backup_file_path):
        for i in itertools.count(1):
          unique_file_path = '{}{}'.format(backup_file_path, i)
          if not os.path.exists(unique_file_path):
            backup_file_path = unique_file_path
            break
      print 'Backing up trace file to {}'.format(backup_file_path)
      os.rename(trace_file_path, backup_file_path)

    print 'Updating the trace file...'
    with OpenTraceFile(trace_file_path, 'w') as trace_file:
      json.dump(trace.Serialize(), trace_file)
  else:
    print 'No modifications were made - not updating the trace file.'


if __name__ == '__main__':
  main()