Palantir: торговля оружием и распространение пандемии

Как данные в руках аналитиков Palantir превращаются из неструктурированных в структурированные. 18 Апрель 2016, 15:22
Как данные в руках разведчиков аналитиков Palantir превращаются из неструктурированных в структурированные.

Вместе с компанией Edison продолжаем расследование возможностей системы Palantir.
Palantir — частная американская компания, четвертый по капитализации (после Uber, Xiaomi и Airbnb) стартап в мире (данные на начало 2016 года). Основные заказчики — ЦРУ, военные, ЦКЗ и крупные финансовые организации.

По-моему, как-то так видели пользу информационных технологий «отцы-основатели» Вэнивар Буш («As We May Think»)Дуглас Энгельбарт («The Mother of All Demos») и Джозеф Ликлайдер («Интергалактическая компьютерная сеть» и «Симбиоз человека и компьютера»)  о которых я писал немного ранее.

Под катом — два кейса (2010 года). 
Первый — анализ распространения вируса во время национальной пандемии на основе пятнадцати миллионов записей обращений в больницу и трехсот пятидесяти семи тысячах записей о смерти.
Второй — анализ сотни отчетов из расследования по глобальной сети торговцев оружием.

(За помощь с переводом спасибо Ворсину Алексею) 


VAST 2010 Challenge, Pt. 1
00:00 Эта презентация покажет как Palantir, применяя анализ, превращает неструктурированные данные в структурированные. Для этой цели будут использованы отчеты по глобальной сети торговцев оружием.
00:10 Мы покажем, как территориальный, временной, социальный и некоторые другие анализы могут ответить на вопросы разведки об этой сети.
00:17 Эти значки на графе представляют собой около сотни отчетов из нашего расследования.
00:25 «Облако текста» (textcloud) поможет нам выделить ключевые слова из этих отчетов.
00:28 Некоторые термины проявляются: оружие, ствол, купить, Карачи, Пакистан и так далее, — что заставляет предположить, что эта сеть связана с Ближним Востоком и Южной Азией.
00:37 Давайте перенесем эти документы на карту.
00:42 Документы были распределены согласно географическим наименованиям, указанным в них. Мы так же можем использовать здесь Timeline, чтобы посмотреть расположение документов по дате создания.
00:50 Теперь давайте очистим карту и поищем документы из Пакистана, одного из самых популярных результатов облака текста.
00:57 Этот поиск приносит некоторое количество документов, давайте посмотрим их через браузер.
01:01 В браузере аналитик может структурировать информацию, присваивая ей теги. Давайте выделим Малона Хаг Бухари.
01:10 Palantir автоматически ищет объекты, которые уже присутствуют в базе данных, мы также можем создать новый объект, и выбираем ему особые свойства, чтобы присвоить тег надлежащим образом. 
01:19 Голубая линия под текстом показывает некую сущность, к которой мы только что присвоили тег. 
01:23 Двойное нажатие на тег открывает полное досье объекта, его свойства, связанные файлы медиа, историю объекта и список всех источников данных.
01:35 Чтобы создать связи между объектами с тегами в тексте, мы просто перетягиваем одно на другое, а затем выбираем получившейся связи особые свойства.
01:45 В полностью тегированном документе цвет и линии указывают на связи с существующими сущностями, событиями и взаимоотношениями.
01:51 Давайте теперь добавим данные, которые мы структурировали в документах, относящихся к Пакистану, на граф.
01:57 На графе аналитик использует различные инструменты, чтобы анализировать данные.
02:00 Здесь сущности и события из Пакистанских тегов. Используя гистограмму, мы заполнили граф людьми, и аналитик теперь может использовать инструмент поиска взаимоотношений между сущностями, которые могут проявиться из документов, тегированных другими аналитиками из нашей компании.
02:17 После постройки графа ключевых сущностей и событий пакистанской сети, мы можем использовать timeline, чтобы понять временные аспекты активности сети, которые включают в себя полеты, встречи, платежи, и тому подобное.
02:30 Аналитик также может поделиться графом с другими аналитиками компании, здесь мы можем увидеть расшаренные графы из Пакистана, Латинской Америки и Дубая.
02:40 Давайте посмотрим на граф мировой сети торговцев оружием, который включает в себя сущности и связи из всех тегов документов, присвоенных нашей командой.
02:49 Мы используем помощник социальных связей, чтобы идентифицировать ключевые точки для будущих расследований в нашей всемирной сети.
02:56 Давайте добавим выделение цветом. Теперь мы видим, что Дубай, Бухари и Домбровский являются важными точками пересечения в этой сети.
03:03 Перетащив все это на карту, мы можем увидеть всю активность сети географически и во времени, если используем Timeline.
03:10 Это дает широкий взгляд на то, когда и где каждая ячейка действует.
03:15 Для примера, ОАЭ играют важную роль, многие из наших целей встречались здесь в апреле.
03:21 Структурируя данные из неструктурированных отчетов и используя для достижения цели инструменты анализа данных Palantir, наша команда добилась ясного отображения сети торговли оружием в нескольких странах и указала место переговоров руководителей сети. 
VAST 2010 Challenge, Pt. 2
Записи госпитализации: Характеристика распространения пандемии.

00:00 Эта презентация покажет, как мы используем анализ «Горизонт» в Palantir, чтобы проанализировать распространение вируса во время национальной пандемии.
00:05 «Горизонт» разработан для анализа больших объемов данных и сейчас будет использован для быстрой визуализации и анализа пятнадцати миллионов записей обращений в больницу и трехсот пятидесяти семи тысячах записей о смерти. Исходные данные были разделены по симптомам и введены в систему.
Написано: «Горизонт» разработан для анализа на двух экранах. Видео будет переключаться между окном дерева анализа и окном визуализации.

00:20 Пожалуйста, обратите внимание, что время на обработку запросов не включено в видео.
00:23 Давайте начнем с просмотра нескольких базовых гистограмм, чтобы получить общий взгляд на данные.
00:27 Эта гистограмма госпитализации по возрасту, которая дает почти идеальный график распределения с вершиной на отметке сорок четыре года.
00:33 Это ненормально, так как мы ожидали большего количества визитов в госпиталь в возрасте до сорока лет, основываясь на данных о типичном распределении по возрасту и состоянию здоровья.
0:43 Сейчас мы используем пакетную гистограмму визитов в больницу пациентов, которые позже умерли, чтобы определить симптомы, которые наиболее часто приводили к смерти.
00:53 Тремор и потеря слуха, как пример симптомов, связанных со смертью.
00:56 Чтобы исследовать временные закономерности болезни, создадим гистограмму визитов в больницу по дням, отфильтруем по смертям и создадим еще одну гистограмму смертей по датам.
01:12 Есть незначительное увеличение количества обращений в мае, и в это же время увеличилось число смертей.
01:22 Чтобы выявить временные закономерности болезни, будет полезно узнать сколько времени проходило между моментом обращения в больницу и смертью.
01:29 Мы можем сделать это, добавив новое свойство, которое находит разницу между датой смерти и датой обращения. 
01:38 Мы можем теперь создать гистограмму с этим новым свойством. Она показывает, что почти все смерти случались на восьмой день после госпитализации, что, гипотетически, может быть характеристикой вируса пандемии.
01:51 Сосредоточившись на указанных смертях, мы можем создать гистограмму наиболее часто встречающихся симптомов. 
01:58 Рвота и боли в животе, — самые популярные результаты. 
02:05 Давайте используем тепловую карту, чтобы увидеть в каких географических областях больше всего фатальных исходов. 
02:12 В Пакистане много смертей, в то время как в Таиланде и Турции сравнительно немного.
02:20 Создадим график рассеивания (scattergram) по дням и местностям, что даст представление об интенсивности болезни во времени.
02:34 Мы можем видеть, что в Таиланде и Турции постоянно низкое количество смертей, тогда как в других местах смертность достигает пика и снижается.
02:45 Сравнив полученный график с гистограммой распределения смертей по датам, мы можем понять, когда начиналась пандемия.
02:57 С этим новым подмножеством мы можем создать новый график рассеивания для госпитализаций, чтобы увидеть как болезнь распространялась во времени по местности.
03:07 Мы видим что Кения, Пакистан и Сирия – страны с наиболее ранними вспышками болезни.
03:15 Для более точных сведений о распределении болезни по времени и месту, мы можем обратиться к данным о смертях по каждой территории.
03:25 Выбрав данные по Пакистану, например, мы можем создать гистограмму госпитализаций по датам из подмножества пациентов, которые, как мы подозреваем, умерли от пандемии.
03:38 Используя Горизонт Palantir, мы получили возможность быстро импортировать, анализировать и визуализировать данные о пандемии, идентифицировать аномалии и охарактеризовать природу и развитие во времени этой болезни.