۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

تبدیل تجزیه و تحلیل داده های مکانی-زمانی با GPU و هوش مصنوعی مولد

از آنجایی که پایگاه‌های داده با شتاب GPU سطوح جدیدی از عملکرد و دقت را به مجموعه‌های زمانی و حجم کاری فضایی می‌آورند، هوش مصنوعی مولد تجزیه و تحلیل پیچیده را در دسترس افراد غیر متخصص قرار می‌دهد.

از آنجایی که پایگاه‌های داده با شتاب GPU سطوح جدیدی از عملکرد و دقت را به مجموعه‌های زمانی و حجم کاری فضایی می‌آورند، هوش مصنوعی مولد تجزیه و تحلیل پیچیده را در دسترس افراد غیر متخصص قرار می‌دهد.

داده‌های مکانی زمانی، که از منابع متنوعی مانند تلفن‌های همراه، حسگرهای آب و هوا، معاملات بازار مالی، و حسگرهای موجود در وسایل نقلیه و کانتینرها به دست می‌آیند، بزرگترین و سریع‌ترین دسته داده را در حال گسترش نشان می‌دهند. تخمین های IDC داده‌های تولید شده از دستگاه‌های متصل اینترنت اشیا تا سال ۲۰۲۵ در مجموع به ۷۳.۱ ZB خواهد رسید که از ۱۸.۳ ZB در سال ۲۰۱۹، ۲۶ درصد CAGR افزایش می‌یابد.

طبق گزارش اخیر اطلاعات بازبینی فناوری MIT، داده های اینترنت اشیا (اغلب با برچسب مکان) سریعتر از سایر داده های ساختاریافته و نیمه ساختار یافته رشد می کنند (شکل زیر را ببینید). با این حال، داده‌های اینترنت اشیا به دلیل چالش‌های مرتبط با یکپارچه‌سازی پیچیده و استفاده معنادار، توسط اکثر سازمان‌ها تا حد زیادی دست نخورده باقی می‌مانند.

همگرایی دو پیشرفت تکنولوژیکی پیشگامانه، کارایی و دسترسی بی‌سابقه‌ای را به حوزه تحلیل داده‌های سری زمانی و مکانی می‌آورد. اولین مورد، پایگاه‌های داده با شتاب GPU است که سطوحی از عملکرد و دقت پیش از این دست نیافتنی را به مجموعه‌های زمانی و بارهای کاری فضایی می‌آورد. دومین مورد هوش مصنوعی مولد است که نیاز به افرادی را که هم دارای تخصص GIS و هم دانش برنامه نویسی پیشرفته هستند را برطرف می کند.

این پیشرفت‌ها، هر دو به صورت فردی پیشگامانه، در هم تنیده شده‌اند تا تحلیل‌های مکانی و سری‌های زمانی پیچیده را دموکراتیزه کنند و آن را برای طیف وسیع‌تری از متخصصان داده نسبت به قبل در دسترس قرار دهند. در این مقاله، من بررسی می‌کنم که چگونه این پیشرفت‌ها چشم‌انداز پایگاه‌های داده مکانی و زمانی را تغییر می‌دهند و عصر جدیدی از بینش‌ها و نوآوری‌های مبتنی بر داده را آغاز می‌کنند.

چگونه GPU تجزیه و تحلیل مکانی-زمانی را تسریع می کند

این GPU که در اصل برای سرعت بخشیدن به گرافیک کامپیوتری و رندر طراحی شده بود، اخیراً نوآوری را در حوزه های دیگری که به محاسبات موازی گسترده نیاز دارند، از جمله شبکه های عصبی که قدرتمندترین مدل های مولد هوش مصنوعی امروزی را تامین می کنند، هدایت کرده است. به طور مشابه، پیچیدگی و دامنه تحلیل مکانی-زمانی اغلب توسط مقیاس محاسبه محدود شده است. اما پایگاه‌های داده مدرنی که می‌توانند از شتاب GPU استفاده کنند، سطوح جدیدی از عملکرد را برای ایجاد بینش جدید باز کرده‌اند. در اینجا من دو حوزه خاص از تجزیه و تحلیل مکانی-زمانی را که توسط پردازنده‌های گرافیکی تسریع شده است، برجسته می‌کنم.

پیوستن‌های غیردقیق برای جریان‌های سری زمانی با مُهر زمانی متفاوت

هنگام تجزیه و تحلیل جریان‌های متفاوت داده‌های سری زمانی، مُهرهای زمانی به ندرت کاملاً همسو می‌شوند. حتی زمانی که دستگاه‌ها به ساعت‌های دقیق یا GPS تکیه می‌کنند، حسگرها ممکن است در فواصل زمانی مختلف خوانش‌هایی ایجاد کنند یا معیارهایی را با تأخیر متفاوت ارائه دهند. یا، در مورد معاملات سهام و مظنه سهام، ممکن است مُهرهای زمانی به هم پیوسته داشته باشید که کاملاً همسو نیستند.

برای به دست آوردن یک تصویر عملیاتی مشترک از وضعیت داده های ماشین خود در هر زمان معین، باید به این مجموعه داده های مختلف بپیوندید (به عنوان مثال، برای درک مقادیر واقعی سنسور وسایل نقلیه خود در هر نقطه از مسیر، یا برای تطبیق معاملات مالی در برابر جدیدترین مظنه ها). برخلاف داده‌های مشتری، که در آن می‌توانید با یک شناسه مشتری ثابت بپیوندید، در اینجا باید یک پیوستگی غیردقیق انجام دهید تا جریان‌های مختلف را بر اساس زمان مرتبط کنید.

به‌جای تلاش برای ایجاد خطوط لوله مهندسی داده‌های پیچیده برای همبستگی سری‌های زمانی، می‌توانیم از قدرت پردازش GPU برای انجام کارهای سنگین استفاده کنیم. برای مثال، با Kinetica می‌توانید از پیوستن ASOF شتاب‌دار GPU استفاده کنید، که به شما امکان می‌دهد با استفاده از یک بازه زمانی مشخص، یک مجموعه داده سری زمانی را به دیگری بپیوندید و اینکه آیا حداقل یا حداکثر مقدار در آن بازه باید برگردانده شود. .

Google Vertex AI Studio این وعده را در زمینه هوش مصنوعی مولد می دهد

به عنوان مثال، در سناریوی زیر، معاملات و مظنه‌ها در فواصل زمانی متفاوتی می‌رسند.

kinetica spatiotemporal 01 14

kinetica spatiotemporal 02

اگر می‌خواهم معاملات اپل و قیمت‌های مربوط به آن‌ها را تجزیه و تحلیل کنم، می‌توانم از پیوستن ASOF Kinetica استفاده کنم تا فوراً مظنه‌های مربوطه را که در بازه زمانی مشخصی از هر معامله اپل اتفاق می‌افتند، بیابم.

SELECT *
FROM trades t
LEFT JOIN quotes q
ON t.symbol = q.symbol
AND ASOF(t.time, q.timestamp, INTERVAL '0' SECOND, INTERVAL '5' SECOND, MIN)
WHERE t.symbol = 'AAPL'

این را دارید. یک خط SQL و قدرت GPU برای جایگزینی هزینه پیاده سازی و تأخیر پردازش خطوط لوله مهندسی داده پیچیده برای داده های مکانی و زمانی. این پرس و جو برای هر معامله، مظنه ای را پیدا می کند که نزدیک ترین قیمت به آن معامله بوده است، در عرض پنج ثانیه پس از معامله. این نوع اتصالات غیردقیق در مجموعه‌های داده‌های سری زمانی یا مکانی ابزاری حیاتی برای کمک به مهار سیل داده‌های مکانی-زمانی هستند.

جغرافیایی تعاملی میلیاردها نقطه

اغلب، اولین قدم برای کاوش یا تجزیه و تحلیل داده‌های فضایی-زمانی اینترنت اشیا، تجسم است. به خصوص در مورد داده‌های مکانی، ارائه داده‌ها در برابر نقشه مرجع ساده‌ترین راه برای انجام بازرسی بصری داده‌ها، بررسی مسائل مربوط به پوشش، مشکلات کیفیت داده یا سایر ناهنجاری‌ها خواهد بود. به عنوان مثال، اسکن بصری نقشه و تأیید اینکه مسیرهای GPS وسایل نقلیه شما واقعاً شبکه جاده را دنبال می‌کنند، در مقایسه با توسعه الگوریتم‌ها یا فرآیندهای دیگر برای تأیید کیفیت سیگنال GPS شما، بی‌نهایت سریع‌تر است. یا، اگر داده‌های جعلی را در اطراف جزیره نول در خلیج گینه مشاهده کردید، می‌توانید به سرعت منابع داده GPS نامعتبر را که ۰ درجه برای عرض جغرافیایی و ۰ درجه برای طول جغرافیایی ارسال می‌کنند، شناسایی و جدا کنید.

با این حال، تجزیه و تحلیل مجموعه داده‌های جغرافیایی بزرگ در مقیاس با استفاده از فناوری‌های مرسوم اغلب مستلزم مصالحه است. فن‌آوری‌های مرسوم رندر سمت مشتری معمولاً می‌توانند ده‌ها هزار نقطه یا ویژگی‌های جغرافیایی را قبل از رندر کردن باتلاق‌ها و تجربه اکتشاف تعاملی به طور کامل مدیریت کنند. کاوش زیرمجموعه ای از داده ها، به عنوان مثال برای یک پنجره زمانی محدود یا یک منطقه جغرافیایی بسیار محدود، می تواند حجم داده ها را به مقدار قابل مدیریت تری کاهش دهد. با این حال، به محض شروع نمونه‌برداری از داده‌ها، خطر دور انداختن داده‌هایی را دارید که مشکلات، روندها یا ناهنجاری‌های خاص کیفیت داده را نشان می‌دهند که می‌توانستند به راحتی از طریق تجزیه و تحلیل بصری کشف شوند.

kinetica spatiotemporal 03

بازرسی بصری نزدیک به ۳۰۰ میلیون نقطه داده از ترافیک حمل‌ونقل می‌تواند به سرعت مشکلات کیفیت داده‌ها را آشکار کند، مانند داده‌های غیرعادی در آفریقا، یا باند در Prime Meridian.

خوشبختانه، GPU در تسریع تجسم ها عالی است. پلتفرم‌های پایگاه داده مدرن با قابلیت‌های رندر GPU سمت سرور مانند Kinetica می‌توانند کاوش و تجسم میلیون‌ها یا حتی میلیاردها نقطه و ویژگی جغرافیایی را در زمان واقعی تسهیل کنند. این شتاب عظیم شما را قادر می‌سازد تا تمام داده‌های مکانی خود را فوراً بدون نمونه‌برداری، تجمیع، یا هرگونه کاهش در وفاداری داده‌ها تجسم کنید. رندر فوری یک تجربه تجسم سیال را در حین حرکت و زوم فراهم می کند و کاوش و کشف را تشویق می کند. تجمیع‌های اضافی مانند نقشه‌های حرارتی یا binning می‌توانند به‌طور انتخابی فعال شوند تا تجزیه و تحلیل بیشتر روی مجموعه داده‌ها انجام شود.

kinetica spatiotemporal 04

بزرگنمایی برای تجزیه و تحلیل الگوهای ترافیک کشتیرانی و سرعت کشتی در دریای چین شرقی.

دموکراتیک کردن تحلیل مکانی-زمانی با LLM

پرسش‌های فضایی، که به رابطه بین فضا و زمان در داده‌ها مربوط می‌شوند، اغلب به طور شهودی با افراد غیرمستقیم طنین انداز می‌شوند، زیرا آنها تجربیات دنیای واقعی را منعکس می‌کنند. مردم ممکن است در مورد سفر یک کالا از لحظه ثبت سفارش تا تحویل موفقیت آمیز آن تعجب کنند. با این حال، ترجمه این سوالات به ظاهر ساده به کد عملکردی چالش بزرگی را حتی برای برنامه نویسان باتجربه ایجاد می کند.

اوراکل از دستیار کدنویسی مجهز به هوش مصنوعی رونمایی کرد

به‌عنوان مثال، تعیین مسیر بهینه برای یک کامیون تحویل که زمان سفر را به حداقل می‌رساند و در عین حال شرایط ترافیکی، بسته بودن جاده‌ها و پنجره‌های تحویل را در نظر می‌گیرد، به الگوریتم‌های پیچیده و یکپارچه‌سازی داده‌های بلادرنگ نیاز دارد. به طور مشابه، ردیابی گسترش یک بیماری از طریق زمان و جغرافیا، با در نظر گرفتن عوامل تأثیرگذار مختلف، نیازمند مدل‌سازی و تجزیه و تحلیل پیچیده است که می‌تواند حتی دانشمندان داده با تجربه را گیج کند.

این مثال‌ها نشان می‌دهند که چگونه سؤالات مکانی-زمانی، اگرچه از نظر مفهومی قابل دسترسی هستند، اغلب لایه‌هایی از پیچیدگی را پنهان می‌کنند که کدگذاری آنها را به یک کار دلهره‌آور تبدیل می‌کند. درک عملیات ریاضی بهینه و سپس نحو تابع SQL مربوطه ممکن است حتی با تجربه ترین متخصصان SQL را به چالش بکشد.

خوشبختانه، آخرین نسل از مدل‌های زبان بزرگ (LLM) در تولید کد صحیح و کارآمد، از جمله SQL، مهارت دارند. و نسخه‌های دقیق آن مدل‌هایی که بر روی تفاوت‌های ظریف تحلیل مکانی-زمانی آموزش دیده‌اند، مانند Kinetica LLM بومی برای SQL-GPT، اکنون می تواند قفل این دامنه های تجزیه و تحلیل را برای یک کاملا جدید باز کند. دسته کاربران.

به عنوان مثال، فرض کنید می‌خواستم مجموعه داده‌های متعارف تاکسی شهر نیویورک را تجزیه و تحلیل کنم و سوالات مربوط به فضا و زمان را مطرح کنم. من با ارائه LLM با برخی زمینه های اساسی در مورد جداولی که قصد تحلیل آن را دارم شروع می کنم. در Kinetica Cloud، من می‌توانم از UI یا دستورات پایه SQL برای تعریف زمینه تحلیل خود، از جمله ارجاع به جداول خاص استفاده کنم. نام ستون ها و تعاریف آن جداول با LLM به اشتراک گذاشته می شود، اما هیچ داده ای از آن جداول نیست. به صورت اختیاری، می‌توانم نظرات، قوانین، یا نمونه‌ای از نتایج پرس و جو را در زمینه اضافه کنم تا دقت SQL خود را بیشتر کنم.

هنگامی که زمینه اولیه را تنظیم کردم، می‌توانم از SQL-GPT در Kinetica Cloud برای پرسیدن “۵ محله مبدا برتر برای سفر به فرودگاه JFK کدام بودند؟” LLM تنظیم شده فوراً SQL زیر را تولید می کند:

-- Which were the top 5 origin neighborhoods for trips to JFK airport?
SELECT
nta."NTAName" AS origin_neighborhood,
COUNT(*) AS trip_count
FROM
"taxi_data_historical" AS taxi
JOIN   "nyct2020" AS nta
ON     ST_CONTAINS(nta."geom", ST_MAKEPOINT(taxi."pickup_longitude", taxi."pickup_latitude"))
WHERE ST_CONTAINS((
            SELECT "geom"
            FROM "nyct2020"
            WHERE "NTAName" = 'John F. Kennedy International Airport'
            ),
            ST_MAKEPOINT(taxi."dropoff_longitude", taxi."dropoff_latitude"))
GROUP BY
origin_neighborhood
ORDER BY
trip_count DESC
LIMIT 5;

در عرض چند ثانیه، LLM تنظیم شده به من کمک کرد:

  • تنظیم عبارت SELECT، ارجاع به جداول و ستون‌های هدف مناسب، راه‌اندازی JOIN و استفاده از COUNT(* )، GROUP BY، ORDER BY و LIMIT. برای کسانی که در SQL مهارت کمتری دارند، حتی آن ساخت پرس و جوی اولیه نیز یک شتاب دهنده فوق العاده است.
  • از توابع مکانی صحیح استفاده کنید، مانند ST_MAKEPOINT() برای ایجاد یک نقطه از طول و عرض جغرافیایی و ST_CONTAINS() برای پیدا کردن مناطق جغرافیایی که حاوی نقطه مشخص شده است. با کمک به من در انتخاب توابع و نحو مناسب، LLM می تواند به شروع سریع تجزیه و تحلیل فضایی برای کسانی که تازه وارد این زمینه شده اند کمک کند.
  • ارجاعات دنیای واقعی را به مکان ها و زمان ها ادغام کنید. من درباره «فرودگاه JFK» سؤال کردم، اما LLM توانست این مرجع را به منطقه جدول‌بندی محله به نام «فرودگاه بین‌المللی جان اف کندی» ترجمه کند. یکی دیگر از صرفه جویی در زمان—متشکرم، LLM!

اکنون برای پاسخ به سؤال اولیه خود، پرس و جو را اجرا می کنم:

kinetica spatiotemporal 05 25

به طور مشابه، اگر از Kinetica SQL-GPT بخواهم به من کمک کند «تعداد کل افرادی را که در فرودگاه JFK بر حسب ساعت در روز دریافت کرده‌اند را بیابم»، SQL زیر را ایجاد می‌کند:

-- Find the total number of people who were picked up at JFK airport by hour of the day
SELECT HOUR(pickup_datetime) AS hour_of_day, SUM(passenger_count) AS total_passengers
FROM taxi_data_historical
WHERE STXY_CONTAINS((SELECT geom FROM nyct2020 WHERE NTAName = 'John F. Kennedy International Airport'), pickup_longitude, pickup_latitude)
GROUP BY hour_of_day
ORDER BY hour_of_day;

این پرس و جو پیچیدگی بیشتری را در مورد جمع آوری تعداد مسافران در هر تاکسی و سطل بندی داده ها بر حسب ساعت در روز گنجانده است. اما LLM پیچیدگی را مدیریت کرد و فوراً SQL مناسب را تولید کرد.

هزینه بالای کار علم داده

kinetica spatiotemporal 06 25

برای کاربران پیچیده‌تر، LLM می‌تواند پردازش مکانی-زمانی پیشرفته‌تری را نیز انجام دهد. به عنوان مثال، در مثال بعدی، من می‌خواهم ناوگانی از کامیون‌ها را برای تحویل در منطقه واشنگتن دی سی تجزیه و تحلیل کنم و می‌خواهم بفهمم کدام کامیون‌ها در حال حاضر به مجموعه‌ای از ژئوفنس‌ها نزدیک هستند (در این مورد، بافرهایی در اطراف نشانه‌های معروف DC ).

می‌توانم با یک سؤال اساسی در مورد نزدیکی به یک زمین‌ساخت خاص شروع کنم، مانند “در حال حاضر چند کامیون منحصر به فرد در فاصله ۱۰۰۰ متری نقطه عطف کاخ سفید وجود دارد؟” و از Kinetica SQL-GPT برای تولید SQL زیر استفاده کنید:

-- How many unique trucks are currently within 1000 meters of the white house landmark?
SELECT COUNT(DISTINCT r.TRACKID)
FROM recent_locations r
JOIN dc_landmarks d ON STXY_DWITHIN(r.x, r.y, d.wkt, 1000, 1)
WHERE d.fence_label = 'white house'

kinetica spatiotemporal 07 25

اما اگر می‌خواهم دائماً نمای تازه‌ای از اینکه کدام کامیون‌ها در نزدیکی دیوارهای زمینی من هستند، داشته باشم، می‌توانم LLM را دریافت کنم تا به من در ایجاد نمای واقعی کمک کند.

با این اعلان شروع می‌کنیم: «کدام کامیون‌ها در ۵ دقیقه گذشته به ۲۰۰ متری نقطه‌ی دیدنی واشنگتن دی سی رسیدند؟ تمام ستون ها را نگه دارید و یک نمای مادی به نام landmark_trucks ایجاد کنید که هر ۱۰ ثانیه یک بار تازه می شود تا نتایج را ذخیره کند.

-- Which trucks came within 200 meters of a landmark in Washington DC in the last 5 mins? Keep all the columns and create a materialized view called landmark_trucks that refreshes every 10 seconds to store the results.
CREATE OR REPLACE MATERIALIZED VIEW landmark_trucks REFRESH EVERY 10 SECONDS AS
SELECT *
FROM truck_locations t
JOIN dc_landmarks d ON STXY_DWITHIN(t.x, t.y, d.wkt, 200, 1)
WHERE t."TIMESTAMP" >= NOW() - INTERVAL '5' MINUTE;

برای مهار حجم روزافزون داده‌های مکانی-زمانی، شرکت‌ها باید پلتفرم‌های داده خود را مدرن‌سازی کنند تا مقیاس تجزیه و تحلیل را انجام دهند و بینش‌ها و بهینه‌سازی‌هایی را ارائه دهند که کسب‌وکارشان به آن وابسته است. خوشبختانه، پیشرفت‌های اخیر در پردازنده‌های گرافیکی و هوش مصنوعی مولد آماده است تا دنیای تحلیل‌های مکانی-زمانی را متحول کند.

پایگاه‌های اطلاعاتی شتاب‌دهنده GPU، پردازش و کاوش داده‌های مکانی-زمانی را در مقیاس به‌طور چشمگیری ساده می‌کنند. با جدیدترین پیشرفت‌ها در مدل‌های زبان بزرگ  که برای زبان طبیعی به SQL تنظیم شده‌اند، تکنیک‌های تجزیه و تحلیل مکانی-زمانی را می‌توان فراتر از حوزه‌های سنتی تحلیلگران GIS و کارشناسان SQL در سازمان دموکراتیزه کرد. نوآوری سریع در پردازنده‌های گرافیکی و هوش مصنوعی مولد مطمئناً این فضا را به فضایی هیجان‌انگیز برای تماشا تبدیل می‌کند.

فیلیپ دارینگر معاون مدیریت محصول برای Kinetica است، جایی که او توسعه شرکت را راهنمایی می کند. پایگاه داده تحلیلی بلادرنگ برای سری های زمانی و بارهای کاری مکانی-زمانی. او بیش از ۱۵ سال تجربه در مدیریت محصول سازمانی با تمرکز بر تجزیه و تحلیل داده ها، یادگیری ماشین و هوش مکانی دارد.

Generative AI Insights مکانی را برای رهبران فناوری فراهم می کند تا چالش ها و فرصت های هوش مصنوعی مولد را بررسی و بحث کنند. این انتخاب گسترده است، از غواصی عمیق فناوری گرفته تا مطالعات موردی گرفته تا نظرات متخصص، اما همچنین ذهنی است، بر اساس قضاوت ما در مورد اینکه کدام موضوعات و درمان‌ها به بهترین وجه به مخاطبان فنی پیشرفته InfoWorld خدمت می‌کنند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. با doug_dineley@foundryco.com تماس بگیرید.