از آنجایی که پایگاههای داده با شتاب GPU سطوح جدیدی از عملکرد و دقت را به مجموعههای زمانی و حجم کاری فضایی میآورند، هوش مصنوعی مولد تجزیه و تحلیل پیچیده را در دسترس افراد غیر متخصص قرار میدهد.
دادههای مکانی زمانی، که از منابع متنوعی مانند تلفنهای همراه، حسگرهای آب و هوا، معاملات بازار مالی، و حسگرهای موجود در وسایل نقلیه و کانتینرها به دست میآیند، بزرگترین و سریعترین دسته داده را در حال گسترش نشان میدهند. تخمین های IDC دادههای تولید شده از دستگاههای متصل اینترنت اشیا تا سال ۲۰۲۵ در مجموع به ۷۳.۱ ZB خواهد رسید که از ۱۸.۳ ZB در سال ۲۰۱۹، ۲۶ درصد CAGR افزایش مییابد.
طبق گزارش اخیر اطلاعات بازبینی فناوری MIT، داده های اینترنت اشیا (اغلب با برچسب مکان) سریعتر از سایر داده های ساختاریافته و نیمه ساختار یافته رشد می کنند (شکل زیر را ببینید). با این حال، دادههای اینترنت اشیا به دلیل چالشهای مرتبط با یکپارچهسازی پیچیده و استفاده معنادار، توسط اکثر سازمانها تا حد زیادی دست نخورده باقی میمانند.
همگرایی دو پیشرفت تکنولوژیکی پیشگامانه، کارایی و دسترسی بیسابقهای را به حوزه تحلیل دادههای سری زمانی و مکانی میآورد. اولین مورد، پایگاههای داده با شتاب GPU است که سطوحی از عملکرد و دقت پیش از این دست نیافتنی را به مجموعههای زمانی و بارهای کاری فضایی میآورد. دومین مورد هوش مصنوعی مولد است که نیاز به افرادی را که هم دارای تخصص GIS و هم دانش برنامه نویسی پیشرفته هستند را برطرف می کند.
این پیشرفتها، هر دو به صورت فردی پیشگامانه، در هم تنیده شدهاند تا تحلیلهای مکانی و سریهای زمانی پیچیده را دموکراتیزه کنند و آن را برای طیف وسیعتری از متخصصان داده نسبت به قبل در دسترس قرار دهند. در این مقاله، من بررسی میکنم که چگونه این پیشرفتها چشمانداز پایگاههای داده مکانی و زمانی را تغییر میدهند و عصر جدیدی از بینشها و نوآوریهای مبتنی بر داده را آغاز میکنند.
چگونه GPU تجزیه و تحلیل مکانی-زمانی را تسریع می کند
این GPU که در اصل برای سرعت بخشیدن به گرافیک کامپیوتری و رندر طراحی شده بود، اخیراً نوآوری را در حوزه های دیگری که به محاسبات موازی گسترده نیاز دارند، از جمله شبکه های عصبی که قدرتمندترین مدل های مولد هوش مصنوعی امروزی را تامین می کنند، هدایت کرده است. به طور مشابه، پیچیدگی و دامنه تحلیل مکانی-زمانی اغلب توسط مقیاس محاسبه محدود شده است. اما پایگاههای داده مدرنی که میتوانند از شتاب GPU استفاده کنند، سطوح جدیدی از عملکرد را برای ایجاد بینش جدید باز کردهاند. در اینجا من دو حوزه خاص از تجزیه و تحلیل مکانی-زمانی را که توسط پردازندههای گرافیکی تسریع شده است، برجسته میکنم.
پیوستنهای غیردقیق برای جریانهای سری زمانی با مُهر زمانی متفاوت
هنگام تجزیه و تحلیل جریانهای متفاوت دادههای سری زمانی، مُهرهای زمانی به ندرت کاملاً همسو میشوند. حتی زمانی که دستگاهها به ساعتهای دقیق یا GPS تکیه میکنند، حسگرها ممکن است در فواصل زمانی مختلف خوانشهایی ایجاد کنند یا معیارهایی را با تأخیر متفاوت ارائه دهند. یا، در مورد معاملات سهام و مظنه سهام، ممکن است مُهرهای زمانی به هم پیوسته داشته باشید که کاملاً همسو نیستند.
برای به دست آوردن یک تصویر عملیاتی مشترک از وضعیت داده های ماشین خود در هر زمان معین، باید به این مجموعه داده های مختلف بپیوندید (به عنوان مثال، برای درک مقادیر واقعی سنسور وسایل نقلیه خود در هر نقطه از مسیر، یا برای تطبیق معاملات مالی در برابر جدیدترین مظنه ها). برخلاف دادههای مشتری، که در آن میتوانید با یک شناسه مشتری ثابت بپیوندید، در اینجا باید یک پیوستگی غیردقیق انجام دهید تا جریانهای مختلف را بر اساس زمان مرتبط کنید.
بهجای تلاش برای ایجاد خطوط لوله مهندسی دادههای پیچیده برای همبستگی سریهای زمانی، میتوانیم از قدرت پردازش GPU برای انجام کارهای سنگین استفاده کنیم. برای مثال، با Kinetica میتوانید از پیوستن ASOF
شتابدار GPU استفاده کنید، که به شما امکان میدهد با استفاده از یک بازه زمانی مشخص، یک مجموعه داده سری زمانی را به دیگری بپیوندید و اینکه آیا حداقل یا حداکثر مقدار در آن بازه باید برگردانده شود. .
به عنوان مثال، در سناریوی زیر، معاملات و مظنهها در فواصل زمانی متفاوتی میرسند.
اگر میخواهم معاملات اپل و قیمتهای مربوط به آنها را تجزیه و تحلیل کنم، میتوانم از پیوستن ASOF
Kinetica استفاده کنم تا فوراً مظنههای مربوطه را که در بازه زمانی مشخصی از هر معامله اپل اتفاق میافتند، بیابم.
SELECT * FROM trades t LEFT JOIN quotes q ON t.symbol = q.symbol AND ASOF(t.time, q.timestamp, INTERVAL '0' SECOND, INTERVAL '5' SECOND, MIN) WHERE t.symbol = 'AAPL'
این را دارید. یک خط SQL و قدرت GPU برای جایگزینی هزینه پیاده سازی و تأخیر پردازش خطوط لوله مهندسی داده پیچیده برای داده های مکانی و زمانی. این پرس و جو برای هر معامله، مظنه ای را پیدا می کند که نزدیک ترین قیمت به آن معامله بوده است، در عرض پنج ثانیه پس از معامله. این نوع اتصالات غیردقیق در مجموعههای دادههای سری زمانی یا مکانی ابزاری حیاتی برای کمک به مهار سیل دادههای مکانی-زمانی هستند.
جغرافیایی تعاملی میلیاردها نقطه
اغلب، اولین قدم برای کاوش یا تجزیه و تحلیل دادههای فضایی-زمانی اینترنت اشیا، تجسم است. به خصوص در مورد دادههای مکانی، ارائه دادهها در برابر نقشه مرجع سادهترین راه برای انجام بازرسی بصری دادهها، بررسی مسائل مربوط به پوشش، مشکلات کیفیت داده یا سایر ناهنجاریها خواهد بود. به عنوان مثال، اسکن بصری نقشه و تأیید اینکه مسیرهای GPS وسایل نقلیه شما واقعاً شبکه جاده را دنبال میکنند، در مقایسه با توسعه الگوریتمها یا فرآیندهای دیگر برای تأیید کیفیت سیگنال GPS شما، بینهایت سریعتر است. یا، اگر دادههای جعلی را در اطراف جزیره نول در خلیج گینه مشاهده کردید، میتوانید به سرعت منابع داده GPS نامعتبر را که ۰ درجه برای عرض جغرافیایی و ۰ درجه برای طول جغرافیایی ارسال میکنند، شناسایی و جدا کنید.
با این حال، تجزیه و تحلیل مجموعه دادههای جغرافیایی بزرگ در مقیاس با استفاده از فناوریهای مرسوم اغلب مستلزم مصالحه است. فنآوریهای مرسوم رندر سمت مشتری معمولاً میتوانند دهها هزار نقطه یا ویژگیهای جغرافیایی را قبل از رندر کردن باتلاقها و تجربه اکتشاف تعاملی به طور کامل مدیریت کنند. کاوش زیرمجموعه ای از داده ها، به عنوان مثال برای یک پنجره زمانی محدود یا یک منطقه جغرافیایی بسیار محدود، می تواند حجم داده ها را به مقدار قابل مدیریت تری کاهش دهد. با این حال، به محض شروع نمونهبرداری از دادهها، خطر دور انداختن دادههایی را دارید که مشکلات، روندها یا ناهنجاریهای خاص کیفیت داده را نشان میدهند که میتوانستند به راحتی از طریق تجزیه و تحلیل بصری کشف شوند.
بازرسی بصری نزدیک به ۳۰۰ میلیون نقطه داده از ترافیک حملونقل میتواند به سرعت مشکلات کیفیت دادهها را آشکار کند، مانند دادههای غیرعادی در آفریقا، یا باند در Prime Meridian.
خوشبختانه، GPU در تسریع تجسم ها عالی است. پلتفرمهای پایگاه داده مدرن با قابلیتهای رندر GPU سمت سرور مانند Kinetica میتوانند کاوش و تجسم میلیونها یا حتی میلیاردها نقطه و ویژگی جغرافیایی را در زمان واقعی تسهیل کنند. این شتاب عظیم شما را قادر میسازد تا تمام دادههای مکانی خود را فوراً بدون نمونهبرداری، تجمیع، یا هرگونه کاهش در وفاداری دادهها تجسم کنید. رندر فوری یک تجربه تجسم سیال را در حین حرکت و زوم فراهم می کند و کاوش و کشف را تشویق می کند. تجمیعهای اضافی مانند نقشههای حرارتی یا binning میتوانند بهطور انتخابی فعال شوند تا تجزیه و تحلیل بیشتر روی مجموعه دادهها انجام شود.
بزرگنمایی برای تجزیه و تحلیل الگوهای ترافیک کشتیرانی و سرعت کشتی در دریای چین شرقی.
دموکراتیک کردن تحلیل مکانی-زمانی با LLM
پرسشهای فضایی، که به رابطه بین فضا و زمان در دادهها مربوط میشوند، اغلب به طور شهودی با افراد غیرمستقیم طنین انداز میشوند، زیرا آنها تجربیات دنیای واقعی را منعکس میکنند. مردم ممکن است در مورد سفر یک کالا از لحظه ثبت سفارش تا تحویل موفقیت آمیز آن تعجب کنند. با این حال، ترجمه این سوالات به ظاهر ساده به کد عملکردی چالش بزرگی را حتی برای برنامه نویسان باتجربه ایجاد می کند.
بهعنوان مثال، تعیین مسیر بهینه برای یک کامیون تحویل که زمان سفر را به حداقل میرساند و در عین حال شرایط ترافیکی، بسته بودن جادهها و پنجرههای تحویل را در نظر میگیرد، به الگوریتمهای پیچیده و یکپارچهسازی دادههای بلادرنگ نیاز دارد. به طور مشابه، ردیابی گسترش یک بیماری از طریق زمان و جغرافیا، با در نظر گرفتن عوامل تأثیرگذار مختلف، نیازمند مدلسازی و تجزیه و تحلیل پیچیده است که میتواند حتی دانشمندان داده با تجربه را گیج کند.
این مثالها نشان میدهند که چگونه سؤالات مکانی-زمانی، اگرچه از نظر مفهومی قابل دسترسی هستند، اغلب لایههایی از پیچیدگی را پنهان میکنند که کدگذاری آنها را به یک کار دلهرهآور تبدیل میکند. درک عملیات ریاضی بهینه و سپس نحو تابع SQL مربوطه ممکن است حتی با تجربه ترین متخصصان SQL را به چالش بکشد.
خوشبختانه، آخرین نسل از مدلهای زبان بزرگ (LLM) در تولید کد صحیح و کارآمد، از جمله SQL، مهارت دارند. و نسخههای دقیق آن مدلهایی که بر روی تفاوتهای ظریف تحلیل مکانی-زمانی آموزش دیدهاند، مانند Kinetica a> LLM بومی برای SQL-GPT، اکنون می تواند قفل این دامنه های تجزیه و تحلیل را برای یک کاملا جدید باز کند. دسته کاربران.
به عنوان مثال، فرض کنید میخواستم مجموعه دادههای متعارف تاکسی شهر نیویورک را تجزیه و تحلیل کنم و سوالات مربوط به فضا و زمان را مطرح کنم. من با ارائه LLM با برخی زمینه های اساسی در مورد جداولی که قصد تحلیل آن را دارم شروع می کنم. در Kinetica Cloud، من میتوانم از UI یا دستورات پایه SQL برای تعریف زمینه تحلیل خود، از جمله ارجاع به جداول خاص استفاده کنم. نام ستون ها و تعاریف آن جداول با LLM به اشتراک گذاشته می شود، اما هیچ داده ای از آن جداول نیست. به صورت اختیاری، میتوانم نظرات، قوانین، یا نمونهای از نتایج پرس و جو را در زمینه اضافه کنم تا دقت SQL خود را بیشتر کنم.
هنگامی که زمینه اولیه را تنظیم کردم، میتوانم از SQL-GPT در Kinetica Cloud برای پرسیدن “۵ محله مبدا برتر برای سفر به فرودگاه JFK کدام بودند؟” LLM تنظیم شده فوراً SQL زیر را تولید می کند:
-- Which were the top 5 origin neighborhoods for trips to JFK airport? SELECT nta."NTAName" AS origin_neighborhood, COUNT(*) AS trip_count FROM "taxi_data_historical" AS taxi JOIN "nyct2020" AS nta ON ST_CONTAINS(nta."geom", ST_MAKEPOINT(taxi."pickup_longitude", taxi."pickup_latitude")) WHERE ST_CONTAINS(( SELECT "geom" FROM "nyct2020" WHERE "NTAName" = 'John F. Kennedy International Airport' ), ST_MAKEPOINT(taxi."dropoff_longitude", taxi."dropoff_latitude")) GROUP BY origin_neighborhood ORDER BY trip_count DESC LIMIT 5;
در عرض چند ثانیه، LLM تنظیم شده به من کمک کرد:
- تنظیم عبارت
SELECT
، ارجاع به جداول و ستونهای هدف مناسب، راهاندازیJOIN
و استفاده ازCOUNT(* )
،GROUP BY
،ORDER BY
وLIMIT
. برای کسانی که در SQL مهارت کمتری دارند، حتی آن ساخت پرس و جوی اولیه نیز یک شتاب دهنده فوق العاده است. - از توابع مکانی صحیح استفاده کنید، مانند
ST_MAKEPOINT()
برای ایجاد یک نقطه از طول و عرض جغرافیایی وST_CONTAINS()
برای پیدا کردن مناطق جغرافیایی که حاوی نقطه مشخص شده است. با کمک به من در انتخاب توابع و نحو مناسب، LLM می تواند به شروع سریع تجزیه و تحلیل فضایی برای کسانی که تازه وارد این زمینه شده اند کمک کند. - ارجاعات دنیای واقعی را به مکان ها و زمان ها ادغام کنید. من درباره «فرودگاه JFK» سؤال کردم، اما LLM توانست این مرجع را به منطقه جدولبندی محله به نام «فرودگاه بینالمللی جان اف کندی» ترجمه کند. یکی دیگر از صرفه جویی در زمان—متشکرم، LLM!
اکنون برای پاسخ به سؤال اولیه خود، پرس و جو را اجرا می کنم:
به طور مشابه، اگر از Kinetica SQL-GPT بخواهم به من کمک کند «تعداد کل افرادی را که در فرودگاه JFK بر حسب ساعت در روز دریافت کردهاند را بیابم»، SQL زیر را ایجاد میکند:
-- Find the total number of people who were picked up at JFK airport by hour of the day SELECT HOUR(pickup_datetime) AS hour_of_day, SUM(passenger_count) AS total_passengers FROM taxi_data_historical WHERE STXY_CONTAINS((SELECT geom FROM nyct2020 WHERE NTAName = 'John F. Kennedy International Airport'), pickup_longitude, pickup_latitude) GROUP BY hour_of_day ORDER BY hour_of_day;
این پرس و جو پیچیدگی بیشتری را در مورد جمع آوری تعداد مسافران در هر تاکسی و سطل بندی داده ها بر حسب ساعت در روز گنجانده است. اما LLM پیچیدگی را مدیریت کرد و فوراً SQL مناسب را تولید کرد.
برای کاربران پیچیدهتر، LLM میتواند پردازش مکانی-زمانی پیشرفتهتری را نیز انجام دهد. به عنوان مثال، در مثال بعدی، من میخواهم ناوگانی از کامیونها را برای تحویل در منطقه واشنگتن دی سی تجزیه و تحلیل کنم و میخواهم بفهمم کدام کامیونها در حال حاضر به مجموعهای از ژئوفنسها نزدیک هستند (در این مورد، بافرهایی در اطراف نشانههای معروف DC ).
میتوانم با یک سؤال اساسی در مورد نزدیکی به یک زمینساخت خاص شروع کنم، مانند “در حال حاضر چند کامیون منحصر به فرد در فاصله ۱۰۰۰ متری نقطه عطف کاخ سفید وجود دارد؟” و از Kinetica SQL-GPT برای تولید SQL زیر استفاده کنید:
-- How many unique trucks are currently within 1000 meters of the white house landmark? SELECT COUNT(DISTINCT r.TRACKID) FROM recent_locations r JOIN dc_landmarks d ON STXY_DWITHIN(r.x, r.y, d.wkt, 1000, 1) WHERE d.fence_label = 'white house'
اما اگر میخواهم دائماً نمای تازهای از اینکه کدام کامیونها در نزدیکی دیوارهای زمینی من هستند، داشته باشم، میتوانم LLM را دریافت کنم تا به من در ایجاد نمای واقعی کمک کند.
با این اعلان شروع میکنیم: «کدام کامیونها در ۵ دقیقه گذشته به ۲۰۰ متری نقطهی دیدنی واشنگتن دی سی رسیدند؟ تمام ستون ها را نگه دارید و یک نمای مادی به نام landmark_trucks ایجاد کنید که هر ۱۰ ثانیه یک بار تازه می شود تا نتایج را ذخیره کند.
-- Which trucks came within 200 meters of a landmark in Washington DC in the last 5 mins? Keep all the columns and create a materialized view called landmark_trucks that refreshes every 10 seconds to store the results. CREATE OR REPLACE MATERIALIZED VIEW landmark_trucks REFRESH EVERY 10 SECONDS AS SELECT * FROM truck_locations t JOIN dc_landmarks d ON STXY_DWITHIN(t.x, t.y, d.wkt, 200, 1) WHERE t."TIMESTAMP" >= NOW() - INTERVAL '5' MINUTE;
برای مهار حجم روزافزون دادههای مکانی-زمانی، شرکتها باید پلتفرمهای داده خود را مدرنسازی کنند تا مقیاس تجزیه و تحلیل را انجام دهند و بینشها و بهینهسازیهایی را ارائه دهند که کسبوکارشان به آن وابسته است. خوشبختانه، پیشرفتهای اخیر در پردازندههای گرافیکی و هوش مصنوعی مولد آماده است تا دنیای تحلیلهای مکانی-زمانی را متحول کند.
پایگاههای اطلاعاتی شتابدهنده GPU، پردازش و کاوش دادههای مکانی-زمانی را در مقیاس بهطور چشمگیری ساده میکنند. با جدیدترین پیشرفتها در مدلهای زبان بزرگ که برای زبان طبیعی به SQL تنظیم شدهاند، تکنیکهای تجزیه و تحلیل مکانی-زمانی را میتوان فراتر از حوزههای سنتی تحلیلگران GIS و کارشناسان SQL در سازمان دموکراتیزه کرد. نوآوری سریع در پردازندههای گرافیکی و هوش مصنوعی مولد مطمئناً این فضا را به فضایی هیجانانگیز برای تماشا تبدیل میکند.
فیلیپ دارینگر معاون مدیریت محصول برای Kinetica است، جایی که او توسعه شرکت را راهنمایی می کند. پایگاه داده تحلیلی بلادرنگ برای سری های زمانی و بارهای کاری مکانی-زمانی. او بیش از ۱۵ سال تجربه در مدیریت محصول سازمانی با تمرکز بر تجزیه و تحلیل داده ها، یادگیری ماشین و هوش مکانی دارد.
—
Generative AI Insights مکانی را برای رهبران فناوری فراهم می کند تا چالش ها و فرصت های هوش مصنوعی مولد را بررسی و بحث کنند. این انتخاب گسترده است، از غواصی عمیق فناوری گرفته تا مطالعات موردی گرفته تا نظرات متخصص، اما همچنین ذهنی است، بر اساس قضاوت ما در مورد اینکه کدام موضوعات و درمانها به بهترین وجه به مخاطبان فنی پیشرفته InfoWorld خدمت میکنند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. با doug_dineley@foundryco.com تماس بگیرید.
پست های مرتبط
تبدیل تجزیه و تحلیل داده های مکانی-زمانی با GPU و هوش مصنوعی مولد
تبدیل تجزیه و تحلیل داده های مکانی-زمانی با GPU و هوش مصنوعی مولد
تبدیل تجزیه و تحلیل داده های مکانی-زمانی با GPU و هوش مصنوعی مولد